当前位置:文档之家› 基于自动编码器的短文本特征提取及聚类研究

基于自动编码器的短文本特征提取及聚类研究


网络,将 高维 、稀疏 的短 文本 空间 向量变换 到新 的低 维 、本 质特 征空 问 。首 先在 自动编 码器 的基础 上,引入 Ll范式惩 罚项 来避 免模 型过 分 拟合,然后 添加 噪音 项 以提高 算法 的鲁 棒性 。实 验结 果表 明,将提取 的文本
特 征应用 于短 文本聚类 ,显 著提高 了聚类 的效果 ,有效 地解决 了短 文本空 间 向量 的高维 、稀疏 问题 。 关键词 深 度学 习;自动编码器 ;特 征提 7 4 ; 十E - ma i l : l i u k a n @z n u f e . e d u . c n
Ab s t r a c t Ac c o r d i n g t o t h e c h a r a c t e r i s t i c s o f s h o r t t e x t s , t h e a u t h o r s p r o p o s e a f e a t u r e e x t r a c t i o n a n d c l u s t e r i n g
在扩 充信 息方 面 。F a n等 f 1 借 助搜索 引擎扩 充文 本
的信 息 。Ba n e r j e e等 [ 1 ] 利用 维基 百科 的词条 信息 丰
富 文本 信 息 。邱 云 飞等 _ l 3 J 根据 文本 中包 含 的 3 种 特殊 符 号对 短文 本进 行 特征 扩展 。J i n等[ 1 ] 借 助 与 聚类 短 文本 内容 相似 的长文 本 内容 ,实现 短文 本 的 高 效 聚类 。T a n g等[ 1 5 ] 通 过 机 器 翻译 ,从 其 他 语 言
Ke y w or ds d ee p l ea r ni ng;a ut o— e nc ode r ; f ea t ur e e xt r a c t i on;c l us t e r i n g
互 联 网已经成 为人们 日常生活不 可或 缺的一 部 分, 越 来 越多 的人 习惯 于通过 微博 、新 闻 网站 、论
提 高文本 分类 的效 果 。G l o r o t等 7 ] 使用 该 自动编码 器 方 法,提取 出评 论 的高 层 抽象 特征 ,解 决 了跨 领
域 的文 本分 类 问题 。L u等[ 8 ] 利 用深 度 自动 编码 器
国家 社 会 科 学 基 金( 1 4 B XW0 3 3 ) 和 教育 部 人 文 社 会科 学 基 金 ( 1 1 YJ AZ H0 6 0 ) 资 助
型,成 功 地发 现 隐藏在 查询 和文档 中的层 次语 义结
棒性, 从 而 完成 从 大规模 无 标注 短文 本 中提取 低维
有 效特 征 的任务 。这样 得到 的结果 受外 部 因素 的影 响较 小 ,能够 提 高 聚类 的准确 度 , 还 能 保证 计 算 的
高效性 。
构 。 张 开旭 等 [ 1 o ] 将 自动 编 码 器 算 法 运 用 到 中 文词
2 算 法 流 程
2 . 1 基 本 思 路
基 于 噪 音 稀疏 的 自动 编码 ( d e n o i s e s p a r s e a u t o — E n c o d e r ,DS AE ) 文本 聚类算 法 的基本思 想是利 用深
度学 习 的 自动 编码 过程 ,将 短文 本 的高维 稀疏 向量
基于 自动编码 器的短文本特征提 取及聚类研究
刘勘 袁 蕴英
中南财 经政 法 大学 信息 与安 全工 程 学 院,武汉 4 3 0 0 7 4 ;十E - ma i l : l i u k a n @z n u f e . e d u . c n
摘 要 针对短 文本 的特点 ,提 出一种基 于深层 噪音 自动编码 器 的特 征提取 及 聚类 算法 。该算 法利用 深度学 习
性 标 注过 程 中 。 由此 可 见,依 靠深 度 学 习强大 的无 监 督 学 习特 征 的能力 ,自动 编码器 能 较好 地提 取 文
本 中 的隐含 特征 ,并 利用 这些 特 征解 决文 本 的分 析
与挖 掘 问题 。针 对短 文本 的聚类 问题 ,本 文也 首先 利 用 自动 编码器 来完 成文本 的特 征提 取 。 由于 短 文本 的词 频过 低 ,建立 的空 间 向量 往往
北京 大学 学报( 自然科 学版) 第 5 1 卷
d o i : 1 0 . 1 3 2 0 9  ̄. 0 4 7 9 - 8 0 2 3 . 2 0 1 5 . 0 4 0
第 2 期
2 0 1 5 年 3月
Ae t a S c i e n t i a r u m Na t u r a l i u m Un i v e r s i t a t i s P e k i n e n s i s , Vo 1 . 5 1 , No . 2( Ma r . 2 0 1 5 )
收稿 日期 : 2 0 1 4 — 0 7 — 2 7 ;修 回 日期 : 2 0 1 4 — 1 0 — 2 1 ;网络 出 版 日期 : 2 0 1 4 — 1 2 ~ 0 1
282
刘 勘 等 基 于 自动 编码 器 的短 文本 特 征 提取 及 聚 类研 究
算 法 ,为基 于词 汇的翻 译模 型提取 到有效 的特征集 ,
并 在 中英 文 翻译 过 程 中 取得 很 好 的 效果 。 S a l a h u -
量 的特 点,通 过 添加 L l范式 以避免 算法 的过 度拟 合 ,通 过对 输入 数据 进行 加 噪处 理 以提高模 型 的鲁
t d i n o v 等[ ] 在 自动 编码 器 的基 础 上扩 展 了 L S A 模
点 ,又 不 占用过 多 的 阅读 时间 。 因此,以微 博 为代 表 的短文本 成 为网络信 息交 流 的主要载体 。由于人 们本 身思 维 的发散 性 以及发 布方 式 的随意 性,短文 本 的结构极 其不 统一 。单条 短文本 提供 的信息 十分
器算 法 的基础上 添加 纠正激 活 函数 ,实验结 果表 明,
中抽 取特 征来 扩充 短文 本 的特 征值 。虽 然单 条短 文
本 的信 息 较少 ,仅 反 映某 个 小 方 面 的 内容 ,但 大 量
处理 ,构 建 向量 空 间模 型 ,每 条短 文 本都 会转 化成
空 间 中的一个 向量 ;然后将 这 些高 维稀 疏 向量 输入
到构 造好 的深 层 噪音 稀疏 自动 编码 器 中学 习,经 过
逐层 抽 象 ,提取 得 到低 维 抽象 的特征 向量 ,这 一 部 分还 包括正 则化 过程 和加 噪过程 。最后 利用 聚类算
相 同 主题 的短 文本 聚集 在一 起 ,就能 体 现该类 短 文
本 所具 有 的共性 ,因此 可 以作 为利用 关键 特 征来 降 低 向量 维 度 的 另 一 种思 路 。杨 婉 霞 等 [ 1 6 1 基 于 该 思 想提 出一 种语 义和统 计 特征相 结合 的短 文本 聚类 算
1 相 关 研 究
自动 编 码 器 是 深度 学 习 中一 种 重 要 的训 练 模 型 ,在 自然 语 言 处 理 中 取 得较 好 的效 果 L 3 】 ,也越 来 越受 到研究 人员 的重 视 。Gl o r o t等l 6 】 在 自动编码
文本 能让 读者 快速 了解 主题 内容 ,准 确理解 作者 观
针对 短文 本 特征 提取 及 聚类 问题,利 用深 度 学 习L 2 ] 的 思想 ,采用 自动编 码器 处 理技 术 ,提取 短 文本 中 的 隐含 特征 , 从 而得 到更准 确 的短 文本 聚类结果 。
坛 等 浏 览热 门话 题 、 了解 社 会 动态 、参 与 热 点讨
论 、发 布 自己的观 点 l 1 J 。 由于 网络 的 高速 与便 捷 , 大部 分 网络信 息都是 以短文本 的形式存 在 ,这些 短
a l g o r i t h m n a me d d e e p d e n o i s e s p a r s e a u t o — e n c o d e r .T h e a l g o r i t h m t a k e s t h e a d v a n t a g e o f d e e p l e a r n i n g ,
p a r a d i g m i s i n t r o d u c e d t o a v o i d o v e r i f t t i n g ,a n d t h e n o i s e i s a d d e d t o i mp r o v e t h e r o b u s t n e s s . Ex p e r i me n t a l r e s u l t s ho ws t h a t a p p l y i n g e x t r a c t e d t e x t f e a t u r e s c a n s i g n i ic f a n t l y i mp r o v e t h e e f f e c t i v e n e s s o f c l u s t e r i n g .I t i s a v a l i d me t h o d t o s o l v e t h e h i g h — d i me n s i o n a l , s p a r s e p r o b l e m i n t he s h o r t t e x t v e c t o r .
是 高 维 且稀 疏 的 ,为 相 似 度 计 算 带来 较 大 的 困难 ,
使文 本分 析 的效果较 差 。 目前 的解 决方 法 主要集 中
转化 为低 维 向量 ,并且 学 习过程 使低 维 向量包 含 文
本信 息 的本 质特 征,去 除高维 中不 必要 的干扰部 分, 由此 得 到 的结 果 用 于聚类 分析 ,能够 提 高最终 的聚 类效 果 。算 法分 为 5个 过程 。首先对 短文本 进行 预
相关主题