文本挖掘核心技术及其应用
22
应用
——网络舆情监控 倾向性分析
自动聚合网络新闻并自动进行褒贬倾向性的分析。 对文章的观点进行倾向性分析和 统计,识别正负面信息。
23
应用
——网络舆情监控
通过对网络信息中的犯罪信息量的 分析计算来反映网民的安全感, 并进行分级; 通过对政府工作相关语料的褒贬分 析计算来描述公众对政府工作的满 意程度,并进行分级。
12
自动摘要
对文章中的所有句子进行权值运算,对所有的句子按权值排列,提取出权值大的作为 关键句,进而形成摘要。
13
目录
文本挖掘步骤
文本挖掘功能 文本挖掘应用
14
应用
——文档自动归类
预处理 特征表示 特征提取 特征约减 权值调整
文本源 原始数据
分词 过滤虚词
合并词根
过滤特征 计算权值
合并特征
结果展示 展示界面
应用
——电子商务网站
面临的问题
数据激增,且有大量的非结构化数据 如何从大量数据中发现有价值的客户 挖掘其内在规律
关键需求
分析商品之间的内在关联 发现有价值客户 对用户行为进行预测28ຫໍສະໝຸດ 应用——电子商务网站
网站产品评论挖掘:IT168网站是中国指导IT产品采购的知名媒体品牌,是国内最大、最
文本1
文本2
文本3 文本4
类别2: 关键词:旅游、黄金、游客、记者、旅行社、 中国、国家、假日、北京、线路
类别3: 关键词:公司、企业、招聘、面试、求职、专业、 职业、学生、大学、人才 ……
文本5
……
9
信息抽取
信息抽取是从文本中抽取指定的一类信息(事件、事实)并将其形成结构化的数据, 填入一个数据库中以供用户查询使用。
6
自动分词
7
自动分类
时政 社会 国际 评论 军事 文化 历史
莫言对话杨振宁: 来生学物理,当下 梦飞天
8
自动聚类
自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类 生成主题词,为用户确定类目名称提供方便。 类别1: 关键词: 比赛、赛季、联赛、球队、比分、 太阳、NBA、球员队员、领先
合并特征
结果展示 展示界面
模式提取 关联规则 分类模式 聚类模式
文本挖掘 关联分析 文本分类 文本聚类
4
文本挖掘主要功能及应用
实现功能
自动分词 自动分类 自动聚类 信息抽取 文本相似性检索 自动摘要
文本挖掘
应用
文档归类 舆情监控 垃圾邮件过滤 企业竞争情报系统 电子商务 客户自动问答
5
目录
文本挖掘步骤 文本挖掘功能 文本挖掘应用
24
应用
——企业竞争情报系统
面临的问题
企业情报采集效率低和实时性差 信息孤岛,缺少跨部门情报资源共享 情报内容存在重复性,资源没有得到有效整合
关键需求
自动化收集商业信息 对情报内容进行统一管理 根据情报内容,确定潜在威胁,及时预警,
并制定相应策略
25
应用
——企业竞争情报系统
伊利作为中国乳业巨头之一,面临多方竞争,必须密切关注对手动态,其最大的 竞争对手是蒙牛,因此,蒙牛公司的动态对伊利公司有很大的影响。采集2010年 6月至11月蒙牛官网的信息,对其进行分析。
警情: 蒙牛整合君乐宝,实现战略合作 警情分析:
整合事件极大程度转变蒙牛低温
市场地位,并提升蒙牛竞争力, 对伊利构成极大威胁; 提升蒙牛在华北地位,威胁伊利 华北市场战略地位; 发现共线词关系:君乐宝—低温; 华北;蒙牛—奶源,奶源—君乐宝
27
极大提升蒙牛奶源优势,对伊利 在奶源的竞争造成威胁。
6月 词频量 7月 词频量 8月 词频量 9月 词频量 10月 词频量 11月 词频量
激增词 频警报
合作
君乐宝
8
0
6
0
9
0
10
0
7
0
104
140
递增词 频警报
6月 词频量 奶源 9
7月 词频量 7
8月 词频量 17
9月 词频量 22
10月 词频量 29
11月 词频量 58
26
应用
——企业竞争情报系统
关键需求
舆情信息的采集与提取 话题发现与追踪 网络舆情倾向性分析
应用
——网络舆情监控
论坛
博客
新闻
难点
采集和提取
引擎
垂直 页面
20
应用
——网络舆情监控 热点分析
♥
所采集的网络 范围内重复程 度最高的话题
21
应用
——网络舆情监控 网络舆情摘要
♥
提取出几条最 重要的新闻,自 动生成摘要,生 成简报。
模式提取 分类模式
文本挖掘 文本分类
15
应用
——文档自动归类
16
应用
——垃圾邮件过滤
面临的问题
商家利用电子邮件传播大量广告 垃圾邮件持续攀升 逐一查看邮件浪费时间
关键需求
对垃圾邮件进行过滤 对邮件进行归类 邮件自动回复
17
18
应用
——网络舆情监控
面临的挑战
互联网的普及,网络舆论热点层出不穷; 民意表达向网络倾斜; 网络舆论一旦被错误控制和引导,影响社会稳定;
文本挖掘核心技术及其应用
目录
文本挖掘步骤 文本挖掘功能 文本挖掘应用
2
文本挖掘步骤
特征的 建立
文档集
特征集 的缩减
学习与知识 模式的提取
模式质量 的评价
知识模式
文本挖掘的一般处理过程
3
文本挖掘步骤
文本源 原始数据
预处理
特征表示
特征提取 特征约减 权值调整
分词 过滤虚词
合并词根
过滤特征 计算权值
会议时间 会议地点 会议召集者/ 主持人
1998年3月9日 北京 个人姓名/团 体名称Name 机构、职位 Org/Post 蒋正华 主席,农工民 主党中央
会议名称/标 题
中国农工民主党第十二届中央 常务委员会第一次会议
10
信息抽取
11
文本相似性检索
文本相似性检索式对一篇文档到索引库中查找与其内容重复率高的文档和相似的文 档。目前应用最广的是论文查重。
分:褒、中、贬 强度:良好、优秀
分类
分类和结果评价
特征词提取
特征标注
结果评价
如功能、价格、 屏幕等
程度副词和极性词
应用
——电子商务网站
挖掘结果及分析:
数字代表特征的极性平均值
诺基亚5800XM的功能强大,价格合理, 但是电池不太好;诺基亚5320XM的电池 不好,但功能齐全,价格实惠。
30
帮助消费者作出购买决策; 给商家提供客户满意度信息,并获得 产品优缺点,帮助商家改进营销策略 或者生产决策。
权威的导购咨询网站之一。从IT168网站下载三种产品的评论,分别是:诺基亚5320XM的 206篇评论、诺基亚5800XM的205篇评论和富士S5205EXR的72篇评论。如,以下是诺基亚 5320XM的一篇评论:
步骤: 文本源 原始数据
预处理 分词
词性标注 去除停用词
特征识别
语义极性分析 极性词识别 和强度确定 句子极性 分析