当前位置:文档之家› 文本数据统计分析

文本数据统计分析


计算词的权值;
计算句子的权 值;
对句子按权值 排行,权值最 高的句子被选 为摘要句;
将所有摘要句 按照在原文中 的出现顺序组 合输出。
1
2017/3/8 2017/3/8
2
3
4
13
13
语句短文情感分析
两个关键因素
语料知识库 分类算法
情感词典法(计算步骤)
Title in here
对每个句子进行分词; 读取情感词典, 获得词语的情感 强度; 用所有词语的正面 情感分值减去负面 情感分值,得到句 子的情感分值; 所有句子的情感分 值之和,就是整篇 短文的情感。
8
8
正文抽取及结构化
抽取识别网页的价值内容 自动剔除
导航性质的网页 网页中的标签与导航 广告等干扰性文字与图片
困难
多样且变化的网页结构
结构化要素
来源,大类别,标题,正文,时间 机构名称、人名、地名和产品名
2017/3/8 2017/3/8
9
9
正文抽取结构化
2017/3/8 2017/3/8
16
文本分类过程
文本表示 训练过程
训练文本 统计
特征表示
统计量
学习
分类器
新文本
文本特征表示 类别
分类过程
2017/3/8 2017/3/8
17
17
半监督学习分类
用户感兴趣 信息样本
模型
机器 学习
用户 反馈
分类 结果
2017/3/8 2017/3/8
18
18
文本聚类及热点分析
自主发现事物之间的特征并进行区分 未知分类标准与数量,有创造性发现 无监督学习算法 聚类结果不稳定(因素)
风控型库 风控知识库
数据
分析
内部业务数据 外部相关数据
2017/3/8 2017/3/8
数据 处理
外 部 算 法 工 具
28
28
Thank You!
Q&A
2017/3/8 2017/3/8
29
29
聚类方法 变量指标 数据预处理
热点分析
从大规模文档中自动分析出热点,并提供关键特征 基于主题词相关数量 基于内容理解
2017/3/8 2017/3/8
19
19
文本聚类过程
1. 2. 3. 4. 需要分析的数据集合 选取聚类特征 聚合计算后划分类别 给每个聚类标注关键词
2017/3/8 2017/3/8
2017/3/8 2017/3/8
14
14
语句短文情感分析
情感词典本体库
情感词库
词性种类(名词、动词、形容词。。。) 情感种类(喜、怒、哀、乐、愁。。。) 情感强度(轻微,一般,严重。。。) 极性种类(中性、正面、负面) “正面评价”词语,如:好,美,善良,才高八斗。。 “负面评价”词语,如:丑,坏,超标,华而不实。。。
否定词库 程度副词库
2017/3/8 2017/3/8
15
15
文本分类及过滤
预定义指定的规则和示例样本
词表分类法 特征向量分类法
应用
爬取过滤(剔除广告营销招聘信息) 抽取标签(情感强度,行业类别,来源类别)
监督学习算法
示例分类与人工标记
2017/3/8 2017/3/8
16
文本数据统计分析
Roben 2016年2月
大数据
变化快 体量大 种类多
结构化 半结构化 非结构化
2017/3/8 2017/3/8
2
2
产业链
显化
可视化应用(行业知识) 分析技术(行业知识)
分析/挖掘
计算技术
存储/管理
收集/处理
数据源
2017/3/8 2017/3/8
3
3
数据源

2017/3/8 2017/3/8
与 分析
9. 关联分析及主题追踪
10. 机器学习及预测分析
2017/3/8 2017/3/8
7
7
元搜索及去重
关键字组合 多家搜索引擎聚合 指定网站 困难
动态网页 爬虫封锁 验证码
基于搜索主题的爬取
词包扩展 过滤规则学习 行业知识库积累
2017/3/8 2017/3/8
22
22
机器学习及预测分析
训练-模型-预测
2017/3/8 2017/3/8
23
23
机器学习及预测分析
算法---受益于数据量与计算速度
有监督学习:线性回归,逻辑回归,神经网络, SVM,KNN,贝叶斯,决策树。 无监督学习:聚类算法,降维算法 特殊算法:推荐算法
历史往往不一样, 但历史总是惊人的相似 用途:预测与量化决策 问题:少数人在创造世界
4
4
计算技术

2017/3/8 2017/3/8
5
5
分析技术
2017/3/8 2017/3/8
6
6
1. 元搜索及去重 2. 正文抽取及结构化
文本
3. 分词及统计分析 4. 新词发现及词包扩展 5. 关键词提取及自动摘要 6. 语句短文情感分析 7. 文本分类及过滤 8. 文本聚类及热点分析
采集
10
10
分词及统计分析
词典 停用词 词频统计 词语转移统计
We understand 80% Autonomy
困难
发展中国家兔的饲养
/发展/中国/家兔/的/饲养/ /发展中国家/兔/的/饲养/
乒乓球拍卖完了 /乒乓球/拍卖/完了 和服务 /乒乓球拍/卖完了/
/和服/务
20
20
关联分析及主题追踪
从因果关系到经常连结关系 出现关联与语义关联 出现关联分析过程:从频繁集到关联规则 分析结果
关联规则和序列模式
主题追踪(语义关联)
与主题相关的起源与发展路径 信息量趋势与特征 转折点
2017/3/8 2017/3/8
21
21
关联分析示例
2017/3/8 2017/3/8
2017/3/8 2017/3/8
和/服务/
11
11
新词与词包扩展
人名、机构名、地 名、产品名、商标 名、简称、省略语 苹果/小米 毒大米
苹果/橘子
2017/3/8 2017/3/8
12
12
关键词提取及自动摘要
一、关键词提取法
提取文档中心思想的词汇或短语 方法:词频统计,热词
二、自动摘要法(计算步骤)
2017/3/8 2017/3/8
24
24
文本检索过程
2017/3/8 2017/3/8
25
25
搜索引擎结构
2017/3/8 2017/3/8
26
26
文本采集分析过程
2017/3/8 2017/3/8
27
27
大数据风控框架
产品 服务 搜 索 引 擎
征信数据库
更 多 价 值
金 融 征 信 业 务
相关主题