当前位置：文档之家› 海量非结构化信息智能化处理共54页文档

海量非结构化信息智能化处理共54页文档

新华社多媒体库的技术特点
• 非结构化数据和结构化数据统一管理 • TRS多语言检索引擎 • 全面采用TRS文本挖掘技术 • 良好的集群扩展能力 • 索引服务器读写分离
国家知识产权局专利检索服务系统
• 2019年专利局引进了欧洲EPOQUE系统，基于大型机的专利检索系统，每年的系统维护费用就达数千万元
2019年规模（亿元）
4.64 14.70
5.86
2019年规模（亿元）
5.84 18.29
2019年规模（亿元）
7.32 22.67
7.23
9.02
垂直搜索及舆情监测软件
4.11
5.53
7.45
总计
29.31
36.89
46.46
2019年，中国非结构化中文信息智能应用软件市场规模将达到46.46亿元，年均复合增长率为25.8% 数据来源：赛迪顾问 2019,12
命名实体识别
• 关键点
– 实体识别算法+工程应用 – 行业知识库支撑 – 基于行业应用场景的实
体识别机制（公文、案件、物品等）
• 难点
– 绰号、网名、小名、笔名、艺名、指标名称 ……
– 同名排歧 – 人物多重社会角色分析
实体关系的抽取
• 关键点
– 语境、上下文关系分析 – 关系引擎构建 – 面向行业的主题词典 – 角色关系词典 – 与RDBMS结合的联动挖掘
例
一、大数据管理的新挑战
一、大数据管理的新挑战
• 从互联网服务到企业信息化 • 从各取所需到集成和融合统一建模 • 从管理数据到理解和分析内容
大数据管理的新挑战 - 从互联网服务到企业信息化
•封闭的数据库世界 •有限的非结构化数据管理能力 •缺乏低成本可扩展性
•推动了数据分析及非结构化信息管理的技术突破 •Hadoop架构提供了巨大的可扩展性和灵活性优势 •朝云服务方向发展，但是并不适合很多企业计算环境 •对非结构化信息本身的理解非常有限
• 最早采用文件系统，后来改为Oracle，效率很低，再改为Oracle+TRS ，持续服务至今
• 从大型机改为PC服务器集群
• 有采用云计算技术的计划
27000家注册用户
8000多种资源分类
多语种数据
PB级数据量
1.5亿条原创新闻资讯
26000小时权威原创视频
700万张图片
新华社多媒体数据库数据流转图
• 非结构化中文信息智能应用对象为非结构化的中文文字信息，不包括音频、视频和图像，非结构化中文信息智能应用软件市场包括中文企业搜索软件、基于垂直搜索的应用软件、内容管理软件和知识管理软件等
2019年中国非结构化中文信息智能应用软件市场细分产品规模与结构
规模（单位：亿元）
企业搜索软件
3.67
中国非结构化数据管理高峰论坛（CUDMS 2019）
海量非结构化信息智能化处理
施水才北京拓尔思信息技术股份有限公司总裁
2019年1月6日北京
提要
• 大数据管理的新挑战 • 海量非结构化信息智能化处理的关键技术
和典型应用 • 中国非结构化信息处理软件的市场概况 • TRS 非结构化数据管理和智能化处理系统 • TRS 海量非结构化信息智能化处理成功案
IBM,Oracle,Microsoft 都在致力解决这个问题
大数据管理的新挑战 -从管理数据到理解和分析内容
• 虽然大数据是一个重大问题，Gartner分析师表示，真正的问题是让大数据更有意义
• 目前海量数据管理多从架构和并行等方面考虑，解决高并发数据存取的性能要求及数据存储的横向扩展，但对非结构化数据的内容理解仍缺乏实质性的突破和进展，这是实现大数据资源化、知识化、普适化的核心
内容管理软件
11.76
知识管理及竞争情报软件
4.78
垂直搜索及舆情监测软件
3.12
总计
23.33
数据来源：赛迪顾问 2019,12
百分比
15.7% 50.4% 20.5% 13.4% 100%
2019－2019年中国非结构化中文信息智能应用软件市场细分产品规模预测
企业搜索软件内容管理软件知识管理及竞争情报软件
跨媒体融合
情感计算
基于语义的检索
语义智能计算
• 短语级的语义计算
– 相似短语、相关短语的计算 – 实体、要素间的关联关系挖掘 – 实体的情感分析 – 词语级的聚类分析。例：标签聚类 – 短语级的比对分析等。例：姓名、出生日期、学历、地址、单位
名称等
• 篇章级的语义计算
– 同语种、跨语种的相似文本计算（例：文章转载报道、文章消重等）
的关联判定
• 难点
– 复句的句法逻辑与情感词汇的潜在情感极性判断（并列复句、转折复句、条件复句、递进复句等）
– 语气、语境与情感词汇融合的情感分析（否定句、感叹句、疑问句）
多媒体标注和检索
• 图像检索 • 音频识别、分类和检索 • 视频摘要、字母提取 • 跨媒体检索
20
大规模挖掘的技术趋势
• **的实践
– 原来采用IBM咨询、产品、服务整体解决方案
– 成本高、性能差 – 2019年全部改为TRS产品和
应用解决方案
内容管理、Web 2.0、电子商务、数据挖掘
TRS 舆情云服务系统
一套基于云计算平台的包括社交网络在内的网络舆情采集、搜索、智能分析、导控处理的舆情云服务系统
新闻：日均50万条论坛：日均120万条
• 难点
– 类属关系识别（粮食：大豆） – 隐含关系发现（股东关系） – 关系链深度、广度挖掘 – 基于图论的可视化关联展示
信息抽取实例
人物关系挖掘实例
自动过滤与自动消重
• 关键点
– 垃圾广告信息的识别（群发） – 转载文章相似度比对技术 – 不同阈值的相似文章聚合 – 变异信息的识别与比对（篡改）
• 系统现状
– 已经部署数千台服务器，满足了业务需求
• 挑战
– 性能和可扩展性 – 整合和调度
目前部署TRS 系统 2000多套，正在改进系统架构，增强分布
式存贮、管理和查询挖掘性能
**全球网站群（企业内容管理）
• 企业内容管理的发展趋势
– 互联网品牌宣传交互平台 – 互联网营销中心 – 互联网电子商务运营体系
– 分类模板的反馈学习机制
– 提供较实用的分类可信度评价指标，供应用参考
关键词标引与自动摘要技术
• 关键点
– 基于位置、频度和背景词库等多维度的标引和摘要引擎
– 行业词典支持 – 词性、短语类型、长度、特
殊符号标识
– 基于关键句的权值运算与筛选的摘要策略
– 关键词驱动的偏重摘要
• 难点
– 基于语义的隐含标引
• 拓尔思信息技术股份有限公司是中国资本市场上唯一的以非结构化信息处理为核心业务的上市公司（300229），是中国非结构化信息处理领域的领导者，核心技术包括企业搜索引擎、垂直搜索引擎、内容管理、信息智能挖掘分析、舆情分析技术等
• 公司自主研发的TRS系列产品已被国内外3000多家企业级机构客户广泛使用，覆盖了众多国家部委和地方政府部门、国内主要新闻媒体、大型企业集团等
书、说明书等全文数据规模大 – 各库数据结构差异大
• 查询要求高
– 严格的查全和查准要求 – 基于领域知识的智能检索 – 结构化和非结构化信息联合查询 – 相关专利推荐
专利检索与服务系统的数据种类与规模
100%查全率
6亿多条专利记录
7×24 稳定可靠
多渠道异构资源整合
1万注册用户
700-1000并发
<1秒响应时间
专利检索引擎数据流转图
专利检索与服务系统-外观图像检索
专利图像外观检索
• 局部检索 • 形状检索 • 纹理检索 • 不变性特征检索 • 草图检索 • 数据分类 • 数据聚类 • 基于相关反馈的检索 • 跨语言检索
某部**智能搜索和挖掘系统
• 系统特点：
– 巨大的数据量 – 多样性数据 – 数据极快速增长
• 难点
– 千万级数据消重的亚秒级响应机制 – 违规非法内容的判定与识别 – 跨语言的新闻信息转载识别
话题检测与追踪技术
• 关键点
– 海量信息片段的聚合机制
– 话题相关度运算
• 难点
– 基于遗忘因子机制的话题演化跟踪
– 敏感话题的及时发现
情感分析
• 关键点
– 主观情感色彩语句、要素识别 – 倾向性语义模型库的构建 – 语义倾向性词典的倾向强度划分 – 情感持有者、情感极性与情感对象
• 是核高基“非结构化数据管理系统”清华课题组参与单位
• 负责LaUD 的产品化和应用推广
五、TRS 海量非结构化信息智能化处理成功案例
案例名称
• 新华社多媒体数据库 • 国家知识产权局专利检索服务系统 • 某部**智能搜索和挖掘系统 • 海尔全球网站群（企业内容管理） • TRS舆情云服务系统
• 非结构化海量信息的智能化处理：自然语言理解、多媒体内容理解、机器学习等
目前所有大数据管理的解决方案没有解决语义计算的基本问题：理解内容
二、海量非结构化信息智能化处理的关键技术和典型应用
海量非结构化信息智能化处理关键技术
பைடு நூலகம்
分类和聚类
关联关系挖掘
个性化推荐
多媒体内容理解
可视化展现
信息抽取
（包括跟帖）博客：日均5万条微博：日均5000万条国外：日均25万条
舆情培训公关处置
政府舆情监测
企业口碑监测
舆情报告
TRS SMAS舆情云服务平台

e商务文档

海量非结构化信息智能化处理共54页文档

相关文档推荐：