当前位置:
文档之家› 海量非结构化信息智能化处理共54页文档
海量非结构化信息智能化处理共54页文档
新华社多媒体库的技术特点
• 非结构化数据和结构化数据统一管理 • TRS多语言检索引擎 • 全面采用TRS文本挖掘技术 • 良好的集群扩展能力 • 索引服务器读写分离
国家知识产权局专利检索服务系统
• 2019年专利局引进了欧洲EPOQUE系统,基 于大型机的专利检索系统,每年的系统维 护费用就达数千万元
2019年规模 (亿元)
4.64 14.70
5.86
2019年规模( 亿元)
5.84 18.29
2019年规模( 亿元)
7.32 22.67
7.23
9.02
垂直搜索及舆情监测软件
4.11
5.53
7.45
总计
29.31
36.89
46.46
2019年,中国非结构化中文信息智能应用软件市场规模将达到46.46亿元,年均 复合增长率为25.8% 数据来源:赛迪顾问 2019,12
命名实体识别
• 关键点
– 实体识别算法+工程应用 – 行业知识库支撑 – 基于行业应用场景的实
体识别机制(公文、案 件、物品等)
• 难点
– 绰号、网名、小名、笔 名、艺名、指标名 称 ……
– 同名排歧 – 人物多重社会角色分析
实体关系的抽取
• 关键点
– 语境、上下文关系分析 – 关系引擎构建 – 面向行业的主题词典 – 角色关系词典 – 与RDBMS结合的联动挖掘
例
一、大数据管理的新挑战
一、大数据管理的新挑战
• 从互联网服务到企业信息化 • 从各取所需到集成和融合统一建模 • 从管理数据到理解和分析内容
大数据管理的新挑战 - 从互联网服务到企业信息化
•封闭的数据库世界 •有限的非结构化数据 管理能力 •缺乏低成本可扩展性
•推动了数据分析及非结构 化信息管理的技术突破 •Hadoop架构提供了巨大 的可扩展性和灵活性优势 •朝云服务方向发展,但是 并不适合很多企业计算环 境 •对非结构化信息本身的理 解非常有限
• 最早采用文件系统,后来改为Oracle,效率很低, 再改为Oracle+TRS ,持续服务至今
• 从大型机改为PC服务器集群
• 有采用云计算技术的计划
27000家 注册用户
8000多种 资源分类
多语种数据
PB级数据量
1.5亿条 原创新闻资讯
26000小时 权威原创视频
700万张图片
新华社多媒体数据库数据流转图
• 非结构化中文信息智能应用对象为非结构 化的中文文字信息,不包括音频、视频和 图像,非结构化中文信息智能应用软件市 场包括中文企业搜索软件、基于垂直搜索 的应用软件、内容管理软件和知识管理软 件等
2019年中国非结构化中文信息智能 应用软件市场细分产品规模与结构
规模(单位:亿元)
企业搜索软件
3.67
中国非结构化数据管理高峰论坛(CUDMS 2019)
海量非结构化信息智能化处理
施水才 北京拓尔思信息技术股份有限公司总裁
2019年1月6日 北京
提要
• 大数据管理的新挑战 • 海量非结构化信息智能化处理的关键技术
和典型应用 • 中国非结构化信息处理软件的市场概况 • TRS 非结构化数据管理和智能化处理系统 • TRS 海量非结构化信息智能化处理成功案
IBM,Oracle,Microsoft 都在致力解决这个问题
大数据管理的新挑战 -从管理数据到理解和分析内容
• 虽然大数据是一个重大问题,Gartner分析师表示, 真正的问题是让大数据更有意义
• 目前海量数据管理多从架构和并行等方面考虑,解 决高并发数据存取的性能要求及数据存储的横向扩 展,但对非结构化数据的内容理解仍缺乏实质性的 突破和进展,这是实现大数据资源化、知识化、普 适化的核心
内容管理软件
11.76
知识管理及竞争情报软件
4.78
垂直搜索及舆情监测软件
3.12
总计
23.33
数据来源:赛迪顾问 2019,12
百分比
15.7% 50.4% 20.5% 13.4% 100%
2019-2019年中国非结构化中文信息智能 应用软件市场细分产品规模预测
企业搜索软件 内容管理软件 知识管理及竞争情报软件
跨媒体 融合
情感计算
基于语义 的检索
语义智能计算
• 短语级的语义计算
– 相似短语、相关短语的计算 – 实体、要素间的关联关系挖掘 – 实体的情感分析 – 词语级的聚类分析。例:标签聚类 – 短语级的比对分析等。例:姓名、出生日期、学历、地址、单位
名称等
• 篇章级的语义计算
– 同语种、跨语种的相似文本计算(例:文章转载报道、文章消重 等)
的关联判定
• 难点
– 复句的句法逻辑与情感词汇的潜在 情感极性判断(并列复句、转折复 句、条件复句、递进复句等)
– 语气、语境与情感词汇融合的情感 分析(否定句、感叹句、疑问句)
多媒体标注和检索
• 图像检索 • 音频识别、分类和检索 • 视频摘要、字母提取 • 跨媒体检索
20
大规模挖掘的技术趋势
• **的实践
– 原来采用IBM咨询、产品、 服务整体解决方案
– 成本高、性能差 – 2019年全部改为TRS产品和
应用解决方案
内容管理、Web 2.0、电子商务、数据挖掘
TRS 舆情云服务系统
一套基于云计算平台的 包括社交网络在内的网 络舆情采集、搜索、智 能分析、导控处理的舆 情云服务系统
新闻:日均50万条 论坛:日均120万条
• 难点
– 类属关系识别(粮食:大豆) – 隐含关系发现(股东关系) – 关系链深度、广度挖掘 – 基于图论的可视化关联展示
信息抽取实例
人物关系挖掘实例
自动过滤与自动消重
• 关键点
– 垃圾广告信息的识别(群发) – 转载文章相似度比对技术 – 不同阈值的相似文章聚合 – 变异信息的识别与比对(篡改)
• 系统现状
– 已经部署数千台服务器,满足 了业务需求
• 挑战
– 性能和可扩展性 – 整合和调度
目前部署TRS 系统 2000多套,正在改进 系统架构,增强分布
式存贮、管理和查询 挖掘性能
**全球网站群(企业内容管理)
• 企业内容管理的发展趋势
– 互联网品牌宣传交互平台 – 互联网营销中心 – 互联网电子商务运营体系
– 分类模板的反馈学习机制
– 提供较实用的分类可信度评价指 标,供应用参考
关键词标引与自动摘要技术
• 关键点
– 基于位置、频度和背景词库 等多维度的标引和摘要引擎
– 行业词典支持 – 词性、短语类型、长度、特
殊符号标识
– 基于关键句的权值运算与筛 选的摘要策略
– 关键词驱动的偏重摘要
• 难点
– 基于语义的隐含标引
• 拓尔思信息技术股份有限公司是中国资本市场上唯 一的以非结构化信息处理为核心业务的上市公司 (300229),是中国非结构化信息处理领域的领导 者,核心技术包括企业搜索引擎、垂直搜索引擎、 内容管理、信息智能挖掘分析、舆情分析技术等
• 公司自主研发的TRS系列产品已被国内外3000多家 企业级机构客户广泛使用,覆盖了众多国家部委和 地方政府部门、国内主要新闻媒体、大型企业集团 等
书、说明书等全文数据规模大 – 各库数据结构差异大
• 查询要求高
– 严格的查全和查准要求 – 基于领域知识的智能检索 – 结构化和非结构化信息联合查询 – 相关专利推荐
专利检索与服务系统的数据种类与规模
100%查全率
6亿多条 专利记录
7×24 稳定可靠
多渠道异构 资源整合
1万注册用户
700-1000并 发
<1秒 响应时间
专利检索引擎数据流转图
专利检索与服务系统-外观图像检索
专利图像外观检索
• 局部检索 • 形状检索 • 纹理检索 • 不变性特征检索 • 草图检索 • 数据分类 • 数据聚类 • 基于相关反馈的检索 • 跨语言检索
某部**智能搜索和挖掘系统
• 系统特点:
– 巨大的数据量 – 多样性数据 – 数据极快速增长
• 难点
– 千万级数据消重的亚秒级响应机制 – 违规非法内容的判定与识别 – 跨语言的新闻信息转载识别
话题检测与追踪技术
• 关键点
– 海量信息片段的聚 合机制
– 话题相关度运算
• 难点
– 基于遗忘因子机制 的话题演化跟踪
– 敏感话题的及时发 现
情感分析
• 关键点
– 主观情感色彩语句、要素识别 – 倾向性语义模型库的构建 – 语义倾向性词典的倾向强度划分 – 情感持有者、情感极性与情感对象
• 是核高基“非结构化数据管理系统”清华 课题组参与单位
• 负责LaUD 的产品化和应用推广
五、TRS 海量非结构化信息智能化 处理成功案例
案例名称
• 新华社多媒体数据库 • 国家知识产权局专利检索服务系统 • 某部**智能搜索和挖掘系统 • 海尔全球网站群(企业内容管理) • TRS舆情云服务系统
• 非结构化海量信息的智能化处理:自然语言理解、 多媒体内容理解、机器学习等
目前所有大数据管理的解决方案 没有解决语义计算的基本问题:理解内容
二、海量非结构化信息智能化处理 的关键技术和典型应用
海量非结构化信息智能化 处理关键技术
பைடு நூலகம்
分类和聚类
关联关系 挖掘
个性化推荐
多媒体 内容理解
可视化展现
信息抽取
(包括跟帖) 博客:日均5万条 微博:日均5000万条 国外:日均25万条
舆情培训 公关处置
政府舆情 监测
企业口碑 监测
舆情报告
TRS SMAS舆情云服务平台