当前位置:文档之家› 第二讲_大数据时代的情报分析

第二讲_大数据时代的情报分析


信息链的线性结构
数据
信息
知识
?
情报
数据、信息与情报的转化模型
数据加工工 数据 信息 信息分析 情报
知识
知识
科技情报工工作实例
数据
信息
检索 检索 知识 某主题的 数据集合 分析 分析 知识
情报
研究快报 研究报告
······
期刊论文文 会议论文文 专利数据
······
从数据到信息的转化
²
中途岛战役
² ²
²
²
一一名年轻军官却想到的‘AF方方位’是不是中途岛的 妙计。 他要求中途岛海军基地的司令官以无无线电向珍珠 港求救,说中途岛上的食水水供应站出现了问题, 导致整个中途岛面临缺水水的危机。 不久后,美国海军情报局便截夺到一一则JN-­‐25信 息,内容果然提到了‘AF方方位’出现缺水水问题。 结果‘AF方方位’便证实为中途岛,也就是日本海军 的下一一个攻击目标。
视频信息
视频信息是随着时间变化连续记载的可以 通过听觉与视觉感知的信息,在传媒、交 通等领域应用较多。 ² 中央电视台新闻联播举例
²
信息链的金金字塔结构
情报 知识 信息 数据
?
激活了、活化了的知识,反映人们 如何运用知识去解决实际问题。 对信息进行加工、分析、提取、评 价的结果,反映事物运动状态的规 律及状态变化的规律 有意义的数据,数据在媒介上的映 射,反映事物运动的状态及状态的 变化。 数据是事实的数字化、编码化、序 化化、结构化。
化柏林 huabolin@ 北京大大学信息管理 系
1 2 3 4
1/60
大大数据时代的情报新形势 情报分析转化理念与模型 情报服务实践与需求获取 数据时代的信息分析方方法
化柏林
时代标签
互联网网时代 ² 信息时代 ² 大大数据时代
²
大大数据情报工工作新形势
互联网网模式 ² 数据支撑 ² 多源融合 ² 全景扫描 ² 实时研判
²
1 2 3 4
1/60
大大数据时代的情报新形势 情报分析转化理念与模型 情报服务实践与需求获取 数据时代的信息分析方方法
化柏林
信息的类型
知识K1 知识K2 情报T1:位置 油田田位于东北大大庆
情报T2:规模 油田田覆盖四百公里里 知识K3 知识K4 情报T3:能力力 日日炼油100万千升
信息F5
情报T4:机遇 中国需要购买 轻炼油设备
音音频信息
²
音频信息是随着时间变化连续记载的可以 通过听觉感知的信息,在传媒、交通等领 域应用较多。
财务系 统 人事系 统 竞争对 手
单源 VS.多源
(1)单一一数据有失全面性,无无法全面刻画 事物以及事物状态的变化; ² (2)单一一数据的可靠性与真实性难以辨别, 通过多源数据的交叉印证有助于对数据的 真伪进行行辨别; ² (3)从单一一数据源中所能发现的情报是非 常单一一的,多源融合可以有更多发现,有 助于发现新的情报。
²
从信息到情报的转化
情报
去 伪 存 真 型
差 异 对 比 型
由 此 及 彼 型
化 零 为 整 型
见 微 知 著 型

信息
对比比分析型
情报的关键:知彼知己己、敌我对比 ² 情报的方方法:SWOT、定标比超等 ² 报告的形式:三段论
²
对比比分析型
机构:美国中情局(CIA) ² 时间:1986年3月 ² 报告:《苏联激光化学研究与应用》 ² 信源:苏联科学家发表在公开出版物上的 文文献, ² 结论:“我们确信苏联在激光化学领域的基 础研究水水平与美国相当或超过美国”
² ² ² ²
²
² ²
数据D1: eleven done one too many 信息IF1: 某间谍身上搜索到的火火柴盒上印有eleven done one too many字样 知识K1(常识知识):31是荷兰的国际电话区号 知识K2(专家知识):键上的首字母代替数字是加密 方方式的一一种 知识K3(专家知识):英文文单词的拆分与组合也是加 密方方式的一一种,如done=d+one,根据K2得出d是3,根 据语言言知识库得出one是1,因此done one对应着31 策略1:用什么样的线索,分析目标是什么 情报IT1:eleven done one too many的明文文一一个荷兰 的一一个电话号码,
分析 方方法
大大数据时代下的情报特点
面向服务 分 析 为 轴
数据为基
大大数据特点与分析理念
单一一数据
追求精确性
突出特点
多源数据
追求效率
目标
过程
注重因果分析
基础
注重相关分析
抽样数据
全体数据 价值密度 低 处理速度 快
数据量大
类型繁多
传统BI VS. 大大数据时代的BI
对比指标 数据类型 数据库类型 数据规模 数据存储方方 式 计算方方式 计算时效 分析方方法 分析结果 结果应用 传统BI 结构化数据 关系型数据库 TB以下 集中式,数据向计算 靠近 批处理为主 离线计算 统计分析+数据挖掘 报表展示 看数据 大大数据时代的BI 非结构化+结构化数据 集群 PB以上 分布式,计算向数据靠近 支持流式计算 实时分析+离线计算 统计分析+数据挖掘+深度学 习 智能决策 解读数据
²
科技情报的异构信息融合
期刊 论文文 会议 信息
学位 论文文
多源数据
项目 信息
专利 信息
著作 信息
竞争情报的多源信息融合
专利数据 库 论文数据 库 标准数据 库 政策法规 库 产品市场 库 购买合作数据
ERP系统 CRM系 统
多源数据
行业协 会 政府机 关 新闻媒 体
企业自有数 据
公开信息源

中途岛战役
美国海军情报局在与英国以及荷兰相关单位 紧密的合作下,开始成功的解读日本海军主 要通讯系统JN-­‐25的部分密码。 ² JN-­‐25让联军得悉‘AF方方位’将会是日本海军的 下一一个攻击目标,‘AF方方位’何在? ² 中途岛VS.阿留申群岛?
²
竞争核心心的改变
²
数据而而不是资本,正在成为整个社会最有 价值的资产,未来的竞争是对于数据资产 的竞争,而而不在于资本的竞争。
决策思维方方式的改变
IT时代改变了人人们生生活与工工作的模式 ² DT时代将要改变或正在改变人人们思维与决 策的模式
²
小小数据情报分析实例
²
大大庆油田田案例
• 时间:1966年 • 人人物:日本情报专家 • 来源:1966年7月的某期 《中国画报》 • 信息:关于王进喜的封面 照片 • 情报:判定中国油田位置 位于北纬46度至至48度的区 域,即中国东北的北部寒 冷地区。
信息F1 信息F2 信息F3 信息F4
³
传统谍报人人员特质
身体好,有独特气气质 ² 技术多面手手,如开锁、破译密码、截获信 号 ² 方方法灵活多变, ² 心心理素质过硬
²
大大数据时代情报人人员的特质
对信息高高度敏感 ² 具有专业检索技能 ² 善于综合运用多种分析方方法 ² 掌握系统的情报工工作流程与方方法 ² 知其情、报其告、防止止对手手先知道
竞争情报流程新旧对比比
传统的竞争情报流程 规划定向 大数据环境下的竞争情报流程 情报需求识别与定义
信息搜集
信息检索与数据采集
多源信息融合与清洗 加工 信息分析与内容挖掘 分析 结果解读与情报提炼 传播 报告撰写与情报传递
棱镜计划中的多源融合
通过Google的检索日志可以获取用户关注信 息的兴趣点以及关注热点的变化, ² 通过Facebook、paltalk等社交网网站可以了 解用户的人人际网网络与活动动态, ² 通过微软、yahoo可以掌握人人们联机工工作的 时间、方方式以及内容等。 ² 而而把这些信息融合到一一起,可以较为全面 地认识并掌握某个用户或某类群体的信息 行行为特征
信息
情 境 化 处 理
有 效 化 处 理
归 一一 化 处 理
细 分 化 处 理
精 练 化 处 理

数据
归一一化加工工
把“北大大”与“北京大大学”统一一为“北京大大学”, ² 把“网网络蜘蛛”、“爬虫虫”、“爬行行器”、“抓取 器”等归一一为“爬行行器” ² 把英文文、法文文、日文文等不同语种文文献资料 翻译成中文文
²
由此及彼型
²
相关性分析
非相关文文献知识发现 ³ 空白点分析
³
²
信息挪用:
由招聘信息分析研发计划 ³ 由投稿编号分析录用率
³
化零为整型
²
信息综合与汇聚
啤酒与尿布,根据零散的销售记录统计汇总发 现共被购买的规律 ³ 德国记者根据零散的新闻报道汇总敌军将领名 单 ³ 评审专家名单汇聚
文文本型信息
²
文文本型信息以人人类自然语言言为主要描述方方 式,重点体现在图书文文献领域,属于非结 构化的信息,例如期刊论文文、专利说明书、 政府报告等。
2. 中国知⺴网网的招聘信息
图形图像信息
图形信息是由各种各样的符号组成的,图像 信息是通过照相设备对客观事物外观的捕获 所获得的平面反映,大大家常把图形与图像信 息放在一一起,统称为图形图像信息。 ² 图像信息在医学、地理科学等领域应用较多
化柏林
大大数据情报分析案例
美国“棱镜”计划 ² 数据基础:Google、微软等用户数据 ² 分析:序列分析、模式分析 ² 结果:恐怖活动预测与监测、重点国家竞 争
²
数据来源
数据类型
⺫目目标任务
恐怖主义和恐怖分子子的关系、活动、联络、 意识形态 ² 宗教文文化变迁的战略影响 ² 中国与发展中国家的科学技术与军事转型 ² 能源和环境压力力对国家安全的影响 ² 战争发动投票支持的监控与拉拢 ² 国家和区域谈判合作支撑 ² 新兴经济增长点探寻
相关主题