当前位置:文档之家› 光环大数据培训_ Palantir之核心技术探秘

光环大数据培训_ Palantir之核心技术探秘

光环大数据培训_Palantir之核心技术探秘1.Palantir源起:B2B大数据和企业级Google。

Palantir(中文名帕兰提尔,源于《指环王》中可穿越时空、洞悉世间一切的水晶球Palantír)被誉为硅谷最神秘的大数据独角兽企业,短短几年内跻身百亿俱乐部,成为全球估值排名第四的初创公司。

它的主要客户只在美剧和好莱坞里出现,如美国联邦调查局(FBI)、美国中央情报局(CIA)、美国国家安全局(NSA)、美国军队和各级反恐机构,当然还有如JPMorgan这样的华尔街金融大鳄等等。

关于Palantir的传奇故事很多,CIA通过他家的大数据技术追踪到本拉登;创始人Alex Karp师从德国的Jürgen Habermas(研究西方马克思主义)获得哲学博士,热衷中国气功和太极;帮多家银行揭露旁氏骗局挽回数十亿损失,帮助摩根大通解决欺诈交易和黑客攻击问题,每年节约数亿美元;公司创始人和投资人(号称“硅谷黑帮”)由海军陆战队员随时保护以防不测;产品只卖美国及其盟友国;与棱镜门有说不清楚的关系等…这些花边新闻不是本文的关注点,本文重点从大数据技术角度来揭密Palantir的B2B大数据王国。

如果说谷歌是互联网大数据的霸主(我在前文《从Tensorflow看谷歌的云端人工智能战略》有详细解读),那么Palantir的目标就是未来企业级大数据霸主,做企业和政府领域的Google。

为什么这样讲?从技术角度来分析,这是大数据发展的必然趋势,互联网上的数据多半是UGC用户产生内容,或是如电商平台这种某细分领域的独立生态数据,而真正的大数据金矿还在众多大型企业和政府机构的服务器集群中沉睡。

比如一个国家的情报部门和各部、各局信息中心,无不是掌握着成千上万关键领域的大数据,包括各种业务数据、监控数据、DNA样本、语音视频图片、地图时空数据等(当然前提是信息化程度及其发达,就像我们的税务系统一样,而不是房产登记系统),面对如此海量、多源、异构而且高关联性、复杂性、动态性大数据,如果没有快速的大数据分析技术和工具支持,那只能是望数兴叹。

而Palantir的大数据技术和产品就是专门针对大型企业和政府机构需求而生(与互联网公司的大数据技术有较大不同),其官方主页上的自我定位也很准确:“Palantir’s mission is to solve themost important proble msfor the world’smost important institutions.”。

企业级大数据玩家当然政府和金融是最具数权的两个领域,所以Palantir研发的平台级大数据产品只有两个版本:Palantir Gotham(服务政府事务,警务、军队、各级军事安全客户)和Palantir Metropolis(服务金融、法律及其它客户)。

如果说谷歌、亚马逊、Facebook等互联网巨头整合的是B2C大数据,那么Palantir整合的就是B2B大数据,多数企业和政府机构对大数据的应用还处于起步和探索阶段,互联网下或关键领域内网、专网中结合私有云技术的B2B大数据分析是大数据时代发展的必然,而且应用潜力和价值更为巨大,谷歌旗下DeepMind公司开始跟大其业务触角正在向传统行业延伸。

2.Palantir产品技术体系:军事、金融和警务大数据案例分析网上有个段子,虽然真假不能确认,但却能从中看出Palantir的发迹史:“美国911之后,CIA等部门忙于调查各种线索。

Stanford的几个教授以公开的海量信息为输入,利用大数据处理技术建立关于人物关系的网络,最后锁定了一批疑似人,并迅速将结果发布出去,使得CIA等部门大为震惊,因为教授们的结果与CIA花人力物力大量侦查和审讯的结果很近似,让CIA们误以为教授们有牵连,迅速飞到Stanford找教授们问话。

从此,“人脑+电脑“来分析复杂问题并辅助反恐成为可能”,Palantir正是在这一大背景下诞生和发迹的。

目前Palantir有两大核心产品,Palantir Gotham和Palantir Metropolis,前者主要服务于国防安全和政府管理领域,后者主要服务于金融领域。

两大产品体系下辖十多种解决方案,如反欺诈(Anti Fraud)、网络安全(Cyber Security)、国防安全(Defense)、内部威胁(Insider Threat)、危机应对(Crisis Response)、保险分析(Insurance Analytics)、案例管理(Case Management)、疾病控制(Disease Response)、智能化决策(Intelligence)等。

两个产品线的核心技术是服务客户整理、分析、利用不同来源的结构化和非结构化数据,创造一种人脑决策和计算机智能共生的大数据分析环境及工具系统,人脑和大数据分析互补,提升客户的决策洞察力。

Palantir在大数据江湖上最传奇的战绩,一是帮多家银行追回纳斯达克前主席麦道夫庞氏骗局的数十亿美金,二是帮助奥巴马政府追捕到本拉登。

下面我们以军事、金融、警务三个方面的案例来对其产品的服务内容和技术体系进行初步探索和分析:(1)以军事国防解决方案为例。

其核心目标是将多个军事情报领域的海量数据进行融合和关联分析,转化为可操作的决策指挥能力,多情报领域数据的集成和融合是要解决的关键问题,包括非结构化和结构化数据流,如链接图,电子表格,电话,文档,网络数据,传感器数据,甚至动态视频、图像等。

Palantir提供了一个基于本体映射的全量多模态数据融合和协同挖掘分析大数据支撑框架,可以对在地理、空间上分散的人、装备、环境、事件等进行大规模实时关联和因果分析,以指导复杂战场环境下的军事行动。

这些大数据技术已被美国军方广泛运用于战场态势分析和预测,如定位伊拉克战场可能存在的炸弹或地雷位置,帮助美军在巴格达规划一条被袭概率最小的路径,或者分析亚丁湾海盗活动的热点区域。

这些分析整合了美军等多方原本孤立的数据源(如军事情报部门和陆海空、海军陆战队等组织机构的数据),通过Palantir基于本体的大数据融合技术,无缝整合多源异构数据和进行分析模型协同,包括各类数据模型、安全模型和本体对象的管理,其全量数据分析和知识管理能跟踪每一个数据和模型的读,写和编辑、保存,以积累战场空间的决策知识。

基于通用的大数据融合和可视化分析平台,使指挥人员和调度人员能在单一系统内解决所有问题,包括敌人的活动情报分析(情报报告,事件行为等),关联分析(背景、关联、跟踪、反应等)和预判决策等功能。

下面几个图(图2-4)是Palantir 为美国军队提供的软件功能界面,国核心情报军事机构,帮助其实现作战打击链的全局决策支持,从分析情报、打击目标,再将军事行动中获得的新情报与现有大数据进行融合更新,极大提高了情报分析和指挥决策能力。

图2. 国防部和海军的一个联席分析功能界面,对其舰船、飞机、情报文本和相关战场环境资源做了融合和关联,在统一视图里面进行管控,技术实现上把上述现实资源通过本体论映射为各类事件、实体、对象及其关系。

图3. 阿富汗战场的融合分析功能界面,对各个区域的各类事件(武装袭击、爆炸、绑架等)进行了大规模关联分析,通过大规模数据可视化钻取和查询,可以找出事件之间的因果关系链。

图4. 战场空间感知态势图,战场环境下各类资源和事件总体态势分析,GIS/GPS/卫星图像整合各类数据图层的管理(2)以金融欺诈解决方案为例。

Palantir凭借其为政府服务的影响力,在2010年摩根大通成为它的首批非政府客户。

后来Palantir帮多家银行追回纳斯达克前主席麦道夫庞氏骗局的数十亿美金,名声大振,其出色的大数据技术获得华尔街金融大鳄们的认可,目前许多银行、保险、对冲基金,包括美国证券交易委员会都在使用Palantir的产品和技术。

反欺诈是金融领域的一项关键业务,信用评级、风险管理、关联交易、洗钱、逃税等都涉及此项分析内容。

而金融是信息化程度极高的行业,拥有海量的相关数据。

Palantir的Metropolis平台可将许多孤立的金融环境数据汇集到统一分析系统,通过回归关联建模、频繁项分析和知识图谱、社交网络等机器学习和大数据可视化技术挖掘出有价值的信息。

下面图5-6是Palantir金融版功能界面。

(3)以警务预测解决方案为例。

Palantir通过与美国各州的警队合作,将遍布在城市及乡镇各处卡口、警车上的摄像头拍下的照片及视频入库存储,与警方的人口数据库、犯罪数据库、DNA数据库等进行深度融合,提取出如车牌号码、人脸、DNA及体态等关键信息,这些信息虽然繁琐且表面看起来关联性不强,但其间却蕴藏着各式各样的关系(强、弱;直接、间接等),联系之间更是隐藏着深层的信息。

通过大规模数据可视化交互技术可将数据间有价值的关联关系深度挖掘出来,形成完整的证据链条,为警方节约大量的人力和时间,而且通过间接关联分析,一定程度上能解决线索中断的问题。

通过预测性警务模型分析历史犯罪数据,还能计算出最有可能在警察下一次执勤时发生犯罪活动的地点。

2011年,美国海关的一名情报人员在墨西哥被一群毒贩射杀,美国警方随即展开名为Operation Fallen Hero的行动,利用Palantir大数据技术,在浩瀚的人物、地点以及事件等等元素中间建立复杂的关系链,同时融合联邦探员自身掌握的信息,如大毒枭们,及其下线的融资渠道以及运毒路线,通过对与本案相关多源数据关联的可视化展现、交互分析,将分散隐蔽的证据、信息进行有效衔接,同时筛选排除干扰信息,将证据链完整呈现。

最终通过资金往来以及人际关系网络分大批毒品武器。

图8. Palantir系统锁定嫌疑人分析功能界面,通过整合各类人员信息,包括地址、邮件、电话、交易、消费、旅行等各类数据;事件、对象关系网络可视化,来分析各类人员信息和事件之间的关联关系,构造完整的证据链条。

通过上述三个解决方案的初步业务和技术分析,Palantir的核心技术关键词可见一斑。

一是敏捷大数据架构,构建了数据融合和可视化基础大数据分析架构,在数据规模可扩展性基础上,兼顾分析实时性和灵活性;二是全量的数据融合和关联存储,通过本体论抽象出各类数据资源的关系进行映射存储和关联索引设计;三是分析模型的动态组合和快速定制,针对不同分析场景可以快速组建分析模型;四是面向人机共生的大数据可视化技术,构造全局分析链,把人脑决策和数据可视化探索进行深度融合。

下面我们分别对这几个方面的核心技术进行探索和解读。

3.Palantir架构设计:敏捷大数据架构的优美实现如果AI时代谷歌的DeepMind是互联网的大脑(B2C-AI),那么Palantir很可能就是企业巨头和政府领域的AI大脑(B2B-AI)。

相关主题