当前位置:文档之家› 公安视频大数据平台

公安视频大数据平台

公安大数据平台视频大数据平台1.1.1.Hadoop基础平台系统设计和实现基于Hadoop为基础平台,采用分布式文件系统、分布式列式数据库对数据进行存储,融合流式计算、批处理计算及即席查询多种计算模式,实现数据快速处理的同时极大提高了系统的可扩展性。

1、HDFSHDFS (Hadoop Distributed File System) 是Hadoop项目的核心子项目;是Hadoop主要应用的一个分布式文件系统。

它可以运行于廉价的商用服务器上。

总的来说,可以将HDFS的主要特点概括为以下几点。

(1) 处理超大文件这里的超大文件通常是指数百GB、甚至数百TB大小的文件。

在Yahoo!, Hadoop集群也已经扩展到了4000个节点, 用来存储管理PB ( PeteBytes)级的数据。

(2) 流式地访问数据HDFS的设计建立在更多地响应“一次写入、多次读取”任务的基础之上。

一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。

对HDFS来说,请求读取整个数据集要比读取一条记录更加高效。

(3) 运行于廉价的商用机器集群上Hadoop设计对硬件需求比较低,只须运行在廉价的商用硬件集群上,而无须昂贵的高可用性机器上。

2、MapReduceMapReduce是一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。

与传统数据仓库和分析技术相比,MapReduce适合处理各种类型的数据,包括结构化、半结构化和非结构化数据。

MapReduce广泛应用于日志分析、海量数据排序、在海量数据中查找特定模式等场景中。

在Hadoop中,每个Mapreduce任务都被初始化成为一个job。

每个job又可以分为两个阶段:Map阶段和Reudce阶段。

这两个阶段分别用两个函数来表示,即Map函数和Reduce函数。

Map函数接收一个<key,value>形式的输入,然后同样产生一个<key,value>形式的中间输出,Hadoop会负责将所有具有相同中间key值得value集合到一起传递给Reduce函数,Reduce函数接收一个如<key,(list of values)>形式的输入,然后对这个value集合进行处理,每个reduce 产生0或1个输出,Reduce的输出也是<key,value>形式的。

3、HBaseHbase即Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range 来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。

主要用来存储非结构化和半结构化的松散数据。

与Hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。

HBase 从2008 年第一次商用开始,已经被越来越多的在线服务公司所采用。

其中最大的是Facebook 新上线的整合Email, SNS , Chat 和短消息的在线即时消息系统。

4、KafkaKafka (Adistributed publish-subscribe messaging system)是一个消息订阅和发布的系统,Kafka主要用于处理活跃的流式数据,有如下优势和特点:(1)以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能。

(2)高吞吐率。

即使在非常廉价的商用机器上也能做到单机支持每秒100K 条消息的传输。

(3)支持Kafka Server间的消息分区及分布式消费,同时保证每个partition 内的消息顺序传输。

(4)同时支持离线数据处理和实时数据处理。

1.1.2.数据采集平台数据采集平台采用分布式架构,通过集群化部署提升系统数据采集与数据清洗能力。

在数据采集方面,每一种数据源采用独立的数据模板与进程,在实现对数据适配采集的同时,通过进程隔离技术保证采集平台的稳定性,即,在不影响系统正常工作的情况下,可以动态增加对新增数据源的适配,任何一种数据接口故障将不会影响其他接口的正常工作。

⏹大数据采集平台主要由以下模块组成➢数据模板数据通过可视化工具自定义格式模板,即,针对每一种数据配置定制化模板,并建立起与标准化数据模板的映射关系,通过配置自定义模板和字段映射,快速实现数据的采集和字段适配。

➢规则引擎数据从来源端进行抽取、转换、加载至目的端规则的集合,通过数据采集规则的定义实现定制化的数据采集过程。

➢分布式数据清洗数据清洗服务实现待采集数据的标准化转换,通过采集控制分发数据清洗规则到多个采集器组的方式实现分布式的数据清洗采集。

➢集群管理实现数据采集平台集群化部署与管理,实现各个数据采集节点的任务管理、负载均衡、状态管理、异常监控、吞吐量控制等。

➢数据管道低延时高吞吐量的分布式数据传输高速通道,同时满足在线数据传输和离线数据传输的数据管道。

在数据的生成者与消费者之间屏蔽数据类型和来源的差异,实现数据传输的高吞吐量、灵活性和稳定性。

⏹大数据采集平台特点➢整合能力强通过配置数据模板和规则就可以实现对新增数据的采集,可以灵活应对各类数据资源的整合。

➢稳定性高采用进程隔离技术将不同数据采集接口隔离,防止单接口故障造成对系统的影响。

➢部署灵活系统采用分布式架构,可以根据前端数据量灵活配置集群节点数据,动态增加数据采集节点不影响系统正常工作。

➢传输可靠分布式数据传输通道在实现高数据吞吐量的基础上,通过数据的缓存机制实现数据传输的稳定性。

对重要数据进行属性配置防止重要数据在极限情况下溢出、丢失。

1.1.3.大数据平台⏹平台主要模块如下➢分布式文件系统HDFS分布式文件系统采用Hadoop大数据分布式文件系统,适应多种底层硬件,具有高容错性、高吞吐量、批量数据访问等特点,适合超大数据集存储应用。

➢分布式数据库MPPDB分布式数据库实现关系型数据的分布式存储与查询,通过数据分片技术提高超大体量数据查询与存储性能。

➢结构化数据存储Hbase架构化数据存储融合了多种索引技术、分布式事物处理、全文实时检索、图数据检索技术等多种NoSQL实时处理技术,支持面向应用的在线OLTP、高并发OLAP和批处理等。

➢云存储PFS云存储用于存储视频和图片文件的专业云存储系统,基于对视频文件进行的流化索引处理,可以为应用层提供快速精准的视频检索和定位服务,对图片等小文件的打包整合,有效提升了对海量小文件的访问效率。

➢数据仓库DW数据仓库实现多维度的数据信息提取、数据聚类以及数据的预处理,形成与业务应用相关的基础库、内存数据库和专题库等,是系统多种数据资源提取与预处理结果的集合。

➢资源调度管理Yarn/ZooKeeper资源调度管理采用分布式资源管理、作业调度和应用程序协调调用框架,实现将多个应用集群在一个物理集群的运行,经过优化后,可实现多任务按照时间、数据量变化等灵活触发运行。

➢离线计算MR分布式批处理计算框架,将输入的数据集切分成块后并行处理、排序再归集的整个过程,支持PB级数据的离线处理。

➢内存计算Spark内存计算基于ApacheSpark开发的专用分布式计算引擎,不仅提高了计算性能,而且解决了Spark自身诸多的稳定性问题,在海量小数据比对、关系分析等应用方面性能有明显提升。

➢实时计算Streaming实时流数据计算处理模块基于Twitter Storm技术,具备流数据计算处理能力和复杂的业务应用逻辑。

通过在集群内将实时流数据组成运算处理流水线,依次完成信息提取、数据分析、规则判断等数据计算,实现高吞吐数据的实时并发处理。

➢图计算NP Graph+图计算模块基于“图论”基础实现对数据元素关系的抽象处理,通过对数据节点、边和权重等数据分析处理,建立数据实体之间的关联性,支持TB级数据间数据关系查询、关系网络分析等应用。

➢机器学习SparkMLlib机器学习模块基于SparkMLlib技术,是海量数据平台的分布式机器学习计算引擎。

通过Spark分布式计算框架以及MapReduce分布式计算框架,面向上层应用,集成统计算法、分类算法、聚类算法、回归算法、时序分析、关系图推理等算法,实现基于海量数据的数据规律挖掘和特定类数据规律的自学习。

➢数据检索Search针对系统中数据的特点和应用特点,整合优化Hbase数据查询、ElasticSearch 等数据查询技术,实现高效的数据模糊查询、条件组合查询和信息全文检索,性能可实现千亿级数据查询秒级返回。

➢数据分析SparkSQL基于公安大数据平台业务应用对数据模型的定义,将特定数据分析场景进行规则配置和执行优化,实现多SQL的关联执行。

➢视频数据分析Poseidon面向视频大数据分析应用的Poseidon平台,主要实现对车辆轨迹数据、人脸抓拍数据和视频行为数据等的综合应用,支持车辆轨迹研判、人脸与其他数据并轨分析和视频行为关联分析等应用,实现视频数据资源与其他数据资源的关联应用。

➢视频云计算PCC视频云计算是专门针对海量视频运算处理的网格化运算架构,视频云计算专注解决视频应用中大数据量并行计算、实时计算与海量视频数据检索问题,能过极大限度利用计算资源,提供高效率的视频运算处理服务。

➢业务调度引擎SFE业务调度引擎实现应用层对大数据平台能力的调用,将业务应用功能转化为平台模块业务逻辑,通过对底层能力模块的调用、组合,向应用层提供业务操作即时响应和各类数据的灵活展现。

相关主题