1、简述大数据的来源与数据类型大数据的来源非常多,如信息管理系统、网络信息系统、物联网系统、科学实验系统等,其数据类型包括结构化数据、半结构化数据和非结构化数据。
2、大数据产生的三个阶段(1 )被动式生成数据(2 )主动式生成数据(3)感知式生成数据3、大数据处理的基本流程1.数据抽取与集成2.数据分析3.数据解释4、大数据的特征4V1O Volume , Variety , Value , Velocity , On-Line5、适合大数据的四层堆栈式技术架构6、大数据的整体技术和关键技术大数据的整体技术一般包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等) 。
7、新一代数据体系的分类新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其归纳到线上行为数据与内容数据两大类别。
8 EDC系统的定义临床试验电子数据采集(Electric Data Capture ,EDC系统,在临床试验中的应用可以有效解决纸质CRF存在的问题。
EDC是通过互联网从试验中心(Sites )直接远程收集临床试验数据的一种数据采集系统。
9、EDC系统的基本功能数据录入、数据导出、试验设计、编辑检查、操作痕迹、系统安全、在线交流、医学编码和支持多语言。
10、EDC系统的优点(1 )提高了临床研究的效率,缩短了临床研究周期(2 )通过逻辑检查提高了数据质量(3)对研究质量的监测更加方便11、大数据采集的数据来源大数据的三大主要来源为商业数据、互联网数据与传感器数据。
12、网络数据采集和处理的四个主要模块网络爬虫(Spider )、数据处理(Data Process )、URL 队列(URL Queue )和数据(Data )。
13、大数据集成在大数据领域中,数据集成技术也是实现大数据方案的关键组件。
大数据中的集成是将大量不同类型的数据原封 不动的保存在原地,而将处理过程适当的分配给这些数据。
这是一个并行处理的过程,当在这些分布式数据上执行请 求后,需要整合并返回结果。
14、数据集成时应解决的问题数据集成时应解决的问题包括数据转换、数据的迁移、组织内部的数据移动、从非结构化数据中抽取信息和将数 据处理移动到数据端。
15、网络数据处理的四个模块及主要功能分词( Words Analyze )、排重( Content Deduplicate )、整合( Integrate )和数据,如图 2-17 所示。
这四个模块的主要功能如下。
21、数据可视化流程1) 分词 对抓取到的网页内容进行切词处理。
2) 3) 排重 整合 对众多的网页内容进行排重。
对不同来源的数据内容进行格式上的整合。
包含两方面的数据, Spider Data 和 Dp Data 。
16、大数据建模概念 大数据建模是为了理解事物而对事物做出的一种抽象,是对事物的一种无歧义的书面描述。
17、大数据分析模式分类4) 数据 根据实时性,可分为在线分析和离线分析根据数据规模,可分为内存级、 BI 级和海量级 根据算法复杂度的分类18、大数据建模流程定义问题、数据理解、数据准备、模型建立、模型评估、19、大数据建模应遵循的规律模型更新与结果部署等。
以业务目标作为实现目标 业务知识是每一步的核心 做好数据预处理试验对寻找解决方案是必要的 数据中总含有模式 数据挖掘增大对业务的认知 预测提高了信息作用能力大数据建模的价值不在于预测的准确率 模式因业务变化而变化20、数据可视化的概念 数据可视化技术是指运用计算机图形学和图像处理技术, 用数据分析和开发工具发现其中未知信息的交互处理的理论、将数据转换为图形或图像,然后在屏幕上显示出来,利 方法和技术。
测序数据可视化 分子结构数据可视化 关系网络可视化 临床数据可视化可扩展(Scalable ) 低成本(Economical )高效率(Efficient ) 可靠(Reliable ) 25、Hadoop 的核心模块HDFS Ma pReduce Commo 及YARN 其中HDFS 提供了海量数据的存储,Map Reduce 提供了对数据的计算,Common为在通用硬件上搭建云计算环境提供基本的服务及接口, YARr 可以控制整个集群并管理应用程序向基础计算资源的分配。
26、 YARN 的基本设计思想将Map Reduce 中的JobTracker 拆分成了两个独立的服务:一个全局的资源管理器 ResourceManager 和每个应用程 序特有的ApplicationMaster 。
其中ResourceManager 负责整个系统的资源管理和分配,而 AppIicationMaster 则负 责单个应用程序的管理。
27、 HiveHive 最早是由Facebook 设计,基于Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表, 并提供类SQL 查询功能。
28、HBaseHBase 即HadoopDatabase ,是一个分布式、面向列的开源数据库。
HBase 主要用于需要随机访问、实时读写的大数据。
Avro 是一个数据序列化系统。
类似于其他序列化机制,Avro 可以将数据结构或者对象转换成便于存储和传输的格 其设计目标是用于支持数据密集型应用,适合大规模数据的存储与交换。
Chukwa 是开源的数据收集系统,用于监控和分析大型分布式系统的数据。
24、Hadoop 优点 1)23) 4)29、 Avro式,30、 Chukwa31、 Pig4)多种数据集成支持方式Pig 是一个对大型数据集进行分析和评估的平台。
32、Spark 原理Spark 是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP 实验室开发,支持内存计算、多迭代批量处理、流处理和图计算等多种范式。
Sp ark 基于Ma pReduce 算法实现的分布式计算,拥有Map Reduce 所具有的 优点;但不同于MapReduce 的是Job 中间输出和结果可以保存在内存中,从而不再需要读写 地适用于数据挖掘与机器学习等需要迭代的Map Reduce 的算法。
33、Spark 的优点轻量级快速处理 支持多语言 支持复杂查询 实时的流处理可以与Hadoop 数据整合34、HDFS 的设计目标高效的硬件响应 流式数据访问 大规模数据集 简单的一致性模型异构软硬件平台间的可移植性35、HDFS 架构一一解释下图Mftfidaia\NameHnfplicas* ...) .'home'(iTO'dnla I —*^2,1..-BE □ E □ 0*iJoLa答案在P107-P108CliemName©©Cliei ilHDFS 因此Spark 能更好Scttjndafy0 0 □ a □ a36、以一个文件File A (大小100MB为例,说明HDFS勺工作原理。
读操作流程答案在P109-P11137、HDFS的4类源代码基础包实体实现包应用包WebHDF相关包38、MapReduceMap Reduce是一个针对大规模群组中海量数据处理的分布式编程模型。
HDFS 接 口远程过程调用接口 与客户端相关接口HDFS #服务器间的接口 HDFS 和 Map Reduce 的关系HDFS 在集群上实现了分布式文件系统, M ap Reduce 在集群上实现了分布式计算和任务处理。
HDFS 在 Map Reduce 任务处理过程中提供了对文件操作和存储的支持。
Map Reduce 在 HDFS 的基础上实现任务的分发、跟踪、执行等工作,并收集结果。
Map Reduce 技 术特征易于使用 良好的伸缩性大规模数据处理Map Reduce 工 作机制答案在P116-P11743、MapReduce 执行流程Map (映射)和Reduce (化简)是它的主要思想,Map 负责将数据打散,Reduce 负责对数据进行聚集,用户只需要实现Map 和Reduce 两个接口,即可完成 TB 级数据的计算。
39、 40、 41、42I向Map Reduce 框架提交一个计算作业时,它会首先进行 Split (分片),将File (文件)分配为多个数据片段,保证作业的并行效率。
然后 Map 把计算作业拆分成若干个 Map 任务,然后分配到不同的结点上去执行,每一个Map 任务处理输入数据中的一部分。
当Map 任务完成后,它会生成一些中间文件,把这些文件重新组织作为 Reduce 阶段的输入, 该过程称为Shuffle (洗牌),洗牌的操作一般包含本地化混合、分区、排序、复制及合并。
Reduce 任务的主要目标就是把前面经过洗牌的文件汇总到一起并输出。
44、CommonCommo 为Hadoop 的其他模块提供了一些常用工具程序包,主要包括系统配置工具 ConfigurationRPG 序列化机制和Hadoop 抽象文件系统FileSystem 等。
在通用硬件上搭建云计算环境提供基本的服务, 开发提供了 API 。
45、大数据的一致性策略CAP 即一致性(Consistency )、可用性(Availability )和分区容错性(Partition Tolerance 46、 大数据分区技术通过一定的规则将超大型表分割成若干小块来分别处理。
表进行分区时需要使用分区键来标志每一行属于哪一个 分区,分区键以列的形式保存在表中。
47、 几种常见的数据分区算法范围分区 列表分区 哈希分区48、分布式环境下的数据缓存技术特点 高性能动态扩展性 高可用性 易用性49、NoSQL 数据库种类键值(Key-Value )存储 列存储(Column-Oriented 文档(Document-Oriented 图形存储(Graph-Oriented、远程过程调用同时为软件) )存储存储类型特 性典型工具键值存储 可以通过键快速查询到值,值无需符合特定格式Redis列存储 可存储结构化和半结构化数据,对某些列的高频率查询具有很好的 I/O优势Bigtable 、Hbase Cassandra 文档存储 数据以文档形式存储,没有固定格式 CouchDB MongoDB 图形存储以图形的形式存储数据及数据之间的关系Neo4JBigtableBigtable 是Google 开发的一个分布式结构化数据存储系统,运用按列存储数据的方法,是一个未开源的系统。
Bigtable 数据库的架构答案在P135.53、Bigtable 数据库特点适合大规模海量数据,PB 级数据。