当前位置:文档之家› 大数据课堂测验2

大数据课堂测验2

传统数据挖掘
大数据挖掘
样本数量
少量数据样本
分析与事物相关的所有数据,研究的样本数量趋近于总体数量
事物之间的关系
遵循事物之间的因果关系
寻找事物之间的相关关系
追求的目标
追求绝对的准确性
追求效率和趋势
挖掘方式
采集方法,内容分类,采信标准等都已存在即有规则,方法论完整
1、简述大数据的来源与数据类型
大数据的来源非常多,如信息管理系统、网络信息系统、物联网系统、科学实验系统等,其数据类型包括结构化数据、半结构化数据和非结构化数据。
2、大数据产生的三个阶段
(1)被动式生成数据
(2)主动式生成数据
(3)感知式生成数据
3、大数据处理的基本流程
1.数据抽取与集成
2.数据分析
21、数据可视化流程
22、数据可视化工具的特性
1)实时性2)简单操作3)更丰富的展现4)多种数据集成支持方式
23、数据可视化在生物领域中的应用
测序数据可视化
分子结构数据可视化
关系网络可视化
临床数据可视化
24、Hadoop优点
1)可扩展(Scalable)
2)低成本(Economical)
3)高效率(Efficient)
3.数据解释
4、大数据的特征
4V1O Volume,Variety,Value,Velocity,On-Line
5、适合大数据的四层堆栈式技术架构
6、大数据的整体技术和关键技术
大数据的整体技术一般包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、开发大数据安全大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
26、YARN的基本设计思想
将MapReduce中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster则负责单个应用程序的管理。
适用于廉价设备。
适合于读操作,பைடு நூலகம்适合写操作。
不适用于传统关系型数据库。
54、云计算定义
云计算是一种用于对可配置共享资源池(网络、服务器、存储、应用和服务)通过网络方便的、按需获取的模型,它可以以最少的管理代价或以最少的服务商参与,快速地部署与发布。
55、云计算基本特征
规模经济性
强大的虚拟化能力
高可靠性
7、新一代数据体系的分类
新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其归纳到线上行为数据与内容数据两大类别。
8、EDC系统的定义
临床试验电子数据采集(Electric Data Capture,EDC)系统,在临床试验中的应用可以有效解决纸质CRF存在的问题。EDC是通过互联网从试验中心(Sites)直接远程收集临床试验数据的一种数据采集系统。
9、EDC系统的基本功能
数据录入、数据导出、试验设计、编辑检查、操作痕迹、系统安全、在线交流、医学编码和支持多语言。
10、EDC系统的优点
(1)提高了临床研究的效率,缩短了临床研究周期
(2)通过逻辑检查提高了数据质量
(3)对研究质量的监测更加方便
11、大数据采集的数据来源
大数据的三大主要来源为商业数据、互联网数据与传感器数据。
HDFS在集群上实现了分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。
HDFS在MapReduce任务处理过程中提供了对文件操作和存储的支持。
MapReduce在HDFS的基础上实现任务的分发、跟踪、执行等工作,并收集结果。
41、MapReduce技术特征
易于使用
良好的伸缩性
大规模数据处理
59、云计算数据中心的构成
云计算数据中心本质上由云计算平台和云计算服务构成
60、云计算安全关键技术
可信访问控制
密文检索与处理
数据存在与可使用性证明
数据隐私保护
虚拟安全技术
云资源访问控制
可信云计算
61、大数据解决方案系统架构及各层功能
平台层:其中的大数据存储平台提供大数据存储服务,大数据计算平台提供大数据计算服务,多数据中心调度引擎为多区域智能中心的分析架构提供数据调度服务。
范围分区
列表分区
哈希分区
48、分布式环境下的数据缓存技术特点
高性能
动态扩展性
高可用性
易用性
49、NoSQL数据库种类
键值(Key-Value)存储
列存储(Column-Oriented)
文档(Document-Oriented)存储
图形存储(Graph-Oriented)。
50、四种类型NoSQL的特点及典型产品
Avro是一个数据序列化系统。类似于其他序列化机制,Avro可以将数据结构或者对象转换成便于存储和传输的格式,其设计目标是用于支持数据密集型应用,适合大规模数据的存储与交换。
30、Chukwa
Chukwa是开源的数据收集系统,用于监控和分析大型分布式系统的数据。
31、Pig
Pig是一个对大型数据集进行分析和评估的平台。
读操作流程
写操作流程
答案在P109-P111
37、HDFS的4类源代码
基础包
实体实现包
应用包
WebHDFS相关包
38、MapReduce
MapReduce是一个针对大规模群组中海量数据处理的分布式编程模型。
39、HDFS接口
远程过程调用接口
与客户端相关接口
HDFS各服务器间的接口
40、HDFS和MapReduce的关系
试验对寻找解决方案是必要的
数据中总含有模式
数据挖掘增大对业务的认知
预测提高了信息作用能力
大数据建模的价值不在于预测的准确率
模式因业务变化而变化
20、数据可视化的概念
数据可视化技术是指运用计算机图形学和图像处理技术,将数据转换为图形或图像,然后在屏幕上显示出来,利用数据分析和开发工具发现其中未知信息的交互处理的理论、方法和技术。
44、Common
Common为Hadoop的其他模块提供了一些常用工具程序包,主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。在通用硬件上搭建云计算环境提供基本的服务,同时为软件开发提供了API。
45、大数据的一致性策略
32、Spark原理
Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、流处理和图计算等多种范式。Spark基于MapReduce算法实现的分布式计算,拥有MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
这四个模块的主要功能如下。
1)分词:对抓取到的网页内容进行切词处理。
2)排重:对众多的网页内容进行排重。
3)整合:对不同来源的数据内容进行格式上的整合。
4)数据:包含两方面的数据,Spider Data和Dp Data。
16、大数据建模概念
大数据建模是为了理解事物而对事物做出的一种抽象,是对事物的一种无歧义的书面描述。
CAP,即一致性(Consistency)、可用性(Availability)和分区容错性(Partition Tolerance)
46、大数据分区技术
通过一定的规则将超大型表分割成若干小块来分别处理。表进行分区时需要使用分区键来标志每一行属于哪一个分区,分区键以列的形式保存在表中。
47、几种常见的数据分区算法
功能层:包括大数据集成、存储、管理和挖掘部分,各部分为大数据存储和挖掘提供相应功能。
服务层:基于Web技术和Open API技术提供大数据最终的展现服务。
62、医学大数据的种类
医院医疗大数据
区域卫生信息平台大数据
基于大量人群的医学研究或疾病监测大数据
自我量化大数据
网络大数据
生物信息大数据
63、大数据挖掘与传统数据挖掘方法的区别
高可扩展性
通用性强
按需服务
价格低廉
支持快速部署业务
56、云计算服务模式
基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)是云计算的三种应用服务模式
57、云计算部署模式
公有云、私有云和混合云
58、虚拟化技术
把有限的、固定的资源根据不同需求进行重新规划以达到最大利用率的思路,在IT领域就称为虚拟化技术。
Neo4J
51、Bigtable
Bigtable是Google开发的一个分布式结构化数据存储系统,运用按列存储数据的方法,是一个未开源的系统。
52、Bigtable数据库的架构
答案在P135.
53、Bigtable数据库特点
适合大规模海量数据,PB级数据。
分布式、并发数据处理,效率极高。
易于扩展,支持动态伸缩。
33、Spark的优点
轻量级快速处理
支持多语言
支持复杂查询
实时的流处理
可以与Hadoop数据整合
34、HDFS的设计目标
高效的硬件响应
流式数据访问
大规模数据集
简单的一致性模型
异构软硬件平台间的可移植性
35、HDFS架构——解释下图
答案在P107-P108
36、以一个文件File A(大小100MB)为例,说明HDFS的工作原理。
相关主题