《大数据导论》课程期末复习资料《大数据导论》课程讲稿章节目录:第1章大数据概述(1)大数据的概念(2)大数据的特征(3)大数据的数据类型(4)大数据的技术(5)大数据的应用第2章大数据采集与预处理(1)大数据采集(2)大数据预处理概述(3)数据清洗(4)数据集成(5)数据变换(6)数据规约第3章大数据存储(1)大数据存储概述(2)数据存储介质(3)存储系统结构(4)云存储概述(5)云存储技术(6)新型数据存储系统(7)数据仓库第4章大数据计算平台(1)云计算概述(2)云计算平台(3)MapReduce平台(4)Hadoop平台(5)Spark平台第5章大数据分析与挖掘(1)大数据分析概述(2)大数据分析的类型及架构(3)大数据挖掘(4)大数据关联分析(5)大数据分类(6)大数据聚类(7)大数据分析工具第6章大数据可视化(1)大数据可视化概述(2)大数据可视化方法(3)大数据可视化工具第7章社交大数据(1)社交大数据(2)国内社交网络大数据的应用(3)国外社交网络大数据的应用第8章交通大数据(1)交通大数据概述(2)交通监测应用(3)预测人类移动行为应用第9章医疗大数据(1)医疗大数据简介(2)临床决策分析应用(3)医疗数据系统分析第10章大数据的挑战与发展趋势(1)大数据发展面临的挑战(2)大数据的发展趋势一、客观部分:(单项选择、多项选择)(一)、单项选择1.以下不是NoSQL数据库的是()A.MongoDBB.HBaseC.CassandraD.DB2★考核知识点:NoSQL与NewSQL主流系统参考讲稿章节:3.7附1.1.1(考核知识点解释):目前市场上主要的NoSQL数据存储工具有:BigTable、Dynamo 、Hbase、MongoDB、CouchDB、Hypertable还存在一些其他的开源的NoSQL数据库,Neo4j、Oracle Berkeley DB、Apache Cassandra等另外,NewSQL数据库。
例如:GoogleSpanner、V oltDB、RethinkDB、Clustrix、TokuDB和MemSQL等。
2以下不是目前主流开源分布式计算系统的是()A.AzureB.HadoopC.SparkD.Storm★考核知识点:主流开源分布式计算系统参见讲稿章节:4.2附1.1.2:(考核知识点解释)由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。
Yahoo的工程师DougCutting和MikeCafarella在2005年合作开发了分布式计算系统Hadoop。
后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。
Hadoop采用MapReduce分布式计算框架,并根据GFS开发了HDFS 分布式文件系统,根据BigTable开发了HBase数据存储系统。
尽管和Google内部使用的分布式计算系统原理相同,但是Hadoop在运算速度上依然达不到Google论文中的标准。
不过,Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。
Yahoo,Facebook,Amazon以及国内的百度、阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。
Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。
它在Hadoop的基础上进行了一些架构上的改良。
Storm是Twitter主推的分布式计算系统,它由BackType团队开发,是Apache基金会的孵化项目。
它在Hadoop的基础上提供了实时运算的特性,可以实时地处理大数据流。
Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的、复杂的大数据处理,spark常用于离线的、快速的大数据处理,而storm常用于在线的、实时的大数据处理。
3.Apriori算法是一种()算法A.关联规则B.聚类C.分类D.预测★考核知识点:大数据挖掘算法参见讲稿章节:5.3-5.7附1.1.2:(考核知识点解释)关联分析(Association analysis)是从有噪声的、模糊的、随机的海量数据中,挖掘出隐藏的、事先不知道、但是有潜在关联的信息或知识的过程,或称关联规则学习(Association rule learning)。
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,算法有两个关键步骤:一是发现所有的频繁项集;二是生成强关联规则。
FP(Frequent Pattern)-growth算法基于Apriori构建,但采用了高级的数据结构减少扫描次数,大大加快了算法速度。
分类(Classification)任务是在给定数据基础上构建分类模型,根据分类模型确定目标对象属于哪个预定义的目标类别。
常用的分类算法有:决策树、感知机、K近邻、朴素贝叶斯、贝叶斯网络、逻辑斯谛回归、支持向量机、遗传算法、人工神经网络等。
聚类分析(Cluster analysis)简称聚类(Clustering),是把数据对象划分成子集(类)的过程,每个子集称为一个簇(Cluster),同一个簇中的数据之间存在最大相似性,不同簇之间的数据间存在最大的差异性。
K-MEANS(K-均值)算法是一种划分聚类方法,以k 为参数,将n 个对象分为k 个簇,以使簇(类)内具有较高的相似度,而簇间的相似度最低。
(二)、多项选择1.大数据的特征包括()A.体量大(V olume)B.多样性(Variety)C.速度快(Velocity)D.价值高(Value)★考核知识点:大数据的特征参考讲稿章节:1.2附1.2.1(考核知识点解释):目前在描述大数据特征时,一般是按照国际数据公司IDC所提的“4V”模型来刻画,即体量大(V olume)、多样性(Variety)、速度快(Velocity)、价值高(Value)。
1). 体量大(V olume):数据量大是大数据的基本属性。
数据规模的大小是用计算机存储容量的单位来计算的,数量的单位从TB级别跃升到PB级别、EB级别,甚至ZB级别。
2). 多样性(Variety):大数据除了体量大外,另一个最重要的特征就是数据类型的多样化。
即数据存在形式包括结构化数据、半结构化数据和非结构化数据。
3) 速度快(Velocity):大数据环境中速度快有两层含义:一是数据产生速度快;二是要求数据分析处理速度快。
4) 价值高(Value):大数据拥有大量有价值信息,通过提炼的信息,能够在更高的层面和视角,将在更大的范围帮助用户提高决策力,洞察未来创造出更大的价值和商机。
2. 按照数据结构分类,数据可分为()A.结构化数据B.半结构化数据C.非结构化数据D.无结构数据★考核知识点:按照数据结构分,大数据的数据类型参考讲稿章节:1.3附1.2.2(考核知识点解释):大数据不仅仅体现在数据量大,也体现在数据类型多。
按照数据结构分,数据可分为结构化数据、半结构化数据和非结构化数据。
在现有大数据的存储中,结构化数据仅有20%,其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据。
据统计,全球结构化数据增长速度约为32%,半结构化数据和非结构化数据的增速高达63%。
(1)结构化数据:结构化数据,通常存储在关系数据库中,并用二维表结构通过逻辑表达实现。
所有关系型数据库(如SQL Server、Oracle、MySQL、DB2等)中的数据全部为结构化数据。
生活中我们常见的结构化数据有企业计划系统(Enterprise Resource Planning,ERP)、医疗的医院信息系统(Hospital Information System,HIS)、校园一卡通核心数据库(2)半结构化数据就是介于完全结构化数据和完全无结构化的数据之间的数据。
例如邮件、HTML、报表、具有定义模式的XML数据文件等。
典型应用场景如邮件系统、档案系统、教学资源库等。
半结构化数据的格式一般为纯文本数据,其数据格式较为规范,可以通过某种方式解析得到其中的每一项数据。
最常见的半结构化数据是日志数据,采用XML、JSON等格式的数据(3)非结构化数据是指非纯文本类数据,没有标准格式,无法直接解析出相应的值。
非结构化数据无处不在,常风的包括Web网页.即时消息或者时间数据(如微博、微信、Twitter等数据)、富文本文档(Rich Text Format , RTF)、富媒体文件(Rich Media)、实时多媒体数据(如各种视频,音频、图像文件)3. 根据产生主体的不同,大数据可以分为()A.产量企业应用产生的数据B.大量个人用户产生的数据C.由巨量机器产生的数据D.科研数据★考核知识点:根据产生主体分,大数据的数据类型参考讲稿章节:1.3附1.2.3(考核知识点解释):数据可根据产生主体的不同分为三类:(1)由少量企业应用而产生的数据。
关系型数据库中的数据、数据仓库中的数据。
(2)大量个人用户产生的数据。
社交媒体,如微博、博客、QQ、微信、Facebook、Twitter等产生的大量文字、图片、视频、音频数据)、企业应用的相关评论数据、电子商务在线交易、供应商交易的日志数据。
(3)由巨量机器产生的数据。
应用服务器日志(Web站点、游戏)、传感器数据(天气、水、智能电网)、图像和视频监控、RFID、二维码或者条形码扫描的数据。
4. 根据作用方式不同,大数据可以分为()A.交互数据B.社交数据C.交易数据D.个人数据★考核知识点:根据作用方式的不同,大数据的数据类型分类参考讲稿章节:1.3附1.2.4(考核知识点解释):数据还可根据作用方式的不同分为两类:(1)交互数据:指相互作用的社交网络产生的数据,包括人为生成的社交媒体交互和机器设备交互生成的新型数据。
(2)交易数据:交易数据是指来自于电子商务和企业应用的数据。
包括EPR (网络公关系统)、B2B(企业对企业)、B2C(企业对个人)、C2C(个人对个人)、O2O(线上线下)、团购等系统产生的数据。
这些数据存储在关系型数据库和数据仓库中,可以执行联机分析处理(OLAP)和联机事务处理(OLTP)。
随着大数据的发展,此类数据的规模和复杂性一直在提高。
交互和交易这两类数据的有效融合是大数据发展的必然趋势,大数据应用要有效集成这两类数据,并在此基础上,实现对这些数据的处理和分析。
5. Google分布式计算模型不包括()A. GFSB. BigTableC. MapReduceD.RDD★考核知识点:Google的分布式计算模型参见讲稿章节:4.2、4.3附1.2.5:(考核知识点解释)2003年到2004年间,Google发表了MapReduce、GFS(Google File System)和BigTable三篇技术论文,提出了一套全新的分布式计算理论。