当前位置:文档之家› 数据挖掘-题库带答案

数据挖掘-题库带答案

数据挖掘-题库带答案1、最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡()答案:正确2、决策将日益基于数据和分析而作出,而并非基于经验和直觉()答案:错误解析:决策将日益基于数据和分析而作出,而并非基于经验和直觉3、2011年被许多国外媒体和专家称为“大数据元年”()答案:错误解析:2013年被许多国外媒体和专家称为“大数据元年”4、我国网民数量居世界之首,每天产生的数据量也位于世界前列()答案:正确5、商务智能的联机分析处理工具依赖于数据库和数据挖掘。

()答案:错误解析:商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘。

6、数据整合、处理、校验在目前已经统称为 EL()答案:错误解析:数据整合、处理、校验在目前已经统称为 ETL7、大数据时代的主要特征()A、数据量大B、类型繁多C、价值密度低D、速度快时效高答案: ABCD8、下列哪项不是大数据时代的热门技术()A、数据整合B、数据预处理C、数据可视化D、 SQL答案: D9、()是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。

A、预测B、分析C、预测分析D、分析预测答案: C10、大数据发展的前提?答案:解析:硬件成本的降低,网络带宽的提升,云计算的兴起,网络技术的发展,智能终端的普及,电子商务、社交网络、电子地图等的全面应用,物联网的兴起11、调研、分析大数据发展的现状与应用领域。

?答案:解析:略12、大数据时代的主要特征?答案:解析:数据量大(Volume)第一个特征是数据量大。

大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。

类型繁多(Variety)第二个特征是数据类型繁多。

包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

价值密度低(Value)第三个特征是数据价值密度相对较低。

如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。

速度快、时效高(Velocity)第四个特征是处理速度快,时效性要求高。

这是大数据区分于传统数据挖掘最显著的特征。

13、列举大数据时代的主要技术?答案:解析:预测分析: 预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。

可为预测、优化、预报和模拟等许多其他用途而部署。

随着现在硬件和软件解决方案的成熟,许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险;当前最流行的预测分析工具当属IBM公司的SPSS,SPSS这个软件大家都已经很熟悉了,它集数据录入、整理、分析功能于一身。

用户可以根据实际需要和计算机的功能选择模块,SPSS的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL及DBF数据文件,现已推广到多种各种操作系统的计算机上。

NoSQL数据库:非关系型数据库包括Key-value型(Redis)数据库、文档型(MonogoDB)数据库、图型(Neo4j)数据库;虽然NoSQL流行语火起来才短短一年的时间,但是不可否认,现在已经开始了第二代运动。

尽管早期的堆栈代码只能算是一种实验,然而现在的系统已经更加的成熟、稳定。

搜索和认知商业:当今时代大数据与分析已经发展到一个新的高度,那就是认知时代,认知时代不再是简单的数据分析与展示,它更多的是上升到一个利用数据来支撑人机交互的一种模式,例如前段时间的围棋大战,就是一个很好的应用、现已经逐步推广到机器人的应用上面,也就是下一个经济爆发点--人工智能,互联网人都比较熟悉国内的BAT,以及国外的apple、google、facebook、IBM、微软、亚马逊等等;可以大致看一下他们的商业布局,未来全是往人工智能方向发展,当然目前在认知商业这一块IBM当属领头羊,特别是当前主推的watson这个产品,以及取得了非常棒的效果;关于更多认知商业资料流式分析:目前流式计算是业界研究的一个热点,最近Twitter、LinkedIn等公司相继开源了流式计算系统Storm、Kafka等,加上Yahoo!之前开源的S4,流式计算研究在互联网领域持续升温,流式分析可以对多个高吞吐量的数据源进行实时的清洗、聚合和分析;对存在于社交网站、博客、电子邮件、视频、新闻、电话记录、传输数据、电子感应器之中的数字格式的信息流进行快速处理并反馈的需求。

内存数据结构:通过动态随机内存访问(DRAM)、Flash和SSD等分布式存储系统提供海量数据的低延时访问和处理;分布式存储系统:分布式存储是指存储节点大于一个、数据保存多副本以及高性能的计算网络;利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。

当前开源的HDFS还是非常不错数据可视化:数据可视化技术是指对各类型数据源(包括hadoop上的海量数据以及实时和接近实时的分布式数据)进行显示;当前国内外数据分析展示的产品很多,如果是企业单位以及政府单位建议使用 cognos ,安全、稳定、功能强大、支持大数据、非常不错的选择。

数据整合:通过亚马逊弹性MR(EMR)、Hive、Pig、Spark、MapReduce、Couchbase、Hadoop和MongoDB等软件进行业务数据整合;数据预处理:数据整合是指对数据源进行清洗、裁剪,并共享多样化数据来加快数据分析;数据校验:对分布式存储系统和数据库上的海量、高频率数据集进行数据校验,去除非法数据,补全缺失。

数据整合、处理、校验在目前已经统称为 ETL ,ETL过程可以把结构化数据以及非结构化数据进行清洗、抽取、转换成你需要的数据、同时还可以保障数据的安全性以及完整性、关于ETL的产品推荐使用 datastage 就行、对于任何数据源都可以完美处理。

14、数据挖掘就是知识发现的过程()答案:错误解析:数据挖掘是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤15、数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程()答案:正确16、Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑()答案:正确17、现实意义中的数据挖掘分析对象是真实的海量数据;这些数据之间存在一定的逻辑关系;数据大多是模糊的、随机的、不完整的、无意义的噪声数据()答案:错误解析:现实意义中的数据挖掘分析对象是真实的海量数据;这些数据之间没有一定的逻辑关系;数据大多是模糊的、随机的、不完整的、无意义的噪声数据18、数据挖掘主要构建四大类模型包括:分类、聚类、预测和关联()答案:正确19、基于事物发展的延续性和随机性预测事物未来的发展属于时间序列分析()答案:正确20、数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

A、大量的B、不完全的C、有噪声的D、模糊的答案: ABCD21、下列哪个领域没有应用数据挖掘技术A、农业B、金融C、教育D、以上全部应用答案: D22、依据历史数据形成刻画用户特征的类标识,进而可以预测未来数据的归类情况,属于()A、聚类B、分类C、预测D、关联答案: B23、在事先不知道数据分类的情况下,根据数据之间的相似程度进行划分,目的是使得同类别的数据对象之间的差别尽可能的小,不同类别的数据对象之间的差别尽可能的大。

属于()A、聚类B、分类C、预测D、关联答案: A24、基于输入的用户信息,通过模型的训练学习,找出数据中的规律和趋势,以确定未来目标数据的预测值()A、聚类B、分类C、预测D、关联答案: C25、从购物篮商品集中找出商品与商品之间的关系,有助于发丌同商品之间的联系()A、聚类B、分类C、预测D、关联答案: D26、阐述数据挖掘与数据分析的区别?答案:27、数据挖掘就是知识发现的过程()答案:错误28、数据挖掘被认为是从数据中发现有用知识的整个过程()答案:错误解析:知识发现 (KDD) 被认为是从数据中发现有用知识的整个过程29、数据挖掘被认为是KDD 过程中的一个特定步骤, 它是用专门算法从数据中抽取模式。

答案:正确30、知识发现的原始数据,可以是结构化的,如数据库中的数据; 也可以是半结构化的,如文本、图形和图像数据;但不能是异构型数据()答案:错误解析:可以是结构化的,如数据库中的数据; 也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。

31、发现知识的方法可以是数学的, 也可以是非数学的; 可以是演绎的, 也可以是归纳的()答案:正确32、从大量的数据中经过深层分析, 获得有利于商业运作、提高竞争力的信息, 就像从矿石中淘金一样, 数据挖掘也因此而得名()答案:正确33、CRISP-DM过程是正确的顺序是:商业理解--数据准备--理解数据--建立模型--模型评估--结果发布()答案:错误解析:商业理解--理解数据--数据准备--建立模型--模型评估--结果发布34、CRISP-DM是“跨行业数据挖掘标准过程”的简写()答案:正确35、整个挖掘过程是一个不断反馈的过程____答案:对选择题;36、知识发现的英文简写是()A、 DKDB、 KDDC、 DMD、 DA答案: B37、数据挖掘的英文简写是()A、 DKDB、 KDDC、 DMD、 DA答案: C38、CRISP-DM过程模型过程包括()个阶段A、 5B、 6C、 7D、 8答案: B39、CRISP-DM是哪个术语的简写()A、跨行业数据挖掘标准过程B、数据分析C、数据挖掘标准D、数据挖掘过程答案: A40、下面哪个CRISP-DM过程是正确的()A、商业理解--理解数据--数据准备--模型评估--建立模型--结果发布B、商业理解--理解数据--建立模型--数据准备--模型评估--结果发布C、商业理解--理解数据--数据准备--建立模型--模型评估--结果发布D、商业理解--数据准备--理解数据--建立模型--模型评估--结果发布答案: C41、KDD过程主要包括()A、数据准备B、数据挖掘C、结果表达D、结果表示答案: ABCD42、判断题:SPSS M中的一个图标代表一个操作()答案:正确43、判断题:单击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上()答案:错误解析:双击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上44、源节点是连接到初始数据源的节点,源节点只能发送数据()答案:正确45、终端节点是生成输出、图形、表格和模型的节点,可以连接到任何节点()答案:错误解析:终端节点是生成输出、图形、表格和模型的节点,不能从终端节点连接到任何节点46、填空题:一系列连接在一起的节点被称作____答案:解析:工作流47、____用来将数据读入SPSS Modeler 中答案:解析:源节点48、SPSS Modeler 可以运行在____和____两种模式下答案:解析:SPSS Modeler 可以运行在客户端和服务器端两种模式下11.当节点在选项板中被选中后,会变成()A. 红色B. 黄色C. 淡蓝色D. 绿色49、在选项板上()节点,自动放置节点到数据流区域A、单击B、双击D、右键单击答案: B50、SPSS M中所有的节点都放在()A、数据流区B、项目窗口C、工具栏D、选项板区答案: D51、在Modeler中数据使用下列类型()A、连续型:用于描述数值。

相关主题