当前位置:文档之家› 大数据及数据挖掘方法

大数据及数据挖掘方法

山东科技大学本科毕业设计(论文)题目大数据及数据挖掘方法学院名称数学与系统科学学院专业班级统计学10学生姓名周广军学号201001051633指导教师高井贵二0一四年六月大数据及数据挖掘方法摘要随着计算机技术的革新,互联网新媒体的快速发展,人们的生活已经进入高速信息时代。

我们每天的生活都要产生大量数据,因此我们获取数据的速度和规模不断增长,大量数据不断的被存入存储介质中形成海量数据。

海量数据的存储、应用及挖掘已成为人们研究的重要命题。

数据挖掘是从存放在数据库、数据仓库或者其他信息库中大量的不完全的有噪声的模糊的随机的数据中提取隐含在其中的人们事先未知、但潜在有用的信息和知识过程。

表现形式为:规则、概念、规律及模式等。

数据挖掘是一门广义的交叉学科,从一个新的角度把数据库技术、人工智能、统计学等领域结合起来,从更深层次发掘存在于数据内部新颖、有效、具有潜在效用的乃至最终可理解的模式。

在数据挖掘中,数据分为训练数据、测试数据、和应用数据。

数据挖掘的关键是在训练数据中发现事实,以测试数据作为检验和修正理论的依据,把知识应用到数据中去。

本文首先说明了大数据的概念及兴起与发展历程,然后介绍各种主流的数据分析挖掘方法。

关键词:大数据数据挖掘数据分析方法AbstractWith the development of computer technology, the rapid development of Internet and new media, people's life has entered the information era. Our everyday life is to have a large amount of data, so we get the growing data speed and scale, a large amount of data have been stored in the form of mass data storage medium.The storage, application and mining massive data has become an important proposition that people study.Data mining is stored in the database from the data warehouse, or other information in the library a lot of incomplete, noise fuzzy random data in which the extraction of implicit previously unknown, but potentially useful information and knowledge process. Manifestation: the rules, concepts, rules and patterns. Data mining is a crossed subject, database technology, artificial intelligence, statistics and other fields together to from a new point of view, from a more deep excavation in data within a novel, effective, with potentially useful and ultimately understandable patterns. In data mining, data is divided into training data, test data, and the application of data. The key to data mining is fact finding in the training data, the test data as test and modify the theory basis, the application of knowledge to the data.This paper firstly illustrates the concept and the rise and development of large data, and then introduce various mainstream data mining method.Keywords: large data data mining method of data analysis目录大数据及数据挖掘方法 (1)摘要 (1)Abstract (2)目录 (3)1 大数据的缘起 (1)1.1“大数据”的提出 (1)1.2大数据概念、特征及价值 (2)1.2.1大数据的概念 (2)1.2.2大数据的特征 (3)1.2.3大数据的价值 (4)1.3大数据形成的必然性 (5)1.4大数据发展现状 (7)(一)政府积极介入推动 (8)(二)资本市场也对大数据钟爱有加 (8)(三)人才需求巨大 (8)(四)国内情况 (9)2大数据的处理 (10)3数据挖掘方法 (12)3.1神经网络 (12)3.1.1人工神经网路基本介绍 (12)3.1.2设计神经网路结构 (15)3.1.3概率式学习 (17)3.1.4神经网路方法优缺点 (17)3.2遗传算法 (18)3.2.1遗传算法特点 (18)3.2.2遗传基本算法 (20)3.2.3遗传算法优缺点 (23)3.3决策树方法 (24)3.3.1决策树表示法 (24)3.3.2决策树构造思想 (25)3.3.3决策树方法优缺点 (26)3.4关联规则 (27)3.4.1关联规则基本原理 (27)3.4.2关联规则算法Apriori算法 (28)3.5粗糙集 (30)3.5.1粗糙集理论 (31)3.5.2基于属性重要性算法 (31)3.5.3粗糙集方法优缺点 (32)4大数据面临的挑战1大数据集成 (32)2大数据分析(analytics ) (33)3大数据处理与硬件的协同 (35)参考文献 (37)1 大数据的缘起随着信息技术的高速发展、数据库管理系统的广泛应用,人们积累的数据量急剧增长,大量的信息给人们带来方便的同时,也带来了诸如:信息过量难以消化,信息真假难以辨识,信息安全难以保证,信息形式不一致难以统一处理等问题。

如何从海量的数据中提取有用的知识成为当务之急。

数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。

大数据问题成为近两年信息技术学术界与产业界热论的焦点。

1.1“大数据”的提出大数据一词,最早出现于20世纪90年代,当时的数据仓库之父Bill Inmon,经常提及Big Data。

2011年5月,EMC公司在美国拉斯维加斯举办了第11届EMC World年度大会,设定的主题为“云计算相遇大数据”,大会正式提出了“大数据”(Big Data)概念。

随后,IBM和麦肯锡等众多国外机构发布了“大数据”相关研究报告,阐述了大数据的特征,给社会经济发展带来的机遇和对当前信息技术的挑战。

可以预测,大数据将成为继云计算和物联网之后,信息技术产业又一次颠覆性的技术变革。

在学术界,国际顶级期刊《Nature》和《Sciences》近期针对大数据分别出版了专刊《Big Data))和《Deal-ing with Data》,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处理面临的各种问题。

2012年8月12 ~16日在北京举办的第18届知识发现与数据挖掘(KDD)国际会议,大数据成为重要议题,其暑期培训班(KDD Summer School on Mining the BigData)和专家论坛(Panel Discus-lion)都是集中讨论大数据问题。

2011年11月26日,中国软件开发联盟(CSDN)在北京成功举办了中国大数据技术大会。

为推动大数据这个交叉学科的发展,中国计算机学会(CCF)成立了大数据专家委员会(CCF Big Data Task Force,简称CCF TFBD)。

大数据的机遇与挑战己经从商业领域上升到国家战略层面。

2012年3月29日,美国政府发布了“大数据研究和发展倡议”。

随后,美国国家科学基金委员会(NSF)、美国国家卫生研究院(NIH)、美国能源部(DOE)、美国国防部(DODO)、美国国防部高级研究计划局(DARPA)、美国地质勘探局(USGS)六个部门联合推出了大数据计划,旨在提升从大量复杂数据中获取知识和洞见的能力。

为探讨中国大数据的发展战略,由中国科学院计算技术研究所牵头,2012年5月22 ~ 24日在北京成功举办了以“网络数据科学与工程一一门新兴的交叉学科?”为主题的第424次香山科学会议,与会国内外知名专家学者为中国大数据发展战略建言献计。

2012年8月14 ~15日,中国科学院启动了“面向感知中国的新一代信息技术研究”战略性先导科技专项,任务之一是研制用于大数据采集、存储、处理、分析和挖掘的未来数据系统。

信息时代万物数化,大数据的重要性己成行业共识,针对大数据技术和应用的创新,其发展趋势不可阻挡。

如何对大数据进行充分和有效的分析和挖掘,使之转换为有价值的信息和知识,用于解决各种各样的科学和应用问题,成为大数据时代信息技术发展的重大挑战,同时也是信息技术创新的新的制高点。

1.2大数据概念、特征及价值1.2.1大数据的概念广义的大数据概念,除了大数据技术及其应用之外,还包括大数据工程和大数据科学。

大数据工程,是指大数据的规划建设运营管理的系统工程。

大数据科学,主要关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。

从概念外延上讲,大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域,是适应信息经济时代发展需要而产生的科学技术发展趋势。

狭义的大数据概念,主要是指大数据技术及其应用,是指从各种各样类型的数据中,快速获得有价值信息的能力,一方面,强调从海量数据、多样数据里提取微价值,即具有价值(Value)特征;另一方面,强调数据获取、数据传递、数据处理、数据利用等层面的高速高效,即具有快速处理(Velocity)特征。

大数据概念里的“数据”,是指具有可追踪、可分析、可量化特性的数据。

大数据概念里的“大”,是指“大数据”所应具有的“大量化”(V olume)、“多样化”(Variety)两个特征。

相关主题