《计算机科学与技术前沿》课程论文大数据背景下数据挖掘技术的应用2016年1月7日 题目 学院 学号 姓名 指导老师 日期大数据背景下数据挖掘技术的应用摘要当今社会是一个信息化社会的时代,同时又是一个大数据时代。
随着互联网、物联网、云计算和人工智能等信息技术和计算机产业的不断发展和进步,使得数据的处理成为一个亟待解决的问题。
因此在大数据的背景下,如何高效地从大量包含有用数据的库获得有用信息已成为企业和科研工作重点关注的点,而这一工作涉及的关键技术就是数据挖掘技术。
总得说,数据处理的需要既给数据挖掘技术带来了机遇,于此同时带来了一系列的挑战。
本文分别从企业、图书管理和情报学领域三个方面阐述数据挖掘技术的应用,同时对它的发展现状、存在的问题和未来的发展趋势进行了一些阐述,从而加深了对数据挖掘技术的理解,以便更好地了解数据挖掘在各个领域的应用,最后对数据挖掘技术的应用进行一个整体的总结。
【关键字】:大数据;数据挖掘;数据挖掘的应用Application of data mining technologyin the context of dataAbstractToday is the age of information society,but it is also an age of big data.With development and progress of information technology and the computer industry which include the Internet, the Internet of things, cloud computing and artificial intelligence, data processing has become an urgent problem.Therefore,in the context of big data,how to get useful information from a large library of useful data have become focuses of enterprises and scientific and research work.The work involved is the key technology of data mining.In General spedking, data processing needs for data mining technology, and at the same time poses a series of challenges.The paper aims to account the development present situation,existing problems,and developmenttrend in the future based on companies,library management and the field of information science development,so as to enhance understanding of the data mining technology ,to better understand data mining applications in various fields,and to draw an overall summary of the application of data mining technology.【Key words】:Large amounts of data;Data mining;Application of data mining目录1.引言 (1)1.1数据挖掘的定义 (1)1.2数据挖掘的基本原理 (1)1.2.1数据准备环节 (1)1.2.2数据挖掘阶段 (2)1.2.3结果的解释和评价 (2)1.3数据挖掘的发展现状 (2)1.4数据挖掘的意义 (3)2.数据挖据技术的应用 (4)2.1数据挖掘技术在企业中的应用 (4)2.1.1在营销中的应用 (4)2.1.2在银行中的应用 (5)2.2在图书馆管理中的应用 (6)2.2.1图书馆自动化业务管理系统中的应用 (6)2.2.2在“云图书馆”中的应用 (6)2.3 在情报学领域中的应用 (6)3.存在的问题 (8)4.发展趋势 (9)4.1探索新的应用领域 (9)4.2数据挖掘方法面向可伸缩性 (9)4.3挖掘语言标准化 (9)4.4数据挖掘可视化 (9)5.总结 (10)参考文献 (11)1.引言近年来, 互联网的发展使计算机、网络和通信三者融为了一体。
网络经济、注意力经济等一大批新概念的提出,以它独特而又巨大的社会效益、极具挑战和机遇的内涵,成为了信息科学中一个十分引人注目的研究课题。
但是,网络在迅速、方便地给我们带来大量信息的同时, 也带来了一系列的问题。
比如说,信息量过大而又难以及时消化;信息的真伪性难以准确识别;信息的安全难以妥善保证;信息的形式难以实现一致和统一处理等。
因此,如何迅速、高效而又准确地获得有重要价值的信息,如何利用已经建立的历史数据去用于预测和指导未来的行动,以及如何从这些大量数据中去发现知识等问题,促进了知识发现和数据挖掘技术的发展,下面对数据挖掘的一些相关概念进行了相应的阐述。
1.1数据挖掘的定义数据挖掘简单的说就是一个从大量、不完全、有干扰和随机的数据库中去获取隐藏在它们当中的、我们事先不知道的、但是包含大量潜在的有用信息和知识的过程。
它是能够实现智能化和自动地把数据转变成有用信息和知识的一种技术和辅助工具,又是我们对数据库技术进行研究和改善的结果。
数据挖掘,它又是一门非常广义的交叉学科, 它汇聚了各个不同领域的研究人员, 特别是数据库、人工智能、数理统计、可视化、并行计算等相关方面的专家和技术人员[1]。
1.2数据挖掘的基本原理数据挖掘又叫数据库知识的发现,它是一个从数据库中发现并提取隐含的、未知的有用数据。
数据挖掘主要包括数据准备、数据挖掘以及结果解释和评价这三个阶段。
而在数掘的整个处理过程中,数据挖掘的分析方法是整个过程中最为关键的一个环节。
1.2.1数据准备环节数据准备是指在有一定的干扰,数据存在形式不一致和有数据缺失的情况下,对数据进行整理、清洗和预处理的一个准备过程。
1.2.2数据挖掘阶段数据挖掘阶段指的是取数据的模式,即数据准备是从大量庞杂的数据源获得数据挖掘所用的目标数据,由于在数据收集的阶段可能得到脏数据。
因此,数据挖掘过程中最关键的一步是使用智能的方法对数据进行提取、分类和聚类等。
在此之前,首先需要确定是采用哪种形式的提取模式,然后紧接着就是根据提取模式选择相应挖掘算法的参数,通过这种分析数据的方式才能形成合适的提取知识的模式。
1.2.3结果的解释和评价通过数据挖掘出来的数据需要根据实际需要转变成为面向用户的数据模型,即用户能够理解的模式,然后跟据其对要解决的决策问题是否有真正的作用得出所获得数据是否具有现实的意义。
1.3数据挖掘的发展现状数据挖掘的应用领域十分广泛,大概的可以这样说只要有数据存在的地方,就会存在数据挖掘的使用价值。
当前国内数据挖掘的研究领域主要分布在:数据挖掘方法的研究、数据挖掘应用的研究、Web挖掘研究这三大块。
国内数据挖掘的研究与国外研究状况相比较,我国对于数据挖掘知识的发现整体研究态势比较晚,而且没有形成统一的、比较完整的研发力量。
20世纪前,也只有国家的自然科学基金第一次提供项目资金支持中科院对于数据挖掘的研究。
当前,从事数据挖掘的研究和应用开发的人员主要是高校的教授,也有一部分研究力量是公司员工或者国家研究院所的研究人员;比方说,阿里巴巴集团的数据挖掘研发团队以及百度、腾讯等大型互联网集团的从事数据挖掘研究的职工。
并且,在大多数情况下,数据挖掘研究的领域主要集中在挖掘算法的研究、数据挖掘相关理论的研究以及数据挖掘的实际应用等方面。
现阶段,一些数据挖掘科研项目的经费主要由政府资助,研究工作也大多是在这样的条件下进行的。
值得注意的是,国内大多数科研单位和高等院校也正在争相开展数据挖掘和知识发现的基础理论以及实际应用研究分析。
比如,复旦大学和华中理工大学等院校针对的是关联规则的开采算法的优化和改造;而其他的单位则对针对非结构化的数据知识和已经发现的网页数据进行挖掘技术的研究[2]。
1.4数据挖掘的意义大数据时代的到来意味着我们在应用和利用数字信息技术的同时,需要花费比较多的人力、物力和财力去删选、存储以及利用建立起来的大数据库。
比方说,在一个银行系统中,每天会有数以万计的银行运转和ATM终端产生的庞大交易数据,那么他们需要解决的问题是如何从这样一个庞大的数据库中去筛选、分类和聚类并获得有价值的数据;而这正是数据挖掘要解决的问题,所以说在当下的大数据时代背景下,数据挖掘的作用其他技术不可替代的[3]。
2.数据挖据技术的应用2.1数据挖掘技术在企业中的应用2.1.1在营销中的应用传统无差别的大众媒体营销策略已经无法满足现在的零售市场环境下激烈的竞争需求。
由此而出现的精准营销策略将是当前以及未来的企业发展方向;在精准营销领域中最常见的数据挖掘和分析方法主要包括三类,分别是分类、聚类和关联规则[4]。
(1)关联规则数据挖掘的关联规则指的是在大量数据中去发现它们之间集中的相关性。
比如,用数据间存在的空间联系去发现啤酒与尿布之间联系,从而提高尿布和啤酒销量;另外一个案例是利用数据间的时间关联规则去发掘出孕婴用品和家居装修之间潜在的关系,以便增加这两种商品的销量;或者是用时间关联规则发掘出调味品、纸巾和化妆品之间的关联等。
(2)分类分类就是假设数据库中现有的对象同属于一个预先就已给定的类集,然后将数据库中的这些数据分给指定的类,本质上讲它是属于一种基于模型的预测。
比方说,实名制后电信或移动公司会事先将用户的信用状况分为信用好与信用坏两大类。
然后,对于一个新的用户,他的信用状态确定可以采用“决策树”法建一个事先的分类模型,并从一组没有次序并且毫无规则的用户数据库中推测出一个决策树表样式的分类规则。
具体是:树的非叶子节点表示一些基本的客户特征,而其中的叶子节点表示各个客户分类标识,从树顶端的根节点由上而下到每个叶子节点表示一条分类规则,所以通过决策树能够得出很多分类规则,形成一个分类规则集合,利用得到的规则集合就可以得出一个未知用户的信用状态。
(3)聚类聚类指的是将一个数据中抽象的对象集合进行一定规则的分组,然后根据每个元素的共同特征组成一个新的多个类的分析过程。