当前位置:文档之家› 厦门大学信息检索大作业

厦门大学信息检索大作业

课题大作业(2人一组,自拟与自己导师研究方向一致的课题,完成以下作业)1课题的分析思维导图及主要概念分析(要求:要有主概念面、相关概念、隐含概念、英文检索词)1.1写出拟进行检索的检索策略、涉及到的学科范围。

课题名称:数据挖掘技术及应用主要概念面:数据挖掘技术应用1.2总体检索思路你目前对这个课题了解的大致情况,以及你希望解决的问题。

由此你准备如何展开(国内、国外、年限、文献类型)。

涉及学科及分类号:计算机技术与自动化技术(TP3)1.3数据挖掘(Data Mining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。

在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理,从而得出可供决策参考的统计分析数据。

在深层次上,则从数据库中发现前所未有的、隐含的知识。

OLAF'的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。

国内对DMKD的研究稍晚,1993年国家自然科学基金首次开始支持对该领域的研究项目。

近年来发展迅速,进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、“九五”计划等。

所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。

国内从事数据挖掘研究的机构主要在大学,也有部分在研究所或公司。

这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。

2搜索引擎(百度、谷歌、scirus):选择百度作为搜引擎2.1检索策略:如下图所示2.2找到的结果(截图第一页)2.3你选定的最相关的结果(要求必须可直接看原文)2.4 说明选择该文的原因,从中你是否有新的想法(线索)选择本文的原因是既涉及到数据挖掘这方面相关知识的研究与应用其次是与要检索的应用领域,也就是数据挖掘在航天或者军事方面的领域相吻合,并且在时间上也相对比较近。

另外下载相关的在线阅读软件既可以进行阅读。

因此选用该文章。

3 图书搜索(读秀、Fulink)要求查找与你课题有关的信息,主要是相关的概念、或者涉及到的具体的研究方法、实验方法的介绍。

3.1 检索策略FULink平台检索策略:书名=数据挖掘分类=工业技术中图分类号=TP3年份=2000-20133.2具体的检索结果,即概念的解释、研究方法或实验方法具体的操作过程等(截图表示)。

要求:注明出处,以参考文献的格式检索结果:共90条结果读秀平台检索策略:书名=数据挖掘分类=工业技术中图分类号=TP3年份=2000-2013共90条结果具体的检索结果:对结果进行筛选,选取3本与课题相关的具体书:(1)《数据挖掘技术》朱玉全编著. 南京市:东南大学出版社, 2006(2)《数据挖掘技术以及应用》刘诗平编著. 北京市:高等教育出版社, 2010.(3)《数据挖掘原理与技术》张云涛编著北京市:电子工业出版社,20044论文检索(期刊论文、学位论文、会议论文)选用CNKI、维普、万方跨库查找4.1检索工具万方4.2检索策略(最终的)篇名=(数据挖掘+数据勘探+数据采矿+data mining+DM)* 应用*时间=2013年1月1日-2013年10月25日4.3检中的结果(第一页,包括检索结果的条数)条数:4.4选择最有代表性的论文15篇(要求3种文献类型都要),说明选择的理由。

学位论文:[1] 张岭.人工神经网络模型预测的分析与研究[D].南京信息工程大学,2010.DOI:10.7666/d.y1694886.[2] 戴南.基于决策树的分类方法研究[D].南京师范大学,2003.DOI:10.7666/d.y499922.[3] 李想.Boosting分类算法的应用与研究[D].兰州交通大学,2012.DOI:10.7666/d.y2142546.[4] 任宇飞.SVM模型改进的若干研究[D].南京邮电大学,2013.[5] 毛国君.数据挖掘技术与关联规则挖掘算法研究[D].北京工业大学,2003.[6] 刘君强.海量数据挖掘技术研究[D].浙江大学,2003.[7] 萨迪.基于B/S框架的数据挖掘系统的设计与实现[D].中南大学,2011.DOI:10.7666/d.y1914056.[8] 刘舒舒.面向医疗保险领域的数据挖掘平台研究与设计[D].江苏大学,2013.期刊论文:[1] 姜斌,潘景昌,王为等.SDSS-DR8中激变变星候选体的数据挖掘[J].光谱学与光谱分析,2013,33(2):464-467.DOI:10.3964/j.issn.1000-0593(2013)02-0464-04.[2] 张玉存,孔涛,付献斌等.基于双重逆极限空间的地貌信息数据挖掘方法[J].地球物理学[3] 赵艳君,魏明军.改进数据挖掘算法在入侵检测系统中的应用[J].计算机工程与应用,2013,(18):69-72,115.DOI:10.3778/j.issn.1002-8331.1304-0309.[4] 刘大有,陈慧灵,齐红等.时空数据挖掘研究进展[J].计算机研究与发展,2013,50(2):225-239.[5] 潘玫玫,蔡健,朱隆海等.基于数据挖掘的规则库防御性能改进研究[J].科技通报,2013,29(5):151-155,163. 会议论文:[1] 白羽,丁晓熔.基于数据挖掘的冗余套餐梳理模型[C].//辽宁省通信学会2013年通信网络与信息技术年会论文集.2013:25-30.[2] 别小妹.移动互联网流量经营分析模型研究与应用[C].//辽宁省通信学会2013年通信网络与信息技术年会论文集.2013:397-403.学位论文:[1] 张岭.人工神经网络模型预测的分析与研究[D].南京信息工程大学,2010.DOI:10.7666/d.y1694886.选择理由:人工神经网络是数据挖掘里模拟人的神经反射而提出的一种算法,此论文比较系统的介绍了人工神经网络的内容。

[2] 戴南.基于决策树的分类方法研究[D].南京师范大学,2003.DOI:10.7666/d.y499922.选择理由:决策树算法是数据挖掘的一种算法,具有较大的应用范围。

[3] 李想.Boosting分类算法的应用与研究[D].兰州交通大学,2012.DOI:10.7666/d.y2142546.选择理由:对AdaBoost 算法进行了比较详细的表述,有助于我们的理解。

[4] 任宇飞.SVM模型改进的若干研究[D].南京邮电大学,2013.选择理由:SVM是近几年来机器学习领域的一个热门,此论文深入研究了SVM算法的原理,有助于我们更好的理解sVM算法。

期刊文献:[1] 姜斌,潘景昌,王为等.SDSS-DR8中激变变星候选体的数据挖掘[J].光谱学与光谱分析,2013,33(2):464-467.DOI:10.3964/j.issn.1000-0593(2013)02-0464-04.借鉴价值。

[2] 张玉存,孔涛,付献斌等.基于双重逆极限空间的地貌信息数据挖掘方法[J].地球物理学报,2013,56(1):317-324.DOI:10.6038/cjg20130133.选择理由:实用的数据挖掘方法新颖,并且对于挖掘不完备数据信息有较好的效果。

[3] 赵艳君,魏明军.改进数据挖掘算法在入侵检测系统中的应用[J].计算机工程与应用,2013,(18):69-72,115.DOI:10.3778/j.issn.1002-8331.1304-0309.选择理由:安全问题永远是我们所关注的大问题,特别是在网络如此发达的时代,所以数据挖掘在这方面的应用很值得参考和研究。

[4] 刘大有,陈慧灵,齐红等.时空数据挖掘研究进展[J].计算机研究与发展,2013,50(2):225-239.选择理由:随着我国北斗系统的逐渐形成,时空数据处理任务日趋繁重,所以对于数据挖掘在时空数据中的应用具有十分重要的意义。

[5] 潘玫玫,蔡健,朱隆海等.基于数据挖掘的规则库防御性能改进研究[J].科技通报,2013,29(5):151-155,163.主学习能力的防御系统很有必要会议文献:[1] 白羽,丁晓熔.基于数据挖掘的冗余套餐梳理模型[C].//辽宁省通信学会2013年通信网络与信息技术年会论文集.2013:25-30.选择理由:时间性比较新,有很大的实用价值。

4.5描述你查找过程中检索策略调整的情况。

例如最初的检索策略如何,经过怎样的调整形成最终的检索策略,包括如何调整检索字段,如何调整检索词等一开始使用的检索策略为:主题=(数据挖掘+数据勘探+数据采矿+data mining+DM)* 应用,这样发现结果太多(有4万多条),而且很多都过时了。

于是就限定时间为2010年到2013年的,搜索结果还是很多(有1万多)。

然后就将时间限定为2013年的,条数就变为2000多条。

但是仔细一看,有很多不相关的结果出来,于是就将检索式改为:篇名=(数据挖掘+数据勘探+数据采矿+data mining+DM)* 应用,检索结果就只剩303条。

然后根据不同的机构选择15篇。

5专利、标准分别检索与课题相关的专利、标准信息5.1检索工具中国专利数据库(万方)5.2检索策略专利:主题:(计算机应用) * 数据挖掘* Date:2000-2013标准:主题:(计算机应用) * 数据挖掘* Date:2000-20135.3检中的结果,检索结果页面截图专利:标准:5.4专利全文、标准全文首页截图专利:标准:6外文文献(利用EI检索与课题有关的信息)6.1写出检索策略(((data mining or DM or KDD) WN All fields) AND ((application) WN All fields))6.2检索结果页面截图,说明查找的过程过程:先找出所有的数据挖掘英文表达式,然后把时间限定为2013年到2014年6.3选择最有代表性的10篇论文,记下文献线索[1] Qin Y B, Lu D X. The Application of KDD in HIS[J]. Applied Mechanics and Materials, 2013, 263:1510-1514.[2]Holzinger A, Pasi G. and Knowledge Discovery in Complex, Unstructured, Big Data[J].[3]Huang L N, Liu G X. Application of Web Data Mining in On-line Education[J]. Advanced MaterialsResearch, 2013, 684: 526-530.[4]Nenonen N. Analysing factors related to slipping, stumbling, and falling accidents at work:Application of data mining methods to Finnish occupational accidents and diseases statisticsdatabase[J]. Applied ergonomics, 2012.[5]Wright J H, Sanati-Mehrizy A. A Study of Application of Data Mining Algorithms In HealthcareIndustry[J].[6]Akhilomen J. Data mining application for cyber credit-card fraud detection system[M]//Advancesin Data Mining. Applications and Theoretical Aspects. Springer Berlin Heidelberg, 2013: 218-228.[7]Chen H, Chen G. Visual Space Research and Application of the Data Mining in Soil FertilityEvaluation[M]//Computer and Computing Technologies in Agriculture VI. Springer Berlin Heidelberg, 2013: 376-385.[8]Li H, Luo Y. The application of data mining technology in the quality and security of agriculturalproducts[C]//Third International Conference on Photonics and Image in Agriculture Engineering (PIAGENG 2013). International Society for Optics and Photonics, 2013: 87620Q-87620Q-5.[9]Yan H. The Data Mining Technology in the Application of Graduates’ Employment[M]//IntelligenceComputation and Evolutionary Computation. Springer Berlin Heidelberg, 2013: 147-151.[10]Fan Y. The Application of Data Mining Algorithm in Grain Output Prediction[C]//Proceedings ofthe 2012 International Conference on Cybernetics and Informatics. Springer New York, 2013: 757-764.6.4选择其中一篇可直接下载全文的列出篇名,并拷贝全文的第一页篇名:The Application of Data Mining Algorithm in Grain Output PredictionWith the rapid development of computer technology and its wide application in theproduction process, the capacities of formation, collection, storage and processingdata of the enterprise have greatly increase and the amount of data grows with eachpassingday.Asweallknow,dataiswealth,butthisvalueisimplied.Inordertolocatethe truly valuable thing—knowledge from mountains of data, from 1990s, peoplebeganthestudyofdatamining[1].Itisworthnothingthatfordifferentapplications,itshould design specific data mining solutions, in order to achieve the efficiency ofknowledge acquisition. According to characteristics for agricultural production, theY. Fan (*)Department of Computer Science and Engineering, Guangdong Peizheng College, 53# PeizhengAvenue, Chini Town, Huadu District, Guangzhou City, Guangdong Province 510830, Chinae-mail: fanyu1233211@S. Zhong (ed.), Proceedings of the 2012 International Conference on Cyberneticsand Informatics, Lecture Notes in Electrical Engineering 163,DOI 10.1007/978-1-4614-3872-4_97, # Springer Science+Business Media New York 2013757useofdataminingtechnologycanaccessqualitativeandquantitativeknowledgefromthe field to help agricultural workers improve the planting structure. Data mining donothaveauniformdefinitioncurrentlyintheworld[2].Oneofthemorerepresentativeviews regards that data miningisthe process ofextractingordigging out a model thatis credible, innovative, effective, and has potential value and can be understood fromlarge amounts of data. This process is non-normal process [3]. From view of technol-ogy, it is the process of extracting information and knowledge which is implicit,unknown, but is potentially useful from a large number of incomplete, noisy, fuzzy,random data [4].Genetic algorithm, basing on natural population evolution mechanism, is anefficient exploration algorithm which abandons the traditional searching method,simulates the natural biological evolution and takes artificial evolution approach torandomly search in the target space. It takes the possible solution in the problemdomain as an individual of chromosomes, encodes each individual into the form ofsymbol string and simulates Darwinian biological evolution process of geneticselection and of natural elimination to repeatedly take operations (genetic, crossoverand mutation) basing on genetic on the group. It evaluates each individual accordingtoapredefinedfitnessfunctionandcontinuouslygetsbettergroupsbasedonevolutionrules of survival of the fittest, selection of the superior and elimination of the inferiorand at the same time searches the best individual in the optimized group by parallelsearchingmethodtoseektheoptimalsolutionthatcanmeettherequirements.Geneticalgorithmisaclassofrandomizedalgorithm,butitisnotasimplerandomwalk.Itcaneffectively make use of the already gotten information to search for those stringswhich enable to improve the quality of the solutions. Similar to natural evolution,geneticalgorithmactsonthechromosomegenestosolvetheproblembyfindinggoodchromosomes. And similar to the nature, genetic algorithm knows nothing aboutsolving the problem itself. It only needs evaluate each chromosome generated by thealgorithm, and create chromosome basing on fitness value, so chromosomes withgood applicability have more chance to reproduce than those with poor adaptability.This paper chooses to combine genetic algorithm with LM algorithm to build theprediction model. After analysis of the statistical data of each attribute value relatedwith crop output, observe emphatically the attribute which is closely related to theoutput. For example, under the same conditions of irrigation and fertilization, themain factors that affect the crop output are temperature and precipitation. Use datamining method to carry out mining of the temperature and precipitation propertiesandgetthepotentialrelationshipbetweenthetwofactorsandcropoutputtofacilitatedecisionmakinginagriculture,sotheycanpredictthefutureannualcropproduction.6.5选择其中一篇只有摘要的,利用OPAC查找,说明该文福州大学图书馆有没有收藏,如果有收藏请截图(包括索书号、馆藏地点等信息在内)。

相关主题