检索报告2012级信工院系专业学号姓名成绩一检索课题概况(一)检索课题名称(中英文题名)计算机元数据的数据清洗Cleanning data for the metadata of computer(二)检索课题研究现状在构建机构知识库时,其中一项重要的工作是将收割的临时元数据仓储中的DC(Dublin core)元数据进行规范化,并将规范后的元数据写入DC元数据中心。
由于这些元数据来自不同的加工单位,存在录入错误、语义表示不一致、拼写错误和记录重复等情况,数据质量差异大,尤其是重复记录信息严重,影响查全率和查准率,所以,在元数据导入数据中心前,需要对元数据进行清洗。
国外对数据清洗的研究最早出现在美国,是从对全美的社会保险号错误的纠正开始口]。
美国信息业和商业的发展。
极大地刺激了对数据清洗技术的研究,主要集中在检测并消除数据异常、检测并消除近似重复记录、数据的集成、特定领域的数据清洗四个方面。
国内对数据清洗技术的研究还处于初步阶段。
直接针对数据清洗,特别是针对中文数据清洗的研究成果并不多。
大多是在数据仓库、决策支持、数据挖掘研究中,对其作一些比较简单的阐述。
银行、保险和证券等对客户数据的准确性要求很高的行业,都在做各自的客户数据的清洗工作,针对各自具体应用而开发软件,而很少有理论性的成果见诸于报道。
(三)总体检索思路计算机元数据的数据清洗工作是针对实际问题提出的课题,许多行业和领域如保险、证券、银行、图书馆都需要对原始数据进行数据清洗。
本课题涉及的学科范围包括计算机科学与技术、图书馆文件检索、情报学等等。
国内外数据清洗技术发展都很迅速,所以需要检索的文献包括国内外从2001-2012年的各种期刊论文、会议论文、会议论文、国内外专利文献等等,文献语种主要是中文和英文。
二检索过程记录该部分为综合检索报告的主体部分,主要分为图书资料、中文期刊论文、外文期刊论文、学位论文、专利文献及网络资源的检索。
包括对所选用的数据库、检索年限、检索词、检索策略(即逻辑检索表达式)以及检索结果等的记录。
一、中文数据库:(一)图书资料1.湘潭大学图书馆的纸质图书检索年限:2002-2012检索词:元数据数据预处理数据清洗逻辑检索表达式:题名=数据预处理检出文献总数:1检出文献截图和举例:[1] 刘文霞 .数据预处理 [M]. 厦门大学出版社 ,2011注:图书馆关于数据预处理方面的书籍比较少。
2.电子图书(请使用两个电子图书数据库检索)数据库一:读秀检索年限:全部检索词:数据清洗逻辑检索表达式:全部字段=数据清洗检出文献总数:49检出文献截图和举例:[1]王晓原,张敬磊等,交通流数据清洗与状态辨识及优化控制关键理论方法,科学出版社 ,2011[2]王晓原,张敬磊,杨新月,交通流数据清洗及状态辨识关键理论与应用,科学出版社 , 2010.09[3]郑庆华,Web知识挖掘理论、方法与应用,科学出版社, 2010.04数据库二:超星检索年限:2002-2012检索词:计算机元数据数据预处理数据清洗逻辑检索表达式:主题词:元数据检出文献总数:1检出文献截图和举例:[1]刘嘉著.元数据导论.[M].北京.华艺出版社2002(1).主题较新,只有1条记录(二)期刊论文(3个期刊全文数据库)中文数据库一: CNKI的中国期刊全文数据库检索年限:2002-2012检索词:元数据数据预处理数据清洗逻辑检索表达式:关键词=数据清洗 AND 数据预处理检出文献总数:51检出文献截图和举例:[1]刘丽峰,一种基于清洗关联规则的金融数据挖掘算法[J].微电子学与计算机2012(05) .[2]袁健.一种重构网站结构的Web日志挖掘数据预处理方法[J].小型微型计算机系统2011(07)[3]贾瑛.Web使用挖掘的数据预处理过程分析[J].科技信息2011(21).中文数据库二:万方检索年限:2002-2012检索词:元数据数据预处理数据清洗逻辑检索表达式:题名或关键词:(元数据) + 题名或关键词:( 数据预处理) + 题名或关键词:( 数据清洗) * Date:2002-2012 DBID:WF_QK检出文献总数:4401检出文献截图和举例:[1]郭志懋周傲英数据质量和数据清洗研究综述[J]. 软件学报2002(11)[2]张健冯建华ZHANG JianFENG Jian-hua数据预处理在保险理赔预测中的应用[J].计算机工程与设计2005(9)[3] 苏成数据挖掘中不可忽视的环节--数据预处理[J]. 华南金融电脑2006(1)中文数据库三:维普检索年限:2002-2012检索词:元数据数据预处理数据清洗逻辑检索表达式:题名或关键词=元数据或题名或关键词=数据预处理或题名或关键词=数据清洗与时间=2002-2012检出文献总数:5256检出文献截图和举例:[1]邵必林.边根庆.张维琪.闫瑾.采用k-均值聚类算法的资源搜索模型研究[J].西安交通大学学报.2012(10).[2]叶碎高.何斌.彭安帮.周惠成.康海贵.信息融合技术在防洪决策中的应用分析.[J].南水北调与水利科技.2012.(5).[3]罗凯.王昌.周谭凯.一种信息资源整合优化模型及其性能分析.[J].情报杂志.2012(10)(三)学位论文(至少2个数据库)数据库一:万方检索年限: 2002-2012检索词:元数据数据预处理数据清洗逻辑检索表达式:题名或关键词:(元数据) + 题名或关键词:( 数据预处理) + 题名或关键词:(数据清洗) * Date:2002-2012 DBID:WF_XW检出文献总篇数:1774检出文献截图和举例:[1]李晓菲.数据预处理算法的研究与应用.[D]. 西南交通大学.2006.(被引用4 次)[2]徐一帆.入侵检测中数据预处理算法的研究.[D]. 东北大学.2007.[3]张宁.MSMiner中的数据预处理和文本分类[D].中国科学技术大学.2003 .数据库二:cnki检索年限: 2001-2010检索词:元数据数据预处理数据清洗逻辑检索表达式:题名:(数据预处理or 数据清洗) +关键词:(元数据)检出文献总篇数:9检出文献截图和举例:[1] 张宇.基于多Agent的数据清洗系统的研究与实现.[D].东北大学.2010.[2]孟卓瑜.XML数据仓库的数据预处理研究与应用.[D].解放军信息工程大学.2008-.[3]王雪萍.经营分析系统的数据预处理技术.[D].北京邮电大学2007.(四)会议论文(至少2个数据库)数据库一:万方检索年限:2002-2012检索词:元数据数据预处理数据清洗逻辑检索表达式:题名或关键词:(元数据) + 题名或关键词:(数据预处理) + 题名或关键词:(数据清洗) * Date:2002-2012 DBID:WF_HY检出文献总篇数:664检出文献截图和举例:[1]肖英治.陈红.带数据清洗功能的数据预处理系统PW-ETL的设计与实现[C].第二十一届中国数据库学术会议.2004.[2]赵淑玉虞路清黎建辉元数据在专家信息库数据集成建设中的应用[C].第七届科学数据库与信息技术学术讨论会.2004.[3]李晓静.谷峪.吕雁飞.王艳秋.于戈.基于动态事件概率模型的高效RFID数据清洗算法.[C].第二十五届中国数据库学术会议.2008.数据库二:独秀会议论文检索年限:2002-2012检索词:元数据数据预处理数据清洗逻辑检索表达式:(((KEYWORD=(物联网and 存储)) or (KEYWORD=(传感网and 存储))) or (KEYWORD=(云计算and 存储))) AND PUBYEAR >= 2001 AND PUBYEAR <= 2011检出文献总篇数:1920670检出文献截图和举例:[1]刘萍.范希辉.王海涛.杨艾军.基于元数据和本体的仿真资源描述方法.[D].第14届中国系统仿真技术及其应用学术年会.2012.[2]梁晓雯.数字电视元数据应用场景研究及标准体系建设建议.[D].中国新闻技术工作者联合会.2012.[3]王宇.张家湘.IPTC照片元数据标准在新华社图片产业的应用研究[D].中国新闻技术工作者联合会.2012.(五)国内专利文献数据库一:中国专利数据库(知网版)检索年限:不限检索词:元数据数据预处理数据清洗逻辑检索表达式:专利名称:数据预处理or 数据清洗检出文献总篇数:28检出文献截图和举例:[1]北京中星微电子有限公司.数据预处理方法和装置.中国. CN101087419.[P].2007-06-20 .[2]海申瑞电力科技股份有限公司.数据采集与监视控制系统的遥测数据清洗方法中国.CN101634991.[P].2009-04-21.[3]上海宝信软件股份有限公司.元数据驱动的数据预处理方法.中国CN1722135.[P].2004-07-16.数据库二:万方专利数据库检索年限: 2002-2012检索词:元数据数据预处理数据清洗逻辑检索表达式:题名或关键词:(元数据) + 题名或关键词:( 数据预处理) + 题名或关键词:(数据清洗) * Date:2002-2012检出文献总篇数:563检出文献截图和举例:[1]松下电器产业株式会社.元数据生成管理装置、元数据生成系统、元数据生成管理用集成电路、元数据生成管理方法及程序.日本.CN201080001474.8[P].2010-3-3.[2]新太科技股份有限公司.一种ETL数据清洗设计方法.广东.CN201110063960.9.[P].2011-3-17.[3]曙光信息产业(北京)有限公司.一种基于丢弃的多元数据服务器元数据日志一致性的方法.北京.CN201110328292.8[P].2011-10-25.二、外文数据库:(一)外文参考数据库数据库一:INSPEC(科学文摘数据库)检索年限: 2002-2012检索词:Metadata Data preprocessing Data cleansing逻辑检索表达式:主题=(Data cleansing) OR 标题=(Data preprocessing) OR 标题=(Metadata) 时间跨度=2002-2012. 数据库=Inspec检出文献总篇数:2825检出文献截图和举例:[1]Nori, A.V.; Rajamani, S.K. Program Analysis and Machine Learning: A Win-Win Deal[J].Programming Languages and Systems. 9th Asian Symposium, APLAS 2011[2] Ming Chen; Xiaorui Wang; Hairong Qi;Adaptive response time control for metadata matching in information dissemination systems [J].Journal of Systems Architecture.2012(58).[3]Gibson, D.Equipping your organization to shoot the metadata rapids [J]. Database and Network Journal.2012(42).(二)外文期刊论文(至少3个数据库)数据库一:Science Direct检索年限: 2002-2012检索词:Metadata Data preprocessing Data cleansing逻辑检索表达式:pub-date > 2001 and TITLE-ABSTR-KEY(Data cleansing) or TITLE-ABSTR-KEY(Data preprocessing )检出文献总篇数:926检出文献截图和举例:[1] Feyza Gürbüz, Lale Özbakir, Hüseyin Yapici.Data mining and preprocessing application on component reports of an airline company in Turkey [J]Expert Systems with Applications, Volume 38, Issue 6, June 2011, Pages 6618-6626[2]Sven F. Crone, Stefan Lessmann, Robert Stahlbock. The impact of preprocessing on data mining: An evaluation of classifier sensitivity in direct marketing Original Research Article.[J].European Journal of Operational Research, Volume 173, Issue 3, 16 September 2006, Pages 781-800[3]Xiaohua Hu.DB-HReduction: A data preprocessing algorithm for data mining applications Original Research Article.[J].Applied Mathematics Letters, Volume 16, Issue 6, August 2003, Pages 889-895外文数据库二:Springerlink检索年限: 2002-2012检索词:Metadata Data preprocessing Data cleansing逻辑检索表达式:Metadata and Data preprocessing and Data cleansing检出文献总篇数:30检出文献截图和举例:[1]David Perez-Rey, Alberto Anguita, Jose Crespo.OntoDataClean:Ontology-Based Integrationand Preprocessing of Distributed Data.[D]. Biological and Medical Data Analysis (2006)[2] Jason J. Jung, Hong-Gee Kim, Geun-Sik Jo. Alignment-Based Preprocessing of Personal Ontologies on Semantic Social Network.[D].Knowledge-Based Intelligent Information and Engineering Systems(2007) .[3]Selma Ayşe Özalp, Özgür Ulusoy;Effective Early Termination Techniques for Text Similarity Join Operator. [D].Computer and Information Sciences - ISCIS 2005 (2005).外文数据库三:万方外文文献数据库检索年限: 2002-2012检索词:Metadata Data preprocessing Data cleansing逻辑检索表达式:题名或关键词:("Metadata ") + 题名或关键词:("Data preprocessing ") + 题名或关键词:(" Data cleansing") * Date:2002-2012检出文献总篇数:4477检出文献截图和举例:[1]Jorg Heinrich;Tino Elter;Joachim Ulrich ;Data Preprocessing of In Situ Laser-Backscattering Measurements.[J]. Chemical Engineering & Technology.2011 [2]Davis, J.J.Clark, A.J. Data preprocessing for anomaly based network intrusion detection: A review.[J].Computers & Security. 2011 6/7.[3] Selvarasu, SureshKim, Do YunKarimi, Iftekhar ALee, Dong-Yup;Combined data preprocessing and multivariate statistical analysis characterizes fed-batch culture of mouse hybridoma cells for rational medium design.[J].Journal of Biotechnology .2010-1.(三)外文学位论文数据库一:欧美硕博论文文摘库(PQDT)检索年限: 2002-2012检索词:Metadata Data preprocessing Data cleansing逻辑检索表达式:all(Data preprocessing) AND all(Data cleansing)检出文献总篇数:3检出文献截图和举例:[1]Diss.Wang, Jiao.Application of Data Mining in Acetone Refining Process.[D]. Tsinghua University (People's Republic of China), 2005. H309791.[2]Diss.Han, Long.Kernel partial least squares (K-PLS) for scientific data mining.[D]. Rensselaer Polytechnic Institute, 2007. 3272191.[3]Diss.Zeng, Guangyin.Independent Component Analysis for data mining.[D]. Rensselaer Polytechnic Institute, 2007. 3299510.(四)国外专利文献数据库一:欧洲专利检索数据库检索年限:不限检索词:Metadata Data preprocessing Data cleansing逻辑检索表达式:Data cleansing (title /abstract)检出文献总篇数:151检出文献截图和举例:[1]FUJITSU LTD [JP];DATA INTEGRATION APPARATUS, DATA INTEGRATION METHOD, AND COMPUTER PRODUCT [p].G06F17/30 .2006-01-18[2]IBM [US] ;OPEN DATA MARKETPLACE FOR MUNICIPAL SERVICES [p].G06Q30/00.2011-06-17[3]REACHFORCE INC [US] ;System and Method for Capturing Information for Conversion into Actionable Sales Leads [p].G06Q30/02 .2008-11-12 .三、网络资源检索情况(主要是通过搜索引擎及本专业免费资源站点进行检索。