毕业设计(论文)说明书题目:图像检索系统的设计与实现毕业设计(论文)任务书题目:图像检索系统的设计与实现毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。
尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。
对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。
作者签名:日期:指导教师签名:日期:使用授权说明本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。
作者签名:日期:一、原始依据(包括设计或论文的工作基础、研究条件、应用环境、工作目的等。
)随着互联网的飞速发展,网络上的图片信息呈爆炸式增长,这使得人们在网上找到所需的图片越来越困难,图片检索技术成为当今非常热门的研究话题。
图像检索一直是信息检索领域的一个主流问题,涉及到图像处理、图像分割、模式识别及机器学习等多个方面。
检索的智能化和自动化是图像检索的目标。
目前主流的图像检索方法大致可以分为两大类,即基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR)。
在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方面是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。
而搜集图片和建立索引又是实现图像检索技术的非常重要的一个环节。
网络爬虫程序就是用来搜集网页和图片的程序。
本文的研究重点在于使用网络爬虫框架Heritrix进行扩展,从网络上下载所需网页及图片并利用HTMLParser进行网页分析和图片相关信息提取。
完成上述工作后,再将图片的目录位置和提取的信息存入数据库。
并建立一个图片检索系统的Web工程,实现检索功能。
开发语言为Java, 开发工具为MyEclipse和MySQL及Tomcat.二、参考文献[1]Ritendra Datta, Dhiraj Joshi, Jia Li et al. Image Retrieval: Ideas, Influences, and Trends ofthe New Age[J].ACM Comput. Surv. 40, 2, Article 5 .April 2008.[2]李晓明,闫宏飞,王继民. 搜索引擎-原理,技术与系统[M].北京:科学出版社,2004.[3]马自萍.形状和颜色特征的混合图像检索[D].银川:北方民族大学,2010.7.[4]陈剑雄,张蓓.简析图像检索中的CBIR技术[J].情报探索(第7期),2010.7.[5]Rafael C.Gonzalez and Richard E.Woods.Digital Image Processing Second Edition[M].Prentice Hall, 2003-3.[6]沈兰荪,张箐,李晓光。
图像检索与压缩域处理技术的研究[M].北京:人名邮电出版社,2008.12.[7]周明全,耿国华,韦娜.基于内容图像检索技术[M].北京:清华大学出版社,2007.7.[8]李向阳, 庄越挺, 潘云鹤. 基于内容的图像检索技术与系统[J]. 计算机研究与发展2001年第3期.[9]安志勇.基于内容的图像检索关键技术的研究[D].西安:西安电子科技大学,2008.[10]李伟,黄颖。
基于HTMLParser的网页信息提取[J] .兵工自动化(第7期),2007,7.三、设计(研究)内容和要求(包括设计或研究内容、主要指标与技术参数,并根据课题性质对学生提出具体要求。
)1.系统学习 Java 编程语言,熟练掌握Java语言的基本思想和相关的编程技术。
2.学习并掌握机器学习、数据库常用技术,JSP,图像处理等相关技术。
3.学习并掌握项目开发用到的相关工具及软件的使用。
4.了解图像检索的原理,发展,意义及用途,及图像检索系统的设计思路。
5.了解网络爬虫的原理及工作流程,充分阅读Heritrix的开放源代码,会利用Heritrix从网上爬图片存入数据库。
6.掌握正则表达式及HTMLParser等网页分析方法,了解网页信息提取策略、7.完成图像检索系统的设计和代码开发8.对该系统进行充分的测试,并完善开发9.总结开发过程中所遇到的问题和心得体会指导教师(签字)年月日审题小组组长(签字)年月日天津大学本科生毕业设计(论文)开题报告摘要随着互联网的飞速发展,网络上的图片信息呈爆炸式增长,这使得人们在网上找到所需的图片越来越困难,图片检索技术成为当今非常热门的研究话题。
而搜集图片和建立索引又是实现图像检索技术的非常重要的一个环节。
网络爬虫程序就是用来搜集网页和图片的程序。
本文的研究重点在于使用网络爬虫框架Heritrix进行扩展,从网络上下载所需网页及图片并利用HTMLParser进行网页分析和图片相关信息提取。
完成上述工作后,再将图片的目录位置和提取的信息存入数据库。
并建立一个图片检索系统的Web工程,实现检索功能。
开发语言为Java, 开发工具为MyEclipse和MySQL及Tomcat.关键词:图像检索,网络爬虫,Heritrix, HTMLParser, 网页信息提取ABSTRACTWith the rapid development of network information on the explosive growth of images, which makes it on the Internet more and more difficult to find the images, image search technology become a very hot research topic. The collection of images and indexing for image retrieval is a very important aspect. Web crawler is used to collect Web pages and pictures of the program.This study focuses on using the Heritrix Web crawler framework to extend, from the Internet and download web pages and images for web use HTMLParser information extraction and image analysis. After completion of the work, then the image directory location and the extracted information into a database. And a picture retrieval system for Web projects, to achieve search function. Development language for Java, and MySQL development tools for the MyEclipse and Tomcat.Keywords: image retrieval, web crawler, Heritrix, HTMLParser, Web information extraction目录第一章文献综述 (1)1.1 图像检索的研究意义 (1)1.2 图像检索的国内外发展状况 (1)1.3 网络爬虫技术在搜索引擎中的应用 (3)1.4 网页分析和信息提取技术 (4)1.5 本文的研究重点,系统结构和内容 (5)第二章 Heritrix应用开发扩展 (7)2.1 Heritrix简介 (7)2.1 Heritrix抓取策略及改进 (9)2.3 Heritrix抓取过程 (10)2.3 网页爬结果 (13)第三章HTMLParser图片相关信息提取 (14)3.1 HTMLParser简介 (14)3.2 图片信息提取策略 (14)3.3 图片信息提取的实现方法 (15)3.4 实验提取结果 (17)第四章图像检索系统的搭建 (18)4.1 数据库的建立 (18)4.2 系统的实现框架和结构 (21)4.3 检索结果展示 (23)第五章总结和展望 (25)参考文献 (26)附录 (27)外文资料中文译文致谢第一章文献综述1.1 图像检索的研究意义为了解决上述问题,定向抓取相关网页资源的网络爬虫应运而生。
网络爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。
图像检索一直是信息检索领域的一个主流问题,涉及到图像处理、图像分割、模式识别及机器学习等多个方面。
检索的智能化和自动化是图像检索的目标。
目前主流的图像检索方法大致可以分为两大类,即基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR)。
在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方面是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值的记录作为结果,按照相似度降序的方式输出。
1.2 图像检索的国内外发展状况从20世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像检索技术(Text-based Image Retrieval,简称TBIR),利用文本描述的方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。
到90年代以后,出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图像检索(Content-based Image Retrieval,简称CBIR)技术。
基于内容的图像检索根据图像特征、图像的内容语义以及上下文联系进行查找,以图像语义特征为线索从图像数据库中检出具有相似特性的其它图像。