Network & Communication•网络与通信智能搜索引擎发展现状及关键技术
文/艾丽娟
【关键词】智能 搜索引擎 技术
1 引言
随着信息技术的迅速发展和 Internet 的广泛普及,信息搜索成为广大网络用户获取互联网信息的主要手段。
在网络上信息量成几何级数的增长,人们将怎样在网络上搜索自己需要的信息。
传统的搜索引擎技术在日益庞大的信息量面前逐渐显得力不从心。
在这样的状况下,智能搜索引擎技术应运而生,也成为当前搜索引擎技术发展的主要方向。
2 搜索引擎发展历史及现状
目前公认的第一代搜索引擎是以 Yahoo 为代表的人工目录分类导航检索的网站搜索,它开始了互联网搜索的时代。
这是最为传统的搜索引擎,主要缺陷在于检索结果的相关性差,检索结果杂乱无章且数量庞大,与用户所想检索的结果差异太大,无法做到较为精确的检索。
第二代搜索引擎是以 Google为代表的,基于关键词和特殊算法的搜索,是依靠机器抓取的、建立在超链分析基础上的大规模网页搜索,相较于第一代搜索引擎提高了查准率、查全率和检索速度。
但是仍然不能满足网民的检索需求,用户在信息检索过程中有仍存在查全率、查准率低,检索多媒体信息的能力差等。
由此可见,第一、第二代搜索引擎使用的技术难以满足用户快速准确查找信息的需求。
造成这种情况的本质在于搜索引擎对要检索的信息仅采用机械的关键词匹配来实现,无法对所检索的内容进行处理和理解达到智能检索的目的。
将信息检索从基于关键词层面提高到基于知识(或概念)理解层面,是解决问题的根本和关键。
正是基于此需求,近年来研究人员一直致力于改进 Pagerank算法(在孟涛的文
章中有较全面的综述),由此来提高搜索结果
的质量。
从第一代搜索引擎到第二代搜索引擎是
质变过程,而到第三代搜索引擎则是量变与质
变的结合,不仅提升了检索技术,还向着智能
化的方向发展。
自从进入第三代搜索引擎,全
球都在不断探索和完善搜索引擎技术,经过多
年的探索和市场历练,现今已露端倪。
这一端
倪包括两个趋势:一是以 Goog le为主要代表
技术驱动型理念,还包括雅虎、搜狐等;二是
以 J wm guagua (精武门呱呱 )为主要代表的
服务驱动型理念。
以上两种类型的理念体现了
第三代搜索引擎的智能化、人性化特征,不再
局限于机械的关键词检索,可以直接对用户输
入的检索词进行语义分析整合,满足了用户更
快、更准、更方便的查询需求。
3 智能搜索引擎的关键技术
智能化搜索引擎具有信息服务的智能化、
人性化特征,可以为用户提供更快、更准确的
搜索服务,一般包括人工智能、模式识别、语
义分析、神经网络等智能搜索。
目前面对这用
户对搜索引擎的要求不断提高,要求智能搜索
的技术在不断更新,相关的算法不断的优化。
现在的搜索引擎主要还是以文字内容为基础,
其主要方法有两种:一是基于词典匹配,该方
法是将待分析的汉字与事先造好的词典中的词
条进行匹配,在待分析汉字串与词典中已有的
词条匹配则成功,或切分出一个单词。
词典匹
配方法计算较为简单,其准确度较大程度上取
决于词典的完整性和更新情况;二是基于统计
方法,该方法需要分析大量的文字样本,计
算统计出字与字相邻出现的概率,几个字相邻
出现越多形成一个词的可能性就越大。
基于统
计的方法优势是对新出现的词反应更快速,也
有利于消除歧义。
以上两种方法各有优劣,实
际应用中则是混合使用两种方法来达到快速高
效,又能识别生词、新词,消除歧义。
而为了更好的应用以上两种方法,并要
求智能引擎能够进行自然语言理解和处理关键
词的含义,机器学习和数据挖掘技术的发展显
得至关重要。
目前机器学习逐渐成为人工智能
研究的核心之一,它的应用已经遍及人工智能
的各个领域。
数据挖掘又可称为数据库中的知
识发现,指的是从存放数据库、数据仓库货其
他信息库中的大量数据中获取有效的、新颖的、
潜在有用的、最终可理解的模式的过程[5]。
4 结束语
Internet 的信息量爆炸性递增,搜索引擎
在用户和信息源之间架起了沟通的桥梁,为
人们迅速、方便地获取有效信息提供检索服务,
起到信息导航的目的。
当前的智能化搜索引擎
能够实现信息服务的智能化、人性化、高效化,
为用户检索互联网信息提供了方便,其发展是
一个长期的过程。
目前的搜索引擎主要提供基
于文字内容的信息检索服务,而对于进一步提
高检索结果的相关、个性化检索服务、支持多
媒体检索、支持自然语言检索、增强检索界
面的友好程度等还有非常多的工作需要去做,
搜索引擎要真正地实现智能化并不仅仅局限于
概念上那么简单。
但是我们要坚信,在科学技
术的不断发展和推动下,一些高性能的满足不
同需求的搜索引擎将会不断被开发出来。
参考文献
[1] 浅析第三代搜索引擎的发展[J].包
瑞.晋图学刊,2010年第4期(总第
119期).
[2] 第三代搜索引擎的研究现状及其发展趋
向探析[J].张立彬1,杨军花1,杨琴茹
2.情报理论与实践,2008(5):785—789.
[3] 搜索引擎的未来发展[J].韩进军,安
园园.医学信息学杂志,2007(5):431—
434.
[4] 数据挖掘[EB/OL].http://baike.aidu.
com/view/7893.htm 2010-01-08.
作者单位
广西大学计算机与电子信息学院 广西南宁市
530004
网络出版时间:2013-06-13 18:16
网络出版地址:/kcms/detail/10.1108.TP.20130613.1816.201310.19_005.html
Electronic Technology & Software Engineering 电子技术与软件工程• 19。