当前位置:文档之家› 3.1 搜索引擎

3.1 搜索引擎



一种Web上应用的软件系统 以一定的策略在Web上搜集、发现和组织信息 使用者的角度:提供一个网页界面供用户输入词 语或者短语,系统将返回一个可能和用户输入内 容相关的信息列表
Source: 李晓明,闫宏飞,王继民著.搜索引擎——原理、技术与系统. 北京:科学出版社,2005:2
1.2工作原理
Scirus的检索功能
布尔逻辑检索、精确检索和字段限制检索 检索途径:篇名、作者、期刊名称等 高级检索:可设置信息发布时间、信息类 型、文件格式、信息来源、学科领域等多 个选项

检索结果:依据相关度排序 相关度主要与关键词和链接两个基本因素 相关

前者主要考虑检索词的位置和出现频率 一个网页被其他网页参考或链接得越频繁,其 排序就越靠前

检索练习



请通过某一综合性搜索引擎,分别找出1个你感 兴趣问题的PDF文件与PPT文件,并从中挑选最 符合你要求的一条记录。 请通过某一综合性检索引擎,找出你所在学科或 专业有哪几个专门的搜索引擎,并利用其中的一 个查找一个专业问题。 每一题要求写出使用的检索工具,检索途径、检 索式、检出记录的数量和你认为最相关的1条记 录的著者、题名、网址,以及你的检索体会。

Google的结果处理
4.3 Yahoo!( )
雅虎中国: 1994年4月由杨致远和David Filo创立

最早的目录式搜索引擎之一 提供两种检索方式

关键词检索 分类目录浏览和检索


分类目录(/dir )

分为14个大类,每个大类又分小类
检索结果处理:按相关度排序 实现网页、图片、博客、视频等资源的整 合检索 显示人物关系


提问:
还有哪些常用的综合性搜索引点

5 中外文最广泛的搜索引擎 获得30多项奖项,如Outstanding Search Service,Best News Search Engine,Best Image Search Engine,Best Design,Most Webmaster Friendly Search Engine


特色功能:


显示被引用信息:揭示文献之间的引用与被引用关系 显示图书馆链接,用户可搜索参加这一计划的图书馆 馆藏资源目录,查看可供访问的资源链接,国家图书 馆等多家图书馆参与了该项计划 使用偏好设置:用户可以对界面语言、搜索语言、图 书馆链接、结果显示数量和方式以及文献管理软件等 项目进行个性化定制

谷歌的首页-简洁明快
谷歌的高级检索页面
对多个检 索字段进 行限定
Google的结果处理
排序规则:按相关性排序。 相关性的评判以网页评级为基础,在全面 考察检索词的频率、位置、网页内容(以 及该网页所链接的内容)的基础上,评定 该网页与用户需求的匹配程度,并确定排 序优先级。 将独创的网页评级系统(PageRank)作为 网络搜索的基础

/ 荷兰爱思唯尔公司(Elsevier Science)于2001年4月 推出 专为搜索科学信息而设计的 网上最全面、综合性最强的科技文献门户网站之一 信息来源:大学网站、科学工作者的个人站点、学术会 议等; 文献类型:研究报告、同行评审期刊论文、专利文献、 预印本 覆盖各个学科:农业、天文、生物、化学、计算机、经 济、工程、数学、医学、社会学等 与图书馆合作推出“图书馆链接”功能



http:// / 2006年1月份开通 免费提供中国古代文化典籍在线搜索及阅读服务 收录上起先秦、下至清末两千多年的以汉字为载 体的历代典籍,内容涉及经、史、子、集各部。 内容进行严格校对,对一些生僻字特别进行造字 提供目录浏览和关键词检索
5.3 Scirus
1.2 工作原理

网页采集


预处理


网站拥有者主动向搜索 引擎提交网址 蜘蛛(Spider)扫描 网站的所有网页并将相 关信息存入数据库

关键词的提取 重复网页或转载网页 的消除 链接分析 网页重要程度的计算


用户输入检索式 提交检索要求

搜索引擎提供查询



接受用户提交的查询请 求 按照要求检索索引数据 库 返回相关记录
万维搜索 初级检索界面:独立搜索引擎 支持关键词检索
万维搜索 高级检索界面:元搜索引擎 集合了多个独立搜索引擎 结果可以按照多种方式排序
3 搜
搜索引擎优化网站(SEOMOZ)通过SEO 领域多位世界级专家的调查,发布两年一 度的搜索引擎排名影响因素调查结果。
2 搜索引擎的分类
按功能划分

独立搜索引擎
具有独立的数索引擎





一次检索多个数据库 有的提供结果去重等功 能 通常不具有独立的数据 库 提供多个搜索引擎的统 一检索界面 Metacrawler
独立搜索引擎与元搜索引 擎的集成,如万维搜索

Google的结果处理
每条检索结果显示标题、摘要、网址、网 页大小,有的还提供“cached(网页快照 )”、“similar pages(相关网页)”、 “note this(标记该网页)”以及网页翻 译等链接 提示可能存在安全风险的网站 自动对关键词的相关词进行分析并给出相 关00年1月 李彦宏和徐勇创立于中关村 全球最大的高级检索页面提供的众多产品的检索技巧
参见的帮助中心的检索功能和特点快照 拼音提示功能 支持繁简中文查询 相关搜索 支持:-、| 、“”、filetype、inurl 、 intitle、allintitle、site等。

7 跟踪搜索引擎的最新动态

讨论:通过哪些途径可以更好地了解搜索 引擎发展的最新动态?
搜索引擎主页的介绍与帮助页面 搜索引擎的集合与评价站点

• 中文搜索引擎指南 • 搜索引擎跟踪 • 搜索引擎列表
思考题
什么是搜索引擎?请谈谈其工作原理。 搜索引擎有哪些种类?各有什么特点? 对搜索引擎进行选择与评价主要考虑哪些 因素? 范围划分

综合性搜索引擎
涵盖各学科 涉及生活的各性搜索引擎





特定的功能 特定的学科 特定的用户 特定的信息类型 特定的地域 Lawcrawler,Sciseek Askjeeves for kids IP search
第三章
搜索引擎
Outline
搜索引擎概念(定义、工作原理、特征) 搜索引擎的分类 搜索引擎的选择与评价 常用综合性搜索引擎 常用学术搜索引擎 使用搜索引擎要注意的问题 跟踪搜索引擎的变化

1 搜索引擎概述


你最常用的搜索引擎 有哪些? 你认为搜索引擎是什 么?
1.1 概念


提问:还有哪些学术搜索引擎?

如:

Search4Science /


北大天网
CNKI知识搜索/
6 使用搜索引擎要注意的问题
各个搜索引擎的功能有别 同一种运算在不同搜索引擎中使用的符号 不同 各引擎结果排名的计算方法不同 优先选用好的搜索引擎 选择有针对性的搜索引擎 搜索引擎不是万能的 竞争激烈 ,要留意变化


提问:你使用过Google哪些功能?
谷歌提供了多样化的服务和功能
Google的检索技巧
一般不区分英文大小写 缺省值 AND(and) 支持site、inurl、allinurl、intitle、 allintitle、filetype、link、define、 related等 filetype字段: pdf,doc, ppt, xls, rtf,swf等 13种非HTML文件 filetype:pdf AND “英语四级模拟试题”

检索结果按照相关度排序
谷歌学术搜索的更多功能

对结果中的某一本书:
查看介绍、版权信息、目次,章的样例 书内信息检索(Search within this book) 可购买的网上书店链接 比较不同网上书店的价格( 与Froogle等捆绑)

谷歌学术搜索首页则

通过超链接分析技术、词频统计和竞价排名相 结合的方式对网页进行相关度评价。
每提示

4.2 Google(



谷歌:/ 1998年9月由斯坦福大学博士生 Larry Page ,Sergey Brin创立
source: /article/search-ranking-factors
3 搜索引擎的选择与评价

SEOMOZ(2009)的调查结果
•前5位的负面影响因素为: •恶意隐藏作弊(68%,非常非 常重要) •从链接中介购买链接(56%, 非常重要) •指向搜索引擎作弊的站点或网 页的链接(51%,比较重要) •基于User Agent的伪装(51%, 比较重要) •频繁的服务器故障或站点无法 访问(51%,比较重要)
• 以网页链接形式提供 • 通过链接指向用户所需 网页
2 搜索引擎的分类
按信息内容组织方式划分

Web Directory
人工参与,主题目录 数据有限,专指性强 Yahoo!Directory Open Directory


Keyword search engine


无人工控制,由系统完 成 数据量大,更新及时 Google

5.1 谷歌学术搜索(Google scholar)
网址: 中文网址: 资源来源:学术出版商、专业学会、高等 院校、图书馆及其他学术机构 文献类型包括:图书、同行评议的期刊论 文、学位论文、论文预印本、技术报告。 信息来源可靠,学术性强
相关主题