当前位置:文档之家› 武汉大学黄如花信息检索3.1 搜索引擎

武汉大学黄如花信息检索3.1 搜索引擎

2006年1月份开通 免费提供中国古代文化典籍在线搜索及阅读服务 收录上起先秦、下至清末两千多年的以汉字为载
体的历代典籍,内容涉及经、史、子、集各部。 内容进行严格校对,对一些生僻字特别进行造字 提供目录浏览和关键词检索
检索结果:依据相关度排序
相关度主要与关键词和链接两个基本因素 相关
前者主要考虑检索词的位置和出现频率
一个网页被其他网页参考或链接得越频繁,其 排序就越靠前
提问:还有哪些学术搜索引擎?
如:
Sear000年1月 李彦宏和徐勇创立于中关村 全球最大的高级检索页面提供的众多产品的检索技巧
参见的帮助中心的检索功能和特点 快照 拼音提示功能 支持繁简中文查询 相关搜索 支持:-、| 、“”、filetype、inurl 、
北大天网
CNKI知识搜索/
6 使用搜索引擎要注意的问题
各个搜索引擎的功能有别 同一种运算在不同搜索引擎中使用的符号
不同 各引擎结果排名的计算方法不同 优先选用好的搜索引擎 选择有针对性的搜索引擎 搜索引擎不是万能的 竞争激烈 ,要留意变化
提问:你使用过Google哪些功能?
谷歌提供了多样化的服务和功能
Google的检索技巧
一般不区分英文大小写 缺省值 AND(and) 支持site、inurl、allinurl、intitle、
allintitle、filetype、link、define、 related等 filetype字段: pdf,doc, ppt, xls, rtf,swf等 13种非HTML文件 filetype:pdf AND “英语四级模拟试题”
5.3 Scirus
/ 荷兰爱思唯尔公司(Elsevier Science)于2001年4月
推出 专为搜索科学信息而设计的 网上最全面、综合性最强的科技文献门户网站之一 信息来源:大学网站、科学工作者的个人站点、学术会
议等; 文献类型:研究报告、同行评审期刊论文、专利文献、
按照要求检索索引数据 库
返回相关记录
• 以网页链接形式提供 • 通过链接指向用户所需
网页
2 搜索引擎的分类
按信息内容组织方式划分
Web Directory Keyword search
人工参与,主题目录 engine
数据有限,专指性强 Yahoo!Directory
无人工控制,由系统完 成
source: /article/search-ranking-factors
3 搜索引擎的选择与评价
SEOMOZ(2009)的调查结果
•前5位的负面影响因素为: •恶意隐藏作弊(68%,非常非 常重要) •从链接中介购买链接(56%, 非常重要) •指向搜索引擎作弊的站点或网 页的链接(51%,比较重要的服务器故障或站点无法 访问(51%,比较重要)
1.2 工作原理
网页采集
网站拥有者主动向搜索 引擎提交网址
蜘蛛(Spider)扫描 网站的所有网页并将相 关信息存入数据库
预处理
关键词的提取 重复网页或转载网页
的消除 链接分析 网页重要程度的计算
用户输入检索式 提交检索要求
搜索引擎提供查询
接受用户提交的查询请 求
intitle、allintitle、site等。的结果处理 检索结果排序规则
通过超链接分析技术、词频统计和竞价排名相 结合的方式对网页进行相关度评价。
每词检索提示
4.2 Google( )
谷歌:/ 1998年9月由斯坦福大学博士生 Larry
Page ,Sergey Brin创立
全球使用最广泛的搜索引擎 获得30多项奖项,如Outstanding Search
Service,Best News Search Engine,Best Image Search Engine,Best Design,Most Webmaster Friendly Search Engine
谷歌的首页-简洁明快
谷歌的高级检索页面
对多个检 索字段进 行限定
Google的结果处理
排序规则:按相关性排序。
相关性的评判以网页评级为基础,在全面 考察检索词的频率、位置、网页内容(以 及该网页所链接的内容)的基础上,评定 该网页与用户需求的匹配程度,并确定排 序优先级。
将独创的网页评级系统(PageRank)作为 网络搜索的基础
2 搜索引擎的分类
按功能划分
独立搜索引擎
具有独立的数 一次检索多个数据库
有的提供结果去重等功 能
通常不具有独立的数据 库
提供多个搜索引擎的统 一检索界面
Metacrawler
独立搜索引擎与元搜索引 擎的集成,如万维搜索
特色功能:
显示被引用信息:揭示文献之间的引用与被引用关系
显示图书馆链接,用户可搜索参加这一计划的图书馆 馆藏资源目录,查看可供访问的资源链接,国家图书 馆等多家图书馆参与了该项计划
使用偏好设置:用户可以对界面语言、搜索语言、图 书馆链接、结果显示数量和方式以及文献管理软件等 项目进行个性化定制
Google的结果处理
每条检索结果显示标题、摘要、网址、网 页大小,有的还提供“cached(网页快照 )”、“similar pages(相关网页)”、 “note this(标记该网页)”以及网页翻 译等链接
提示可能存在安全风险的网站
自动对关键词的相关词进行分析并给出相 关链接,提供”百宝箱“功能
第三章 搜索引擎
Outline
搜索引擎概念(定义、工作原理、特征) 搜索引擎的分类 搜索引擎的选择与评价 常用综合性搜索引擎 常用学术搜索引擎 使用搜索引擎要注意的问题 跟踪搜索引擎的变化
1 搜索引擎概述
你最常用的搜索引擎 有哪些?
你认为搜索引擎是什 么?
1.1 概念
预印本 覆盖各个学科:农业、天文、生物、化学、计算机、经
济、工程、数学、医学、社会学等 与图书馆合作推出“图书馆链接”功能
Scirus的检索功能
布尔逻辑检索、精确检索和字段限制检索 检索途径:篇名、作者、期刊名称等 高级检索:可设置信息发布时间、信息类
型、文件格式、信息来源、学科领域等多 个选项
3 搜索引擎的选择与评价
SEOMOZ(2009)的调查结果
•最重要的5个影响因素为: •关注关键词锚文本的外部链接 (73%,非常非常重要) •链接所在页面的热门程度( 71%,非常非常重要) •链接资源的多样性(67%,非 常非常重要) •标题标签中关键词的使用( 66%,非常重要) •链接域名的可信度(66%,非 常重要)
数据量大,更新及时
Open Direc范围划分
综合性搜索引擎
涵盖各学科 涉及生活的各领域 Google Yahoo! Bing 专业性搜索引擎
特定的功能 特定的学科 特定的用户 特定的信息类型 特定的地域 Lawcrawler,Sciseek Askjeeves for kids IP search
4 综合性搜索引擎选介
国 >搜搜(3.1%)>搜狗(2.4%) >雅虎(1.6%)
source:CNNIC. 2009年中国搜索引擎用户行为研究报告 (2009年9月) ./img/h000/h11/attach2 00911241026520.doc
因素? 谈一谈搜索引擎发展的趋势
检索练习
请通过某一综合性搜索引擎,分别找出1个你感 兴趣问题的PDF文件与PPT文件,并从中挑选最 符合你要求的一条记录。
分为14个大类,每个大类又分小类
检索结果处理:按相关度排序
实现网页、图片、博客、视频等资源的整 合检索
显示人物关系
提问:
还有哪些常用的综合性搜索引擎?
以”信息检索“为关键词,分别使用、谷 歌、雅虎中国进行搜索,并分析其异同点
5 中外文学eb上应用的软件系统 以一定的策略在Web上搜集、发现和组织信息 使用者的角度:提供一个网页界面供用户输入词
语或者短语,系统将返回一个可能和用户输入内 容相关的信息列表
Source: 李晓明,闫宏飞,王继民著.搜索引擎——原理、技术与系统. 北京:科学出版社,2005:2
1.2工作原理
source: /article/search-ranking-factors
3 搜索引擎的选择与评价
收录范围 分类 检索功能与效果 检索结果的处理方式 页面组织 其他功能与服务
4 综合性搜索引擎选介
全球主要搜索引擎份额(2009.7) Google(67.5%)新动态
讨论:通过哪些途径可以更好地了解搜索 引擎发展的最新动态?
搜索引擎主页的介绍与帮助页面 搜索引擎的集合与评价站点
• 中文搜索引擎指南 • 搜索引擎跟踪 • 搜索引擎列表
思考题
什么是搜索引擎?请谈谈其工作原理。 搜索引擎有哪些种类?各有什么特点? 对搜索引擎进行选择与评价主要考虑哪些
Google的结果处理
4.3 Yahoo!( )
雅虎中国: 1994年4月由杨致远和David Filo创立
最早的目录式搜索引擎之一 提供两种检索方式
关键词检索 分类目录浏览和检索
分类目录(/dir )
万维搜索 初级检索界面:独立搜索引擎 支持关键词检索
万维搜索 高级检索界面:元搜索引擎 集合了多个独立搜索引擎 结果可以按照多种方式排序

搜索引擎优化网站(SEOMOZ)通过SEO 领域多位世界级专家的调查,发布两年一 度的搜索引擎排名影响因素调查结果。
相关主题