当前位置:
文档之家› 省句中用户-随着网络数字时代的到来,网络已成为人们获取
省句中用户-随着网络数字时代的到来,网络已成为人们获取
随着网络数字时代的到来,网络已成 为人们获取信息的重要手段.因特网是一个 信息的海洋,如何在这个浩瀚的海洋中迅 速而准确地找到你想要的信息呢?
§什么是搜索引擎?
• 它以一定的策略在因特网中搜集、发现信息;
• 它对信息进行理解、提取、组织和处理;
• 它为用户提供检索服务,从而起到信息导航的目的。
全文搜索引擎 ---关键词检索
网”上,抓到 了“/tzhj.asp?dq=11”页面;
Step2 从页面全文中抽取一系列关键字,包括“北京”、“概况”等等, 并把网页网址与这些关键字关联,利用“索引器”建立从索 引数据库中搜索,并将搜索到的结果展示在页面上。
§目录索引类搜索引擎的不足
因特网上的信息量大,信息资源不断增加、复杂多 变,人工分类具有一定的主观性; 同时,由于人工编制和维护要花费大量的人力和时 间, 因此,更新速度慢。
部分网络目录并不全是人工方式采集和组织信息, 而是利用自动功能或者由用户递交的方式来丰富和补充 资源。
由于目录索引类搜索引擎与全文搜索引擎检索有各 自的优点和缺点,目前它们谁也无法完全取代谁,于是 很多搜索网站都同时提供这两种类型的服务,例如 Yahoo、Sina 等。
下面以“北大天网”为例。 :8080/
北大天网既提供因特网信息资源检索, 也以因特网形式提供FTP文件检索
元搜索引擎:
元搜索引擎是一种调用其他多个独立搜索引擎的 引擎,是对多个独立搜索引擎的整合、调用、控 制和优化,能方便地检索多个搜索引擎,扩大检 索范围,提高检索的全面性。如:
元搜索引擎的特点
元搜索引擎在搜索的时候,用户只需提 交一次搜索请求,而且可以同时搜索多 个数据库,并根据多个搜索引擎的检索 结果进行二次加工,如对检索结果进行 重排和标明检索结果来源等,输出给用 户。
利用困特网进行信息资源检索时,如果 想大致了解某一个领域的信息资源,可以 使用目录索引类搜索引擎;如果需要检索 的信息资源目标比较明确,则可以根据信 息资源的类型选择搜索工具。
§全文搜索引擎的工作原理“”的“蜘蛛”是如何知道有(中国西部投
资网/tzhj.asp?dq=11)这个网页的呢
注册过,“蜘蛛”顺着注册的地址找到其首页,并顺着 首页找到“北京概况”这个特定页面。 2、“蜘蛛”顺着其他网站上的“中国西部投资网”链 接爬到了其首页上,并顺藤摸瓜,抓到了“北京概况” 这个页面。
搜索引擎的发展趋势
1、多媒体信息检索
传统的多媒体数据库中,除了文本和数字还包括 图形、图象、声音、视频、动画等各种媒体组合。但 多媒体信息具有丰富的内涵,如:图象的颜色、纹理、 形状,动画中的运动、声音和音调等。例如歌曲的旋 律、音调、音质等难以用文字描述。这正是基于内容 的音频检索需要研究和解决的问题,以期达到更深的 检索层次和更好的检索效果。
信息检索工具工作原理:
1、全文搜索引擎的工作原理
搜索器:负责定期地自动到
各个网站上,把网页抓下来, 并顺着上面的链接,持续不断 地抓取网页。如“网络机器 人”、“爬虫”、“蜘网
页进行分析,按照关键词句进 行索引,并存入服务器的数据 库中。
检索器:面向用户,接收用
关键字
提炼搜索关键词(提炼最具代表性和指示性的 关键词) 细化搜索条件(如多输入一两个关键词) 用好逻辑符号(and、or、not) 强制搜索(添加英文双引号来搜索短语词)
目录索引类搜索引擎一般采用人工方式 采集的存储网络信息,依靠手工为每个网 站确定 一个标题,并给出大概的描述,建 立关键字索引,将其放入相应的类目体系 中。
1
户提交的查询字串,在索引数 据库中查询,并将结果反馈给 用户。
§全文搜 结果出来后,有上万条信息,查 看其中一项,就看到了相应的网 页。(中国西部投资网
/tzhj.asp?dq=11)
用代表所需信息的主题的关键字进行 信息查询
目录式搜索引擎 ---分类检索
利用罗列目录的方式引导搜索者依据目 录查找需要的信息。
常用全文搜索引擎:
http://162.105.146.27/
常用目录索引类搜索引擎:
2、专业垂直搜索引擎
专业垂直类搜索引擎只面向某一个特 定的领域,专注于自己的特长和核心 技术,能够保证对该领域信息的完全 收录和及时更新。
题问365试题搜索引擎
其他信息检索工具:
以FTP 、Telnet 、Usenet 等资源为检索对象的检索工具,如:北大天网、 Archie等
1、总目录
2、专题目录
•总目录——专题目录——链接——网站
3、链接
§目录索引类搜索引擎的特点
从使用的角度讲,目录索引类搜索引擎最大
的特点就是在查询信息时,事先可以没有特定的
信息检索目标(关键词),通过浏览主题了解某一 主题的相关资源。 而且,目录索引类搜索引擎的网页由人工精
选,网页内容丰富,学术性较强。