当前位置:文档之家› 第二章-互联网信息资源检索概论

第二章-互联网信息资源检索概论

11
12
发展前景:
虽然目录型检索工具在当今互联网信息检 索界的地位已不如从前,但仍是个个人维护的目录 型检索工具,它成为了相当一部分上网用 户的“入口”,许多对上网无从下手的人, 最需要的就是这样的导航网站,如今360也 开发了360网址。
第2章
1
第2章 互联网信息检索概论
2.1互联网信息检索类型和特点 2.2互联网信息检索原理之一——信息组织 2.3互联网信息检索原理之二——信息查询 2.4互联网检索工具的性能评价
2
2.1互联网信息检索的类型和特点
2.1.1互联网信息检索的类型 2.1.2互联网信息检索的特点
8
最具代表的互联网目录型检索工具当属 “yahoo”(雅虎),是由斯坦福大学的研究 生杨致远(Jerry Yang)和David Filo与 1993年创立的。
互联网刚开始发展时,他们在网上冲浪时, 逐渐把自己喜爱的站点编成一个名单以便 寻找,并将这一名单在网上公布,供网友 使用,这就是雅虎的前身,也是目录型检 索工具的工作原理。
索互联网站点提供了极大的方便,但随着
互联网的持续发展,它的缺点也越来越明 显,其地位收到了以Google为代表的搜索 引擎的挑战。
时过境迁,雅虎和搜狐都已经发展成了门
户网站。
10
补充:门户网站
中国四大门户网站:新浪、网易、搜狐、 腾讯
门户网站:又被称为链接页面,是通向某 类综合性互联网信息资源并提供相关信息 服务的应用系统。
张朝阳在中国创办“搜狐”,也是比较成 功典型的互联网目录型检索工具。
9
优点:人工参与度高,网络资源目录的组 织编排符合人们所熟悉的知识分类体系,
检索目标性相对较强,提供的检索结果准 确性也较高。
缺点:信息涵盖量不大,更新能力有限, 相对成本较高。
面临挑战:在互联网发展早期,为人们检
优点:扩大检索范围,提高检索效率,增 加了找到所需信息的可能性。
21
②垂直搜索引擎 其特点是“专、精、深”,且具有行业色
彩,与通用搜索引擎的海量信息无序化相 比,垂直搜索引擎的信息量虽然小,但更 加专注、深入具体。 比如酷讯的机票检索和团800的团购导航。
22
2.1.2互联网信息检索的特点
19
2、索引非文件形式的互联网信息资源的能 力有限,为了保证Robot抓取网页的效率, 让其不至于迷失在无尽的链接中无法返回, 通常Robot在漫游各个网站时会受到目录深 度的限制,较大搜索引擎的robot一般也就 能顺链到一个网站的4-5网检索工具
①元搜索引擎。它弥补了搜索引擎的不足, 他不存在Robot,也不存在存放网页的数据 库,当用户检索一个关键词时,它把用户 的检索请求转换成其他搜索引擎所能接受 的命令格式,并发送访问数个搜索引擎来 检索这个关键词,这些搜索引擎的结果经 过处理后再返回给用户。
3
2.1.1互联网信息检索的类型
1、“顺链而行”的浏览 基于互联网“超链接”的技术特点,用户
在浏览网页时,可以非常方便地利用超文 本文件中的链接从一个网页跳转到另一个 相关网页。这些类似于传统文献检索中的 “追溯检索”,但是检索效率已大大提升。 追踪网页的超链接,用户可以一轮一轮不 断地扩大检索范围,在很短的时间内获得 大量相关信息。
17
优点
充分利用了计算机的处理能力,对于规模 巨大的互联网信息资源的索引和检索具有 强大的优势,使得人们可以用更少的时间 检索到更广阔的互联网信息。
18
缺点
1.检索噪音问题。使用搜索引擎检索某个关 键词或关键词组合,通常会返回大量检索 结果,逐一浏览这些结果对用户来说是不 现实的。搜索引擎不断改进算法,使得最 满足检索需求的结果排序靠前,取得了一 定的效果,但是仍不能完全令人满意。
4
在互联网发展初期,“顺链浏览”的人工 浏览方式是互联网信息检索最主要的手段, 而浏览器的“书签”(收藏夹)功能是成 为该阶段被使用得最多的功能之一。
5
马云与黄页
1995年4月,马云和妻 子再加上一个朋友, 凑了两万块钱,专门 给企业做主页的杭州 海博网络公司就这样 开张了,网站取名 “中国黄页”,成为 中国最早的互联网公 司之一。其后不到三 年时间,他们利用该 网站赚到了500万元。
中国黄页2009年6月1 日,网站正式上线, 完全公益性网站,不 收任何费用!
6
人们对互联网信息的寻找,从最原始的 “顺链浏览”到黄页等早期检索工具,实 现了第一个飞跃。互联网黄页本质上就是 一种目录型检索工具。
7
2、基于目录型检索工具的互联网信 息检索
目录型检索工具,也被称为网络资源目录 或网络主题指南,它是一种基于人工的检 索工具,由人工发现、抓取、辨别互联网 信息,依靠编目、标引人员的知识,按照 图书分类、学科分类或其他分类依据的体 系,建立主题树分层目录,将采集、筛选 后的信息分门别类地放入各大类或子类下 面,用户通过逐级浏览这些目录来查询自 己所需要的内容。
13
14
15
3、基于索引型检索工具的互联网信 息检索
随着互联网信息量的急剧增加,仅以“网 站”为信息基本单元的检索方式已经不能 满足更精细的检索需求,于是基于“页面” 为信息基本单元的检索方式成为主流。
最具代表性的索引型网络检索工具就是搜 索引擎
16
搜索引擎原理
利用一个成为Robot的程序自动访问Web站 点,提取站点上的网页,并根据网页中的 链接进一步提取其他网页,并将搜集到的 网页加入到搜索引擎的数据库中,并建立 索引,供用户检索使用。然后用户输入关 键字之后进行检索。
1、无限检索范围,动态的检索对象 2、丰富的检索内容,新兴的检索领域 3、强大的检索工具,低廉的检索费用
23
2.2互联网信息检索原理之一—— 信息组织
目录型检索工具是基于某种人类制定的知 识分类体系,对网络信息资源的编排和组 织加以人工控制,其工作原理相对简单。 这里介绍的互联网信息检索原理,主要是 指基于计算机技术的索引型检索工具的工 作原理。
相关主题