当前位置:
文档之家› 浅析图书馆如何搭建小型搜索引擎
浅析图书馆如何搭建小型搜索引擎
s als ac n i e m l e r he g n Ke ywo d : iia ir r S ac ngn S a c r sD g t lb ay; e rh e ie;e rh l
引 言 随着 网络 的兴起 ,搜索 引擎逐渐 被广泛 使用 。 索引擎 技术是 搜 网络 与计算机 技术结 合的产物 ,它 的发展决 定于 网络 技术 的发展 。 对 于 图书馆来 说 ,用户 的文献 检索 需求 越来 越 强 ,专业 覆盖 面 广而 专业 性细 分 ,所 购专 业 性数 据库 越来 越 多 ,信 息量 也越 来 越 大 ,为 了给 读 者提供 快速 、方便 的检 索 ,使读 者 能够 自网上 即 时获 取所 需要 的文 献资 料 ,更好 的整 合 相关 的课题 、科研 研究 信 息等 , 图书馆 可 以考虑 建设 覆盖 某些 行业 领 域或 者某 些专 业 的小 型搜 索 引擎 。 本文 尝试 着从 基本 技术 的 角度来 阐述 如何 搭 建搜 索 引擎 ,大 致可 以从 :信 息搜 集 、构建 索 引、检 索三 个 部分 来 了解 现 有开 发
一
爬 虫所抓 取 的页 面都 存放 在 网页库 中 ,为 了减 少所 需 的存 储 空 间 ,经 常 需要 对页 面进 行压 缩存 储 。页 面通 常都存 放 在数 据库 中,但是 对 于小 型 的搜索 系统 来 说可 以简 单地 把页 面存 成文 件 的 形式 。索 引处 理下 载 的 网页并 为搜 索提 供服 务 。索 引把每 一个 文 档记 录成 词组 和词 组在 文档 中出现 的位 置 , 同时通过 词 组出现 频 率等 计算 文档 得分 , 以便用 于 查询 结果 的排 序或 者更 进 一步 的处
Li r r w oBu l ma l e r h En i e b a y Ho t i a S d l S a c gn
Xin o h o a g Ga c a
(i ayo h n sa o tc n ,h n s a 5 8 0 , ia Lb r f o g h nP le h i Z o g h n 2 4 4Ch ) r Z y c n
计 算机 光盘 软件 与应 用
2 1 年第 7期 00 C m u e DS f w r n p lc to s o p t rC o t a ea dA p i a in 软件设计 开发
浅析图书馆如何搭建小型搜索引擎
向 高潮 பைடு நூலகம்
( 中山职业技术 学院 图书馆 ,广 东中山 5 80 ) 2 4 4
理。
( )构建 搜 索 三
查询 引擎 接 收来 自用 户 的查 询提 问并在 索 引 中进 行 查询 。 然 后 查 询 引擎 还 要 通 过 各 种 内容 和 链 接 分 析 权值 对 结 果 进行 排 序 。一 些搜 索 引擎 的查 询 引擎还 要储 备 一些 常见 的查询 请求 。最 后, 查询 引擎 把查 询 结果组 织成 一个 H M 页 面并通 过用 户接 口呈 TL 现 给用 户 。用户 通过 用 户接 口提 交查 询请 求 并查看 查询 结果 。当 用 户通 过接 口提 交查 询 请求 后 ,请求 被提 交给 查询 引擎 ,由查询 引擎在 索 引数据 库 中找到 查询 结果 并反 馈给 用户 。
Absr c : i pe n lz st e fa i lt ir r e r h e giea d p i a i x ane t e b sc tc noo O b l t a tTh spa ra ay e h e sbi y oflb a y s ac n n ,n rm rl e pli d h a i e h lgy t ui a i y d
摘 要 :文章 分析 图书馆 建设搜 索引 擎的可行 性 ,并 主要 阐述构 建 小型搜 索 引擎 的基本 技 术 关键 词 :数 字 图书馆 ;搜 索引 擎 ;检 索 中图分类号:T 3 P1 1 文献标识码:A 文章鳊号 :10 - 59( 00) 7 04 - 1 07 99 2 1 0 - 19 0
( )现 有 的工 具 四 除 了上 面讨 论 的爬虫 和 索引 工具 ,还有 很 多免 费 的软件 工具 可 以用 于搜 索引 擎 的各个 部 分 。如 网页抓 取 、索 引、查 找 、索引 存储 结 构 、和用 户接 口等 。用 户 可 以通 过 这些 工具 建立 自己的搜 索 引擎 。一 些常 用 的搜索 引擎 开发 工具 如 W b lm s、h :/ g eG ip e t/ d 、 Ge n tn 和 Ak ln 。 些工 具从 用户 获得 一列 网址 作为种 子 r eS oe la ie 这 站点 开始 抓取 网 页,对 抓取 的网页 进行 索 引 ,并 建立 用户 接 口。 用户 可 以通 过这 些 工具 集来 构建 自己的专业 搜 索 引擎 。 三 、结束 语 对 于我 国图书 馆业 来说 , 随着信 息技 术 领域 里 的各 种新 理论 、 新技 术 、新方 法用 于数 字 图书馆 搜 索引 擎 的研 究 与应 用 ,数 字 图 就 是一 个早 期 的个人 网络 蜘蛛 例子 。通 过 T e oa c 户可 以输 书馆 建设 必将 有更 好 的发展 ,我 们 希望 有更 多更 好 的搜索 引擎 能 uM s i 用 入 关键 词 ,设 定抓 取深 度 和 宽度 ,只抓 取 首 页等 。W b ip r eR pe 、 开发 出来 ,从而 促进 图书 馆事 业 的快速 发展 。 Wb ie eM nr和 T lp r ee ot这些 软件 工具 允许 用户 从在给 定站 点 的具 参 考文 献 : 有 特殊类 型或 者属 性 的网页 。 最近 几年 也 出现 了一些 开源 的工 具 , 『 张敏 . 于 It t 个性 化信 息检 索 关键技 术研 究. 山大学 工 1 1 基 ne 的 me 燕 如 Hr t i,这 是一 个互 联 网档案 馆工 程 的爬 虫 ,从 网上 即可 下 学硕士 学位论 文 e irx 载 的到 。 『赵 志荣 . 化搜 索 引擎 的研 究 、设 计 与 实现. 大 学硕 士 学 2 】 个性 四川 还 有 一 些 蜘 蛛 设 计 的 能 提 供 附 加 功 能 , 如 C m e iie op tt v 位 论 文
( )建设 索引 二
搜索 引 擎 的 内容 建设 好 了,接 下 来就 要为 内容 数据 库建 设索
引了。
技术 ,文章 还 提到 了一些 现有 的搜 索 引擎 开发工 具 。
二 、基 本技 术
( )信 息搜集 一 对 于 图书馆 来 说所要 搜集 的信 息包 括 各 图书馆 站 点、 学者个 人 主页 、学 术研 究论 文 、在线 会议 资源 、专业 数据 库 等等 。 因为 网页 是通过 超 链接 (y e ln s Hp r ik )互 相连 接 , “ 蜘蛛 ” 程 序被 用来 在 网络上 搜集 网页 。这个 “ 蛛 ”程序 也被 叫做 网络 蜘 机 器人 ( e o o ) WbRb t 、网页代理 (e gn s 、爬 虫 (rw es 、 Wb et) a c a lr ) 蠕 虫 (om ) w r s或者 漫步 者 (ad rr ) ,它遵 守标准 的 H T 协 w n ee s等 TP 议 ,通 过 网页 间的超 链接 (R s U L )来爬 取 网页 。首先 ,爬 虫读 取 列种 子站 点 的 U L 并 且下载 这 些 UL Rs R s的页 面 。然后 处理这 些 页 面 ,提 取其 中含 有 的新 的 U L地址 并加 入到 下载 队列 中 。然 后 R 爬 虫选 择队 列 中的下一 个 U L进 行抓取 ,直到抓 取 了指 定数 目的 R 页 面 或者 硬 盘 没 有 空 间 了 。这 个 网络 页面 收 集 过程 常常 被 称 为 “ 取 ”或 “ 爬 抓取 ”。为 了提 高抓 取速度 ,可 以同 时使用 几个 爬 虫 去平行 爬取 不 同的站 点 ,使 用 多线 程或 者异 步输入 / 出 。 输 另外 ,一 个设 计 良好 的 “ 礼貌 ”的爬 虫应 该避 免在 短 时间 有 内向一个 W b 务器 发送 重复 的请 求 ,这样 会导 致该 站 点重复 下 e服 载 。网站 管理 员 同时应 该 知道他 们 的站 点不想 被那 些 特定 的爬 虫 爬 取 。有 两种方 法可 以拒 绝爬 虫 。第一 种是 使用 R bt协 议 ,在 oo 站 点的 根 目录 下放 置 “ oo .x ”文 件 来 告诉 爬 虫 该站 点 的 哪 r b ttt 些部分 不要 下载 。 二种 方 法是 使用 r b t 标 签 ,网页代码 中注 第 oo s 明该 网页 是否可 以被 索 引或者 提取 更多 的链接 。 在 网络 发展 的早 期就 已经 开发 除 了爬 虫 下载 工具 ,u M s i T eo a c
一
、
It lie c pd r 能进 行广 度优 先抓 取 ,并 可 以对 结 果进行 n e lgn eS ie 语 义 分析和 聚类 。te hb r iu ae ne ln p dr 能 h y id sm lt da na ig s ie 够 在 网上进 行 “ 全球 ”搜 索 。 通 过爬 虫工 具抓 取各 图书馆 站 点、学 者个 人 主页 、学术 研 究 论 文 、在线 会议 资源 、专 业 数据 库等 等 资源 ,这样 就 构建好 了一 个 图书 馆搜 索 引擎 的资源 了 。