个性化搜索引擎综述
Li i n h n Zh u Zh h i uJa s e g o iu
( o lg fS in e in x iest fS in ea d Te h oo y C l eo ce c ,Ja g iUnv ri o ce c n c n lg ,Ga z o 3 1 0 ) e y nh u 4 0 0
入到 队列或者堆 栈 中。爬 虫程 序一般 采用 宽度优 先
搜索策略为主、 深度优先搜索策略为辅 的搜索策略。 第二 , 由分 析程 序对爬 虫程 序下 载 的 网页进 行
分析 以用 于索 引 , 网页分析 一般 包括 分词 或 者使 用 停用 此表来 过滤 网页的信 息 。 第三 步 , 引程序将 网页信 息表 示 为一种 便 于 索
摘
要
分析 了现有搜索引擎的基本原理和基本分类 , 研究 了个性 化搜索引擎 的概念和基本分类 , 最后对 个性化搜索 搜索引擎 ; 个性化搜索 引擎 ; 爬虫
T 33 P 9
引 擎 的 发展 提 出 了一 些 建 议 。
关键词
中 图 分 类号
Su m ar fPe s n i e e r h Eng n m y o r o alz d S a c ie
Ab t a t Th a i rn i ls o h x si g s a c n i e a d b sc c t g re r n lz d n h o c p fp r s rc e b scp i cp e ft e e i t e r h e g n n a i a e o i sa e a ay e ,a d t e c n e t o e — n s n l e e r h e g n n a i a e o is a e s u id F n l ,s m es g e t n ft e d v l p e to e s n l e e r h o ai d s a c n i ea d b sc c t g r r t d e . i al z e y o u g s i so h e e o m n f r o ai d s a c o p z
2 1 搜索 引擎 的基 本原 理 .
第 四步 , 检索 程序从 索 引 中找 出与用 户查 询请 求相关 的信 息 , 用与分 析文 档相 似 的方 法来 处 理 采
用户查 询请求 , 后将 与用户 相关 的 网页 按照 相关 最 度递减 的顺 序排列 并返 回给用 户 。 2 2 搜索 引擎 的基本分 类 . 目前 ,n en t 已有 数 千个 能提 供 检 索 服务 I tr e 上
总第 2 2 5 期
21 0 0年第 1 期 O
计算机与数字工程
Co u e mp tr& Diia gn eig g tl En ie r n
Vo. 8No 1 13 . 0
80
个 性 化 搜 索 引擎 综 述
刘 建生 周 志 辉
赣州 3 10 ) 40 0 ( 西理工大学理学院 江
搜索 的方式 并 存储 在索 引数 据 库 中。索 引 的 质 量
是 we b信息 检索 系统成 功 的关 键 因素 之一 。一 个
个综 合 信息 库 。其 信 息来 源 丰 富 、 分布 广泛 , 种 各
类 型 的信息 资 源 异 构 地 分 布 在 网 络 空 间 中 , 果 如 不 能使 庞杂 的 信息 有序 化 , 很难 有 效 获取 , 就 如何
搜 索 引 擎 的 基 本 原 理 , 要 可 以 看 作 四 主
步 引: ~
第一 , 由爬 虫 程 序采用 一 定 的搜 索策 略对 We b 网络进行遍历并下载 网页 , 系统 中设置一个 队列或者
堆栈 。并且 包 含 一 些 起 始 U L; 虫 程 序 从 这 些 R 爬
的站点 , 这些站 点 的搜索 引擎 在收 录 的范 围 、 内容 、
e i e a epr os d. ng n r op e
Ke o d s a c n ie e s n l e e r h e g n s e tl yW r s e r h e g n ,p r o a i d s a c n i e ,r p i z e Cls mb r TP3 3 a s Nu e 9
1 引 言
随着 计 算 机 和 互 联 网技 术 的 飞 速 发 展 , 络 网 上 的信 息量 急 剧 增 长 , 已经 成 为 了人 类 有 史 以 来 资 源数 量最 多 、 源 种类 最 全 、 资 资源 规模 最 大 的 一
U L出发 , R 下载相应 的页 面 , 并从 中抽取 新 的超链 加
*
收 稿 日期 :0 0 5 1 日, 回 日期 :0 0年 6 1 21年 月 0 修 21 月 2日 作 者 简 介 : 建 生 , , 教 授 , 究 方 向 : 能 计 算 与 信 息 安 全 。周 志辉 , , 士 研 究 生 , 究 方 向 : 据 挖 掘 。 刘 男 副 研 智 男 硕 研 数
准 确有 效地 从 互联 网上 获取 信息 就 成 了一 项 艰 巨
的任务 利 用 搜 索 引擎 l 。 1 ]
好 的索引 模 型应 该 易 于 实 现 和 维 护 、 索 速 度 更 检
快、 空间需 求更低 。
2 搜 索 引擎 技 术概 述
21 年第 1 00 O期
计 算 机 与 数 字 工 程
检索方 法上 都 各 有 不 同 , 用 的技 术 也 各 具 特 点 。 采
过在 网页的整个处 理过程 中增 加模块 实现 个性 化信 息获取 , 这些 主题模 块包括 主题 确立 模块 、 优化 初始 种子模块 、 主题 相关 度 分 析模 块 和排 序 模块 。基 于