当前位置:文档之家› 搜索引擎页面排序融合算法_吴文昭

搜索引擎页面排序融合算法_吴文昭


,=

=1
搜 索 结 果 有 序 文 集 中 含 有 不 同 大 小 的 文 档 ,在 实 际 的 实
验中,发现这些文档的大小差距有时会达到近 20 倍。考虑到
相 同 的 词 项 出 现 在 不 同 的 网 页 中 ,网 页 的 长 度 越 长 ,词 项 可 能
获 得 的 权 值 也 就 越 高 。 所 以 ,一 个 词 项 的 权 值 应 该 在 某 种 程
1678 2010,31 (8)
网络与通信技术
计 算计机算工机程工与程设与设计计CoCmopmupteurteErnEgningeinereienrginagnadnDd eDsiegsnign
搜索引擎页面排序融合算法
吴文昭 (兰州城市学院,甘肃 兰州 730070)
摘 要:针对 PageRank 算法 不十分关注页面 内容而只关注“超链 分析”的现状,并存在着 用户实际所需要 的页面的次序 并不 靠前 的问题,提出了一种搜索 引擎页面排序 融合算法。该算 法通过考虑词 项权重、链接分析和用户 偏好 3 个主 要方面,得到 一个 URL 的权 值评价,这样每个待搜集 的网页都有自 己的权值评价,超链选择 程序根据这些权 值,从中 选出一个或一 批权 值最 大的来搜集,以 达到精确检索的 目的。 关键 词:搜索引擎 ; 页面排序; 词项权重; 链接 分析; 用户偏好 中图 法分类号:TP393.09 文献标识码:A 文章编号:1000-7024 (2010) 08-1678-04
传统的 IR 采用“向量空间模型”(VSM)技术进行相关排序[2-3], 而且是基于如下两个假设:①被索引的信息本身有很高的质量, 至 少 在 信 息 的 组 织 和 内 容 上 有 着 比 较 高 的 质 量 ;② 检 索 信 息 的用户有一定的相关技能和知识。然而,这些假设在 Web 上 都已不在成立:①Web 上网页的质量参差不齐,大量的网页组 织性、结构性比较差。同时,Web 又是一个无所不包的载体, 它涉及政治、经济、教育、生活等各个方面;②大部分检索用户 是 没 有 任 何 经 验 的 ,在 检 索 输 入 表 达 中 ,存 在 各 种 各 样 的 问 题。尽管 Web 页面的情况比传统 IR 面对的情况要复杂许多, 但 其 中 的 复 杂 性 也 给 我 们 带 来 了 新 的 机 会 ,主 要 体 现 在 两 个
价: = + + 。这样,每个待搜集的网页都有 自己的 ,超链选择程序根据这些权值,从中选出一个或一批 权 值 最 大 的 来 搜 集 ,即 达 到 了 精 确 检 索 的 目 的 。
式中:
, ——归一化之前的词项基本权值,max——最大
的网页可索引文本大小; ——网页 的可索引文本大小。
而 max 代表对于所有的 பைடு நூலகம்而言
一化处理。
,=
,
=
, lg / max
,=
,
max
网页之间的超链接是 Web 的基本特点,如前所述,PageRank 算法就是依靠计算网页的外部链接数量来决定该网页的 排名,然而 PageRank 忽略了页面的主题相关性[7],影响了搜索 结果的相关性和准确性,而且 PageRank 算法对新网页有很严 重的歧视性,因为一个新网页入链数量通常都很少,相应的链 接权值很低。综合考虑上述问题,再结合 TSPR(topic-sensitive PageRank)[8]算法,我们提出了新的主题相关链接权值 TLW 计 算方法。
Web 有两 个基本的构成 因素:网页和超链 。如果将网页 看作是节点,超链是有向边的 话,就可以将 整个网络抽象为 一 个 巨 大 的 有 向 图 。其 中 ,每 个 网 页 的 入 链 (inlink) 是 不 同 的 , 而 且 具 有 一 定 的 主 题 相 关 性 ,所 以 可 以 将 每 个 网 页 的 入 链 看 作 一 个 向 量 , 称 为 网 页 的 链 接 主 题 向 量 (link topic vector, LTV)。
根据标签影响权值的程度,本文将标签划分为 16 个等级, 相应的权值设定从 0 开始,说明是不影响文本权值的标签,而 权值设定为 15 的标签说明其包含的是非常重要的文本内容。 部分标签的影响权值如表 1 所示。
表 1 HTML 标签影响权值
Tag <TITLE>
<BIG> <B> <I>
<IMG>
度 上 受 到 网 页 的 可 索 引 文 本 长 度 的 影 响 。所 以 一 个 词 项 的 基
本权值由两部分组成;第 1 部分是考虑了 HTML 标签影响的
绝对权值;第 2 部分是考虑网页的可索引文本长度对权值的
影 响 。 此 外 ,对 于 上 述 计 算 得 到 的 词 项 基 本 权 值 需 要 进 行 归
简单统计网页中的词频并不能很好的表达网页所包含的 真实信息,而是应该利用网页的内部结构,特别是 HTML 标签 对于所包含的文本内容的影响。HTML 标签对于词项权值的 影响主要是通过标签的属性来实现的,HTML 标签包围的一 段 文 本 内 容 因 其 周 围 标 签 的 属 性 不 同 ,使 得 文 本 内 容 的 重 要 性也不同。
Wt(tag) 15 6 5 3 0
Tag <H1> <H2> <H3> <H4> <H5>
Wt(tag) 15 12 9 6 3
网 页 中 的 每 个 词 项 并 不 一 定 只 被 一 个 标 签 所 包 围 ,它 可 能 被 其 它 的 有 权 标 签 包 围 ,这 些 标 签 的 权 值 都 会 影 响 到 这 个 词 项 的 权 值 ,所 以 一 个 词 项 的 标 签 影 响 权 值 应 该 是 周 围 有 权 标 签 的 权 值 之 和 ,这 样 就 获 得 了 每 个 词 项 在 网 页 中 每 次 出 现 的权值。假设词项 在网页中出现 次,每次出现的权值分别 为 1, 2,…, 就可以得到词项 t 在整篇网页 中的权值:
Page ranking fusion algorithm of search engine
WU Wen-zhao (Lanzhou City College, Lanzhou 730070, China)
Abstract:PageRank algorithm is not very concerned about the content page, only concerns about “Hyperlink analysis”, and the existence of the actual needs of the user page is not high priority issues. A page ranking fusion algorithm of search engine is presented. By taking into account term weighting, link analysis and user preferences in three main areas, the algorithm got a URL value evaluation. To be collected so that each page has its own weight of evaluation, hyperlink selection process based on these weights, choosed one or a group of the largest weight to the collection, in order to achieve the purpose of precise retrieval. Key words:search engine; page ranking; term weighting; link analysis; user preferences
1 URL 的权值评价
一个网页是否重要,可以从其它网页上找到相应的线 索。如果 一个网页十分 重要,那么会有大 量的链接指向 这个 网页。因此,需 要对一个还没 有搜集的 URL 地址进行 被链 接次数的统计,以 确定从 URL 获得的其 它网页的评价,同时 赋予其相应的权 值 (词项权重)。另 外,可以根据日常 在网 上 的 访 问 ,来 获 得 一 些 有 价 值 的 网 站 ,加 入 到 配 置 文 件 中 。当 一个网页属于这些重要网站时,就赋予它另外一个权值 (链 接 分 析 )。 按 照 搜 索 引 擎 服 务 的 用 户 群 , 应 该 给 相 应 的 网 页 赋予不同的优先 搜集次序,在 本文中,它体 现为编码权值
0引言
人们将信息检索系统返回结果的排序称为“相关排序”,隐 含 其 中各 条 目的 顺 序 反映 了 结果 和 查询 的 相 关程 度[1]。在 搜 索 引 擎 中 ,人 们 也 这 么 讲 ,但 内 涵 其 实 是 有 差 别 的 。一 方 面 , 搜索引擎维护的内容十分繁杂且不规范,不像传统的图 书 、文 献 等 有 很 好 的 分类 体 系 管 理 。另 一 方 面 ,搜索 引 擎 面 对 的用 户背景 广阔 ,层 次多样 ,不 像传 统的图 书馆 所面 对的 用 户 通 常 有 相 对比 较 整 齐 的 用 户 群。 因 此 ,搜 索引 擎 要 给 出 的 不 是 一 个 侠义 相 关 序 ,而 是 某 种 反 映 多 种 因素 的 综 合 统计优先序。
方 面 。 首 先 可 以 利 用 网 页 间 的 链 接 关 系 进 行 链 接 分 析 ,量 化 网页信息,以 PageRank 和 HITS 技术为代表[4];其次,在 Web 查 询模式下产生了许多新的信息可资利用,如 Web 用户行为 信息等。
现有的商用搜索引擎采用的页面排序技术存在很多缺 点 。比 如 :“PageRank”算 法 不 十 分 关 注 页 面 内 容 ;“超 链 分 析” 在 实 际 的 应 用 中 ,存 在 着 用 户 实 际 所 需 要 的 页 面 的 次 序 并 不 靠 前 的 问 题 [5]。用 户 只 有 经 过 较 长 时 间 的 浏 览 ,才 能 在 后 继 的 搜 索 结 果 中 找 到 所 需 要 的 页 面 。 也 就 是 说 ,搜 索 引 擎 的 准 确 率并不高。
相关主题