当前位置：文档之家› 搜索引擎页面排序融合算法_吴文昭

搜索引擎页面排序融合算法_吴文昭

,=
。
=1
搜索结果有序文集中含有不同大小的文档，在实际的实
验中，发现这些文档的大小差距有时会达到近 20 倍。考虑到
相同的词项出现在不同的网页中，网页的长度越长，词项可能
获得的权值也就越高。所以，一个词项的权值应该在某种程
1678 2010,31 (8)
网络与通信技术
计算计机算工机程工与程设与设计计CoCmopmupteurteErnEgningeinereienrginagnadnDd eDsiegsnign
搜索引擎页面排序融合算法
吴文昭 (兰州城市学院，甘肃兰州 730070)
摘要：针对 PageRank 算法不十分关注页面内容而只关注“超链分析”的现状，并存在着用户实际所需要的页面的次序并不靠前的问题，提出了一种搜索引擎页面排序融合算法。该算法通过考虑词项权重、链接分析和用户偏好 3 个主要方面，得到一个 URL 的权值评价，这样每个待搜集的网页都有自己的权值评价，超链选择程序根据这些权值，从中选出一个或一批权值最大的来搜集，以达到精确检索的目的。关键词：搜索引擎 ; 页面排序; 词项权重; 链接分析; 用户偏好中图法分类号：TP393.09 文献标识码：A 文章编号：1000-7024 (2010) 08-1678-04
传统的 IR 采用“向量空间模型”(VSM)技术进行相关排序[2-3]，而且是基于如下两个假设：①被索引的信息本身有很高的质量，至少在信息的组织和内容上有着比较高的质量；② 检索信息的用户有一定的相关技能和知识。然而，这些假设在 Web 上都已不在成立：①Web 上网页的质量参差不齐，大量的网页组织性、结构性比较差。同时，Web 又是一个无所不包的载体，它涉及政治、经济、教育、生活等各个方面；②大部分检索用户是没有任何经验的，在检索输入表达中，存在各种各样的问题。尽管 Web 页面的情况比传统 IR 面对的情况要复杂许多，但其中的复杂性也给我们带来了新的机会，主要体现在两个
价： = + + 。这样，每个待搜集的网页都有自己的，超链选择程序根据这些权值，从中选出一个或一批权值最大的来搜集，即达到了精确检索的目的。
式中：
, ——归一化之前的词项基本权值，max——最大
的网页可索引文本大小； ——网页的可索引文本大小。
而 max 代表对于所有的 பைடு நூலகம்而言
一化处理。
,=
,
=
, lg / max
,=
,
max
网页之间的超链接是 Web 的基本特点，如前所述，PageRank 算法就是依靠计算网页的外部链接数量来决定该网页的排名，然而 PageRank 忽略了页面的主题相关性[7]，影响了搜索结果的相关性和准确性，而且 PageRank 算法对新网页有很严重的歧视性，因为一个新网页入链数量通常都很少，相应的链接权值很低。综合考虑上述问题，再结合 TSPR(topic-sensitive PageRank)[8]算法，我们提出了新的主题相关链接权值 TLW 计算方法。
Web 有两个基本的构成因素：网页和超链。如果将网页看作是节点，超链是有向边的话，就可以将整个网络抽象为一个巨大的有向图。其中，每个网页的入链 (inlink) 是不同的，而且具有一定的主题相关性，所以可以将每个网页的入链看作一个向量，称为网页的链接主题向量 (link topic vector， LTV)。
根据标签影响权值的程度，本文将标签划分为 16 个等级，相应的权值设定从 0 开始，说明是不影响文本权值的标签，而权值设定为 15 的标签说明其包含的是非常重要的文本内容。部分标签的影响权值如表 1 所示。
表 1 HTML 标签影响权值
Tag <TITLE>
<BIG> <B> <I>
<IMG>
度上受到网页的可索引文本长度的影响。所以一个词项的基
本权值由两部分组成；第 1 部分是考虑了 HTML 标签影响的
绝对权值；第 2 部分是考虑网页的可索引文本长度对权值的
影响。此外，对于上述计算得到的词项基本权值需要进行归
简单统计网页中的词频并不能很好的表达网页所包含的真实信息，而是应该利用网页的内部结构，特别是 HTML 标签对于所包含的文本内容的影响。HTML 标签对于词项权值的影响主要是通过标签的属性来实现的，HTML 标签包围的一段文本内容因其周围标签的属性不同，使得文本内容的重要性也不同。
Wt(tag) 15 6 5 3 0
Tag <H1> <H2> <H3> <H4> <H5>
Wt(tag) 15 12 9 6 3
网页中的每个词项并不一定只被一个标签所包围，它可能被其它的有权标签包围，这些标签的权值都会影响到这个词项的权值，所以一个词项的标签影响权值应该是周围有权标签的权值之和，这样就获得了每个词项在网页中每次出现的权值。假设词项在网页中出现次，每次出现的权值分别为 1, 2,…, 就可以得到词项 t 在整篇网页中的权值：
Page ranking fusion algorithm of search engine
WU Wen-zhao (Lanzhou City College, Lanzhou 730070, China)
Abstract：PageRank algorithm is not very concerned about the content page, only concerns about “Hyperlink analysis”, and the existence of the actual needs of the user page is not high priority issues. A page ranking fusion algorithm of search engine is presented. By taking into account term weighting, link analysis and user preferences in three main areas, the algorithm got a URL value evaluation. To be collected so that each page has its own weight of evaluation, hyperlink selection process based on these weights, choosed one or a group of the largest weight to the collection, in order to achieve the purpose of precise retrieval. Key words：search engine; page ranking; term weighting; link analysis; user preferences
1 URL 的权值评价
一个网页是否重要，可以从其它网页上找到相应的线索。如果一个网页十分重要，那么会有大量的链接指向这个网页。因此，需要对一个还没有搜集的 URL 地址进行被链接次数的统计，以确定从 URL 获得的其它网页的评价，同时赋予其相应的权值 (词项权重)。另外，可以根据日常在网上的访问，来获得一些有价值的网站，加入到配置文件中。当一个网页属于这些重要网站时，就赋予它另外一个权值 (链接分析 )。按照搜索引擎服务的用户群，应该给相应的网页赋予不同的优先搜集次序，在本文中，它体现为编码权值
0引言
人们将信息检索系统返回结果的排序称为“相关排序”，隐含其中各条目的顺序反映了结果和查询的相关程度[1]。在搜索引擎中，人们也这么讲，但内涵其实是有差别的。一方面，搜索引擎维护的内容十分繁杂且不规范，不像传统的图书、文献等有很好的分类体系管理。另一方面，搜索引擎面对的用户背景广阔，层次多样，不像传统的图书馆所面对的用户通常有相对比较整齐的用户群。因此，搜索引擎要给出的不是一个侠义相关序，而是某种反映多种因素的综合统计优先序。
方面。首先可以利用网页间的链接关系进行链接分析，量化网页信息，以 PageRank 和 HITS 技术为代表[4]；其次，在 Web 查询模式下产生了许多新的信息可资利用，如 Web 用户行为信息等。
现有的商用搜索引擎采用的页面排序技术存在很多缺点。比如：“PageRank”算法不十分关注页面内容；“超链分析” 在实际的应用中，存在着用户实际所需要的页面的次序并不靠前的问题 [5]。用户只有经过较长时间的浏览，才能在后继的搜索结果中找到所需要的页面。也就是说，搜索引擎的准确率并不高。

e商务文档

搜索引擎页面排序融合算法_吴文昭

相关文档推荐：