最佳优先模式--搜索引擎算法分析
搜索时大部分用户只关注排在最前面的搜索结果。
尽管视系统,用户,任务和界面的不同,具体的搜索结果数量也不同,但可以肯定的是前三个搜索结果将吸引你80%的主意力。
搜索结果第一页的其他链接也会得到部分关注,但其后的内容则不然。
有两个原因决定了这很重要。
首先,搜索的最简单用例就是:浏览有用的搜索结果。
用户输入关键词,扫视前面几个搜索结果,点击链接,搜索就完成了。
要让搜索简单,快速,有用,最佳优化搜索模式非常重要。
其次,最前面的几个搜索结果对于查询重构有着极大的影响。
用户输入搜索字词,浏览最初的几个结果,然后再试试搜索其他的内容。
大约20%~50%的搜索都包括查询重构。
前三个搜索结果是用户界面的重要组成部分。
因此,选择搜索引擎时,应该首先考虑最佳优先模式。
高质量,透明,灵活的结果排序算法是成功的关键。
他们自始至终都应该是优秀而出色的,能够根据特定内容集而变或是随着应用的独特需求而变。
其算法应该包括:
相关性
包括主题的相关性,目的在于将搜索关键字和内容文本元数据匹配起来。
有效算法包括词汇排序,相似性,位置,频度和文档长度等。
短标题里的精确词汇匹配比起长篇内容里的AND共现匹配要有价值得多。
在一个网页上反复出现,但在网站上其他地方却难寻踪迹的词语其权重也更高。
相关性算法必须处理好文本查询的特殊情况,包括复数和其他单词变体,比如诗人和诗歌。
只有做出调整才能在查准率和查全率之间取得合适的平衡。
相关性是典型的搜索引擎默认设置,而且事实上往往也是一种混合模式,把多种算法整合到一个平衡的解决方案中。
流行性
在大多数情境中,社会化数据能够极大地改善语义算法。
谷歌的PageRank算法把链接视为投票,这是一个大获成功的做法。
如今流行性已经成为典型的多算法度量。
在Flickr 上,照片的兴趣度有浏览数,评论数,注释数和收藏次数等决定。
在亚马逊网站上,用户按照最畅销或最佳评论来排序。
不过,及时用户按照相关性来排序时,社会化数据也影响着搜索结果的显示排序。
日期
默认日期排序并不好,但这一选项也自有用处。
尤其是对于新闻和邮件应用来说,按照反向时间顺序(即最新的内容优先显示)相对更加常见。
在许多情况下,出版日期或是修改日期可以为通用相关性算法提供有价值的数据,从而改善首选搜索结果的实时性。
格式
在单一形式中,格式和内容类型就像过滤器一样有用,用户可以选择只查看特定格式的内容,比如图片,视频或新闻。
而且,他们还可以帮助改善最佳搜索结果。
比如,在企业内
部网中,HTML和PDF文档也许比DOC文档或是XLS文档更加精致。
在这种情况下,针对应用进行调整把最佳格式放在最前面,是非常有用的。
个性化
许多数据都能影响搜索结果排序,用户的搜索历史,社交网站,或是当前位置(在线或是线下)只是其中一部分。
我们将在讨论个性化搜索模式时详述。
多样性
搜索时返回的结果有时会多过头。
多样性算法能通过辨别不同的含义(比如apple和APPL)和格式,据此来排除冗余结果并调整搜索。
针对特定应用程序加以调整能让搜索结果均衡适量,并适当包括多种内容。
本文来自龙欣SEO论坛。