当前位置:文档之家› 2011搜索引擎排名因素调查报告

2011搜索引擎排名因素调查报告

报告理论依据
作为搜索引擎优化技术人员,我们对商业网站搜索结果最具影响的因素尤为注意。

因此,我们对此一直进行研究,调查网站搜索结果和Linkscape工具中的链接与锚文本等数据,以及从Facebook得到的社会媒体信号,还有页面因素/链接地址/域名关键词因素之间的关系。

这份文件阐释了我们的理论方法,包括数据的建立和统计分析,主要构成如下:接下来的部分包含数据建立的细节,对数据源和样本抽取的选择。

最后一部分描述的是统计分析方法。

在研究细节之前,我们想对几个重要特点进行分析。

虽然以后我们计划拓展分析,但目前我们只考虑英语语言,即从谷歌搜索引擎得到的结果。

在2011年3月,也就是在谷歌的Farmer/Panda更新之后,我们对所有数据资料进行了采集。

数据收集
关键词列表:构建数据集的第一步选择一个查询词列表.因为该列表决定了数据集的构成质量,所以确保它涵盖各种主题和查询
种类是至关重要的.为达到此目标,我们使用了Google Adwords工具推荐的排名前15的查询种类(表1给出了关键词分类清单).Google Adwords工具给每一种类提供了800个查询,共计12000个.通过清除副本(有些查询含多个种类),我们最后得出的清单有10980个查询.
通过搜索量来测算,关键词的最终列表包含样本的头、中、尾查询。

表2列出了不同本地搜索量的查询数量。

从罕见搜索(每月少
于1000次)到频繁搜索(每月超过20000次,以及包含每月超过1000000次关键词搜索的数据),所有的搜索量都得到了较好的体现。

SERPs:我们在谷歌美国搜索引擎中对查询列表上10980个查询词进行了查询,并且每个词都提取了前30个搜索结果。

我们
从结果中删除所有非网页搜索结果(图像、视频、新闻等),最后,我们排除所有返回的结果小于15的查询,以确保每个SERP有足够的数据点进行分析。

最终剩下223737个独立的URL。

因素:构建数据集的最后一步是计算排名因素。

我们收集了各种来源的因素,具体如下。

1、Linkscape URL指标.所有链接的相关因素均来源于Linkscape,使用url-metrics API调用。

(Linkscape是SEOmoz开发的软件,使用自己的爬虫来获取海量的数据)
2、Linkscape锚文本对于每一个网址,我们提取了使用Linkscape锚文本API调用的前1000个锚文本术语和短语。

然后,我
们确定是否有局部/精确匹配的查询。

这里的“精确匹配”是指整个查询的锚文本完全匹配,而“部分匹配”是指查询中至少有一个词与锚文本匹配。

3、社会媒体的信号。

对于每一个网址,我们从Facebook、谷歌Buzz和Topsy(Twitter)的API中获取各种社会媒体的信号。

4、网页上的因素。

我们检索每个网址的原始的HTML/XML内容,而且计算了各种利益因素。

如在不同页面元素中的关键词匹配,文件的长度等
5、域名/URL因素我们也采集了有关网址和域名的各种因素,如查询是否与域名匹配,是否域名中包含任何连字符等。

在带有所有结果的数据集中可以发现该因素的完整列表和每个描述。

此次调查的介绍
此次调查的介绍两段更改为:2011年3月期间,SEOmoz采访了134位SEO专业人士,收集了他们对目前商业网站搜索结果影响因素的看法及对未来搜索的预测。

下面的数据显示,自由职业者与营销人员受访者之间存在较大的分歧。

此外,这些受访者的工作地点涵盖了从当地小规模网站到企业级别的网站。

本次调查还包括一些关于搜索计算的基本问题,要求每个受访者针对特定类别的网站,按顺序罗列出其潜在影响因素的清单。

每个问题均有115到126人回答。

除个别结果按比例进行了缩放以外,其它调查结果仍按收集的原样呈现。

相关调查数据
一、域名级的关键词使用
域名级关键词的使用所表现出的这些特征,包括了如何在根域名或子域名中使用关键词,以及其在搜索引擎排名上可能具有的影响力。

注意:在过去这些年中我们已经看到了,不管是由一组投票得出的有关其重要性的结果,还是相关的数据,都呈现出明显的下降趋势。

在2010年6月,精确匹配的.com域的相关性指数为0.38,排名也更高,而在2011年3月下旬,这个数字下降到了0.22,这是整个数据集的最大跌幅乊一。

1.相关数据
2.调查数据
二、域名级链接权威特征
这些特征描述了关于托管网页的根域名的链接指标(如对于页面/A,这些特征为指向*. 的链接,而不仅仅是网页A)。

注意:下列链接带(百分比)的负相关性表明,nofollowed链接很少的网站可能表现不佳。

我们不确定这是为什么,但链接配置文件的“自然状态”可归咎部分原因。

(自然合理的网站都有nofollowed和followed链接,而一些垃圾邮件/机械式操作只有followed链接)。

1.相关数据
2. 调查数据
三、域名级关键词不确定性特征
这些特征涉及到整个根域,但不直接描述链接或以关键词为基础的因素。

相反,它们涉及到域名字符长度、网
∙∙
站错误页面的数量、网站内容的相对独特性等。

注意:相关数据无法显示全部特征,但其包含的三个都是负相关(意味着,域名所包含的字符越多,一般预示着排名会越差)。

1.相关数据
2.调查数据
3.非链接相关
四、域名级品牌指标
这些特征描述了所显示品牌的品质和品牌指标对根域名的影响。

注意:不并的是,这些特征在这一轮相关数据中没有直接可观的,所以这里目前只有投票者的意见。



∙∙∙∙∙

五、页面级别关键字不确定性特征
这些元素描述了非关键词的使用,非个人网页链接的数据特征(如页面的长度,加载速度等)。

注:响应时间,从某种程度来说,响应时间的长短与排名的高低是负相关的(所以往往加载页面的速度越快,排名越高)。

同样令人欣慰的是,AdSense的数量和尺寸的大小都与高排名负相关,表明谷歌不会在排名中偏向于他们自己的广告产品。

1.相关数据
2.调查数据
∙∙∙∙

六、页面级社会化指标
这些特征涉及影响页面排名的社会媒体第三方指标(脸谱,Twitter等)
1.相关数据
2.调查数据








七、页面级链接指标
注意:在过去的几年,网页特定链接特征是相关指标排名最高的(虽然社会因素现在也起到一定作用)。

我们发现非常有趣的是,在一般情况下,部分匹配锚文本比精确匹配锚文本关联性更好。

1.相关数据
2.调查数据
∙∙∙∙

八、页面级关键词的使用
这些特征描述了页面上HTML代码中特定部分(Title元素,H1,ALT属性等)使用关键词术语/短语对页面排名的影响情况。

注:TF-IDF(term frequency–inverse document frequency)是一种用于信息搜索和信息挖掘的常用加权技术。

在搜索、文献分类和其他相关领域有广泛的应用。

TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,幵且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。

IDF反文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。

使用TF*IDF可以计算某个关键字在某篇文章里面的重要性,因而识别这篇文章的主要含义,实现计算机读懂文章的功能。

1.相关数据
2.调查数据





∙∙

九、页级流量/查询数据
这些元素描述了关于排名页面的用户+使用的数据(如Google + Bing,搜索工具栏、浏览器和移动设备,而获得了大量的网络流量数据)。

注:不并的是,这一轮相关数据不是直接明显得出的,所以目前只能参考投票者的观点。

专家观点和预测一、广泛算法
2011版搜索排名的广泛算法
2009版搜索排名的广泛算法
二、链接贬值因素
三、页面级消极因素
四、域名层消极因素
五、未来搜索趋势(因素)
六、Special Casing Prominence
七、Special Casing Influence。

相关主题