第7章搜索引擎优化2137.1 搜索引擎和SEO 2137.1.1 搜索引擎的排名原理213要了解搜索引擎优化,首先了解搜索引擎的基本工作原理,搜索引擎大派出一个能够致上可以分为四个步骤。
1.爬行和抓取搜索引擎派出一个能够在网上发现新网页并抓取文件的程序,这个程序通常被称为蜘蛛或机器人。
搜索引擎从数据库中已知的网页开始出发,就像正常用户的浏览器一样访问这些网页并抓取文件。
并且搜索引擎会跟踪网页上的链接,访问更多的网页,这个过程就叫爬行,当通过链接发现有新的网址时,蜘蛛就把新的网址记录入数据库,等待抓取,跟踪网页链接是搜索引擎蜘蛛发现新网址的最基本方法,所以反向链接成为搜索引擎优化的最基本方法之一,没有反向链接,搜索引擎连页面都发现不了,就更谈不上排名了,搜索引擎蜘蛛抓取的页面文件,与用户浏览器得到的完全不一样,抓取的文件存入数据库。
2.索引搜索引擎程序把蜘蛛抓取的网页文件分解,分析,并以巨大表格的形势存入数据库,这个过程就是索引,在索引数据库中网页文字内容,关键词出现的位置,字体,颜色,加粗,斜体等相关信息都有相应的记录。
搜索引擎索引数据库存储巨量数据,主流搜索引擎通常都有几十亿级别的网页。
3.搜索词处理用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对输入的搜索词进行处理,如中文特有的分词处理,对关键词词序的分别,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况,搜索词的处理必须十分快速。
4.排序对搜索词进行处理后,搜索引擎排序程序开始工作,从索引数据库中找出所由包含搜索词的页面,并且根据排名算法计算出那些网页应该牌在前面,然后按一定格式返回“搜索”页面。
排序过程肃然在一两秒钟内就完成并返回用户所需要的搜索结果,实际上这是一个非常复杂的过程。
排名算法需要实时从索引数据库中找出所有的相关页面,实时计算相关性,加入过滤算法,其复杂程度是外人无法想象的,搜索引擎是当今规模最大,最复杂的计算系统之一。
但是即使是最好的搜索引擎在鉴别页面上也还无法与人相比,这就是为什么网站需要搜索引擎优化,没有SEO的帮助,搜索引擎常常并不能正确返回最相关,最权威,最有用的信息。
7.1.2 什么是SEO 2147.1.3 SEO有理论根据215一位读者在点石博客留评论问,我们所谈的SEO技巧”这些是经验之谈或想当然还是有理论支持的?”谈点个人看法。
严格的说,如果是问真正的理论根据,是没有的。
SEO研究的对象并不是自然界或人类社会客观存在的某件事物或某个现象,SEO 所研究的只是某家公司所设立的规矩。
而这个规矩没有什么客观性,他们完全可以改来改去。
虽然搜索引擎算法本身有它的理论基础,但做SEO的人是研究怎样充分了解和利用这套算法。
搜索引擎完全可以把他们的上百个参数做主观的调整。
这就像我们猜测某个饭馆几点开门一样,有什么理论基础吗?谈不上。
几点开门是老板主观定的一件事情。
老板定的时候自然有一定的根据,比如一般人们11点会饿,那就10点到11点之间开门。
外人要凭空猜测到底是10点10分还是10点半时能有什么理论根据呢?SEO技术也一样,是在综合很多信息下的猜测。
所谓educated guess。
宽泛一点说,我们所谈论的SEO技术和技巧当然是有一定的根据的,虽然谈不上是理论根据。
必须指出的是,这些根据只有很少一部分是可以被证实的,大部分技术在可以预见的未来恐怕都不能证实。
那么我们所讨论的SEO技术都来自于什么地方呢?那些不能证实的根据包括哪些呢?搜索引擎公司内部透露出来的零星信息比如Matt Cutts的博客,各搜索引擎官方代表在站长世界论坛回答其他会员的问题,搜索引擎公司的一些年报,汇报会,员工谈话。
Google,百度,雅虎等搜索引擎都会有一个给站长们做参考的网站制作指南,告诉大家网站怎样容易被收录,哪些会被惩罚。
不过这些信息大多比较笼统,只能让我们有一个原则性的认识。
比如说我们一直都知道Google排名算法中有上百个因素,前几个月Google内部的人讲话透露,现在有200个以上的因素,我们就知道Google算法是在进步中的。
但是这些因素是什么,他们就不告诉你了。
统计和观察针对某个关键词对排在前面的网站做统计,看哪些因素会是这个关键词或这个行业比较重要的。
这时候一些SEO工具就发挥用处了,比如说查一下关键词密度等。
这些统计是针对特定行业的,不同行业的排名有不同要求。
在对不同因素/变量做统计后还要考虑整体,不能给单一因素太高权重。
我一般会比较前10个网页和第90-100个网页的差别。
实验像关于搜索引擎优化培训的实验,从实验的过程和结果中都可以看到很多问题。
当然这个实验超出了我原想的范围,有点不能控制。
一般来说,真正的SEO实验都是只针对一个变量,在可控范围内下做的。
比如说关键词的位置对网页排名到底有什么影响,可以通过生僻的关键词在两个不同网页的表现看出来。
这两个网页的其他所有情况都一样,链接,文字长短,关键词密度等等,只是关键词一个在页头,一个在页尾。
大量阅读什么事都自己观察,自己计算,自己实验是不太可能的,所以需要大量看有关的论坛和博客。
我数了一下我每天要看的博客,现在是70多个,再加上3,4个论坛。
很多SEO专家都会把他们的心得和大家分享,这是非常值得重视的知识来源。
常识和逻辑虽然搜索引擎的具体排名算法我们不可能知道,但我们知道搜索引擎的根本目的是什么,那就是给用户提供最好的信息。
再加上一些其他的常识,有的时候就算没有其他辅助材料,也可以知道某项技术是好是坏。
原则上说,有助于用户的有用信息就是好的。
最后强调一句,所有的SEO技术都能找出反例证明它不成立。
7.1.4 搜索引擎友好的网站设计217假设我们从搜索引擎蜘蛛的角度去看待一个网页,在抓取,索引和排名的时候会遇到哪些问题呢?解决了这些问题的网站设计就是搜索引擎友好的。
搜索引擎蜘蛛能不能找到你的网页?要让搜索引擎找到你的主页你就必须要有外部链接,在找到你的主页之后,还必须能找到你的更深的内容页,也就要求你要有良好的网站结构,符合逻辑,可能是一个扁平的,可能是一个树状的。
而且这些网页之间要有良好的链接结构,这些链接以文字链接最好,图像链接也可以,但是JavaScript链接,下拉菜单链接,flash链接等就会有问题。
一般推荐网站需要有一个网站地图,把所有重要的部分和网页都列进去。
如果网站比较大,网站地图还可以分成几个。
网站的所有页面都要能从主页开始,顺着链接找到,最好在3,4次点击之内。
搜索引擎蜘蛛找到网页后能不能抓取网页?网页的URL必须是可以被抓取的,如果网页是由数据库动态生成的,那么URL 一般要经过改写成静态的,也就是去掉那些URL中问号参数之类的东西,也要去掉Session ID。
技术上倒不是搜索引擎不能读取这种URL,但是为了避免陷入无限循环,搜索引擎蜘蛛通常要远离这类URL。
还有如果你的网站是一个整个的flash,那也没办法读取。
虽然搜索引擎在努力想读取flash信息,但目前为止收效甚微。
还有框架结构(frame),在网站刚出现的时候,框架结构风行一时,现在还有不少网站在用,这是搜索引擎蜘蛛的大敌。
还有尽量去除不必要的搜索引擎不能读的东西,像音频文件,图片,弹出窗口等。
搜索引擎蜘蛛抓取网页之后,怎样提炼有用信息?网页的HTML码必须很优化,也就是格式标签占的越少越好,真正内容占的越多越好,整个文件越小越好。
把CSS,JavaScript等放在外部文件。
把关键词放在应该出现的地方。
检查网页对不同操作系统,不同browser的兼容性。
检查是否符合W3C标准。
只有搜索引擎能顺利找到你的所有网页,抓取这些网页并取出其中真正的有相关性的内容,这个网站才可以被视为是搜索引擎友好的。
7.1.5 搜索引擎优化要素2181、网站内部优化网站内部优化的工作包括所有的网站上可以控制因素,比如网站大小,网站结构,内部导航,标题标签,关键词标签,文件大小,URL静态化,目录和文件的命名,关键词的网页出现位置,关键词是否出现在H1,是否有黑体斜体,文案写作,词干技术,内部链接及连接文字,图片ALT属性,代码精炼等。
2、网站外部优化网站外部优化主要指的是外部链接的情况,比如外部链接数目和质量,来自哪些域名,链接页面和网站的内容相关性,链接文字是否有关键词,链接文字的多样性,链接存在的时间长短,链接本身及链接文字随时间的变化,交叉链接和交换链接的比例等。
3、域名及信任度与域名和整个网站的信任度有关的因素,比如:域名年龄,域名注册时间域名所有人和历史记录的变化域名和网站与哪些其他网站的关联系由很多未知因素所组成的域名信任度4、用户行为模式衡量用户是否喜欢你的网站,主要因素如下:网页在搜索结果中的点击率用户浏览网站的页数时间是否加入书签是否有其他社会性搜索的标签,网摘和书签用户是否多次返回网站搜索引擎编辑人工调整等7.1.6 网站设计与SEO 218绝大部分seo客户第一次找我时都会说,我的域名是什么什么,可不可以帮我们看一下为什么在搜索引擎里都找不到我们的网站?如果你帮我们优化需要多少时间?费用大概多少?我想其他做seo的人遇见的客户大概都是这个样子。
非常遗憾的是对这些客户我首先要说的是不用看你的网站,我就知道你已经犯了一个很大的错误。
那就是你们怎么这个时候才来想起我们做网站优化呢?你们应该在设计网站之前就找seo人员的。
这是一件很无奈的事情,99%的人都在网站运行了一段时间后发现流量一直上不来才想起是不是需要进行下网站推广,才考虑seo或者其他网站推广手段。
很少有人在设计网站之前就把搜索引擎优化以及网络营销作为整个网站规划的有机组成部分。
如果网站能在设计之前,内容还没开始写作的时候就找seo专业人员或专业seo 公司参与,那么整个seo花费的时间,精力,金钱都能节省很多,效率也更高。
大家常见的商城都是用很多现成的开源系统搭建的,可惜的是大多的商城都没有考虑到搜索引擎友好的问题,网址里夹着着大量的问号,参数,session,虽然搜索引擎抓取能力的不断提高,对这类url也可以抓取不少,但毕竟效果不如静态的url好,如果网站权重低的话,很可能这些产品网页都不能被收录。
如果在网站筹划阶段就有seo人员参与的话,这个问题并不难解决,每个seo人员都肯定会提醒设计和编程人员注意这一点。
如果网站已经建好再来优化。
可能要重写或修改程序,而且可能造成复制网页。
如果您网站建设已经做好了,因为网站优化需要重新设计,我们需要从seo的角度来注意几个地方:1、不是不得已就不要重新设计英文有句话:if it's not broken, don't fix it .网站重新设计也是如此,如果你的网站没有严重的错误。