搜索引擎的工作原理
页面收录 页面分析 页面排序 关键字查询
页面收录就是指搜索引擎通过蜘蛛程序 在互联网上抓取页面并进行存储的过程,为 搜索引擎开展各项工作提供了数据。
① 对原始页面建立索引,实现对页面的快速定位;
② 提取页面的正文信息,并对正文信息进行切词以 及为这此词建立索引,从而得到页面与关键字的 之间对应关oo!+Slurp+China Sogou+web+spider MSNBOT
1. 允许所有的robots访问
种子URL
页面1 页面2
页面3 …
…
页面N …
结束链接
爬虫在检索网页时到底在做什么?
爬虫给网站所在的Web服务器发送请求 爬虫是完全以文本的形式查看网页 图片或其他类型的媒体文件是不显示的 只有文本以及HTML代码被爬虫看到
正在建设的网页 网页内容全是链接 网页内容过时 私人信息
增量抓取
通过对已抓取的页面进行定时监 控,实现对页面的更新及维护,搜索 引擎只需对重要页面进行定时监控, 使页面的更新周期缩短。
大大缩减搜索引擎的抓取时间; 可以及时发现新内容,新链接; 可以及时删除不存在的信息。
分类定位抓取
是指根据页面的类别或性质而制 定相应更新周期的页面监控方式。例 如,对“新闻资讯”页面更新周期可 以精确到每分钟,而“资源下载”页 面的更新周期可以定为一天或更长。
广度优先
广度优先是一种横向的页面抓取方式, 从最浅层开始抓取页面,直至抓取完同一 层次上的所有页面后才能进入下一层。
提示:在对网站进行优化时,把网站中相对 重要的信息展示在层次较浅的页面上。
首页
页面1-1
页面集合A
页面1-2
页面1-3
页面2-1
页面集合B
页面2-2
页面2-3
广度优先分析
深度优先
2. 在robots.txt文件中设置所有 的文件都可以被搜索蜘蛛抓取,这样可 以增加网站的收录率。
3. 搜索蜘蛛抓取网页太浪费服务器资 源,所以要在robots.txt文件设置所有的 搜索蜘蛛都不能抓取全部的网页。
并不是每个网站管理员都有Web服务器 的操作权限,但很多管理员都需要控制爬 虫在网站上的行为。在没有Web服务器的操 作权限的情况下,就不能使用robots.txt 文件,取而代之的是通过网页中的robots 元标签来控制爬虫对网页Disallow: .jpg$ Disallow: .jpeg$ Disallow: .png$品名称
无线搜索
对应的User-agentspider-mobile网站中存在多种性质的页面, 维护也是结合多种方式。
首页、内容页 实时性高的论坛页 防止遗漏某些页面
页面的存储
搜索引擎在抓取页面时,除了存储原始 页面外,还会附加一系列的信息(如文件类 型、文件大小、最后修改时间、URL、IP地址、 抓取时间等),再把这些信息作为开展某项 工作的依据。
如 开头址(即禁止访问网站中所有的动态页*
robots元标签与robots.txt文件的区别。
robots元标签不能控制单个爬虫的行为, 要么都允许,要么都禁止。
全文搜索引擎 目录搜索引擎 元搜索引擎
目录搜索引擎
搜索引擎优化的主要任务之一就是 提高网站的搜索引擎友好性,因此,搜 索引擎优化的每个环节都会与搜索引擎 工作流程存在必然的联系,研究搜索引 擎优化实际上就是对搜索引擎工作过程 进行逆向推理。因此,学习搜索引擎优 化应该从了解搜索引擎的工作原理开始。
URL 域名
页面的入口 网站的入口
搜索引擎要在互联网上抓取到页面的首要任务 就是建立一个足够大的域名列表,再通过域名进入 相应的网站,从而抓取这个网站中的页面。
存储原始页面
URL列表 抓取页面 提取URL 内部URL
未访问
域名URL
未访问
页面收录原理
页面收录方式
广度优先 深spider-news搜藏
spider-favo联盟
spider-cpro网页以及其频的spider-video 抓取网页
③ 对所有关键字进行重组,并建立关键字与网页间 对应关系的反向索引列表,从而实现在根据关键 字快速定位至相应的网页。
搜索引擎结合页面的内外因素计算出页 面与某个关键字的相关程度,从而得到与该 关键字相关的页面排序列表。
搜索引擎接收来自用户的查询请求,并 对查询信息进行切词及匹配后,再带http
Google: site:+网址,网址不需要带http
/intl/zh-CN/add_url.html
搜索引擎有自己的域名列表,搜索引 擎的“蜘蛛”程序通过URL列表出发,通 过URL抓取并存储原始页面。
什么是“蜘蛛”程序?
“蜘蛛”也叫“机器人”或“爬虫”, 就是一个软件,搜索引擎利用“蜘蛛” 程 序不断地在互联网上巡逻,它根据网页中的 链接在各个网页间穿梭,收集网站的内容 (如文字和链接),将其保存到数据库中, 搜索引擎根据相关算法对网页进行排名。
页面1-1
页面1-2
页面1-3
B-1链接
页面2-1
页面2-2
页面2-3
用户提交
网站管理员只需要把网站页面的URL 地址按照指定的格式制作成文件,提交给 搜索引擎,搜索引擎就可以通过该文件对 网站中的页面进行抓取及更新。
用户提交方式的优点:
(1)提高了搜索引擎抓取页面的效率及质量; (2)对于网站本身来说,也大大提高了网站页面 被收录的数量。
为了提高抓取页面的效率及质量,搜 索引擎应结合多种方式去抓取页面。例如, 先使用广度优先的方式,把抓取范围铺得 尽可能宽,获取到尽可能多的重要页面; 再使用深度优先的方式,抓取更多隐蔽的 页面;最后结合用户提交的信息,抓取那 些被遗漏的页面。
页面维护方式
定期抓取 增量抓取 分类定位抓取
定期抓取
怎样才能阻止“爬虫”爬行页面呢?
robots.txt
robots.txt文件
当一个搜索引擎robot访问一个站点 时,它首先爬行检查该网站根目录下是否 存在robots.txt文件。
如果存在,搜索引擎robot就会按照 该文件中的内容来确定访问范围;
如果不存在,那么搜索引擎robot就 沿着链接抓取。
搜索引擎周期性地对网站中已经收 录的页面进行全面更新。把抓取到的新 页面替换原有的旧页面,删除不存在的 页面,并存储新发现的页面。
周期性更新针对的是全部已经收 录的页面,因此更新周期会比较长。 例如,Google一般30—60天才能对已 经收录的页面进行更新。因此这种方 式适合维护页面较少,内容更新缓慢 的网站。
<html>
<head>
<meta name=“robots” content=“noindex,nofollow”>
<title>web title</title>
</head> </html>
不允许robot索引本网页的内容
不允许robot跟踪网页的链接
<meta name=“robots” content=“index, follow”> 允许索引和跟踪其中的链接
深度优先是一种纵向的页面抓取方式, 首先跟踪最浅层页面中的某一个链接,从而 逐步抓取深层页面,直至抓取完最深层次的 页面后才返回浅层页面,再跟踪其另一个链 接,继续向深层页面抓取。
通过深度优先的抓取方式,搜索引擎可 以抓取到网站中较为隐蔽、冷门的页面,这 样才能满足更多用户的需求。
A-1链接
首页User-agent: spider-video Disallow: /
谷歌robots.tx/www.baiHale Waihona Puke /robots.txt
1. 网站上的所有文件都需要蜘蛛抓 取,就没必要添加robots.txt文件了。反 正如果该文件不存在,所有的搜索蜘蛛将 默认能够访问网站上所有没有被口令保护 的页面。
User-agent: *
Disallow:
2. 禁止所有搜索引擎访问网站的几个部分
User-agent: *
Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /privat/
3. 禁止某个搜索引擎的访问User-agent: spider Disallow: /
robots.txt文件必须放置在站点的根目录下; robots.txt文件名必须全部小写。
robots.txt文件内容的基本形式
指明哪个用户代理即爬虫, “*”表示所有爬虫。
User-agent:*
Disallow:/
告诉爬虫哪些网页不能访 问,“/”表示所有目录。
该文件内容的意思就是: 任何爬g$10. 仅允许spider抓取网页和.gif格式图片
方法一:利用搜索引擎提供的网站登录入口; 方法url_submit.html
雅虎的网站登录地址:
/h4_4.html
Google的网站登录地址:
SEO 搜索引擎优化技术
SEO是一种思想! 最实用SEO策略指导。 技术操作也没那么难。
搜索引擎的工作原理
1. 机器人、蜘蛛、爬虫 2. robots.txt文件 3. 搜索引擎的分类 4. 搜索引擎的工作原理
网站发布到网上,就会在搜 索引擎中搜索到吗?
被搜索引擎收录的首要条件 是加入搜索的域名列表。
URL列表
抓取页面 存取
提取URL
原始页面
页面收录流程
在互联网中,URL是每个页面的入 口地址,搜索引擎蜘蛛程序就是通过 URL抓取到页面的。搜索引擎蜘蛛程序 从URL列表出发,通过URL抓取并存储 原始页面;同时,提取原始页面中的URL 资源并加入到URL列表中。如此不断地 循环,就可以从互联网中获取到足够多 的页面。