当前位置：文档之家› 搜索引擎的工作原理

搜索引擎的工作原理

页面收录页面分析页面排序关键字查询
页面收录就是指搜索引擎通过蜘蛛程序在互联网上抓取页面并进行存储的过程，为搜索引擎开展各项工作提供了数据。
① 对原始页面建立索引，实现对页面的快速定位；
② 提取页面的正文信息，并对正文信息进行切词以及为这此词建立索引，从而得到页面与关键字的之间对应关oo!+Slurp+China Sogou+web+spider MSNBOT

1. 允许所有的robots访问
种子URL
页面1 页面2
页面3 …
…
页面N …
结束链接
爬虫在检索网页时到底在做什么？
爬虫给网站所在的Web服务器发送请求爬虫是完全以文本的形式查看网页图片或其他类型的媒体文件是不显示的只有文本以及HTML代码被爬虫看到
正在建设的网页网页内容全是链接网页内容过时私人信息
增量抓取
通过对已抓取的页面进行定时监控，实现对页面的更新及维护，搜索引擎只需对重要页面进行定时监控，使页面的更新周期缩短。
大大缩减搜索引擎的抓取时间；可以及时发现新内容，新链接；可以及时删除不存在的信息。
分类定位抓取
是指根据页面的类别或性质而制定相应更新周期的页面监控方式。例如，对“新闻资讯”页面更新周期可以精确到每分钟，而“资源下载”页面的更新周期可以定为一天或更长。
广度优先
广度优先是一种横向的页面抓取方式，从最浅层开始抓取页面，直至抓取完同一层次上的所有页面后才能进入下一层。
提示：在对网站进行优化时，把网站中相对重要的信息展示在层次较浅的页面上。
首页
页面1-1
页面集合A
页面1-2
页面1-3
页面2-1
页面集合B
页面2-2
页面2-3
广度优先分析
深度优先
2. 在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取，这样可以增加网站的收录率。
3. 搜索蜘蛛抓取网页太浪费服务器资源，所以要在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。
并不是每个网站管理员都有Web服务器的操作权限，但很多管理员都需要控制爬虫在网站上的行为。在没有Web服务器的操作权限的情况下，就不能使用robots.txt 文件，取而代之的是通过网页中的robots 元标签来控制爬虫对网页Disallow: .jpg$ Disallow: .jpeg$ Disallow: .png$品名称
无线搜索
对应的User-agentspider-mobile网站中存在多种性质的页面，维护也是结合多种方式。
首页、内容页实时性高的论坛页防止遗漏某些页面
页面的存储
搜索引擎在抓取页面时，除了存储原始页面外，还会附加一系列的信息（如文件类型、文件大小、最后修改时间、URL、IP地址、抓取时间等），再把这些信息作为开展某项工作的依据。
如开头址(即禁止访问网站中所有的动态页*
robots元标签与robots.txt文件的区别。
robots元标签不能控制单个爬虫的行为，要么都允许，要么都禁止。
全文搜索引擎目录搜索引擎元搜索引擎
目录搜索引擎
搜索引擎优化的主要任务之一就是提高网站的搜索引擎友好性，因此，搜索引擎优化的每个环节都会与搜索引擎工作流程存在必然的联系，研究搜索引擎优化实际上就是对搜索引擎工作过程进行逆向推理。因此，学习搜索引擎优化应该从了解搜索引擎的工作原理开始。
URL 域名
页面的入口网站的入口
搜索引擎要在互联网上抓取到页面的首要任务就是建立一个足够大的域名列表，再通过域名进入相应的网站，从而抓取这个网站中的页面。
存储原始页面
URL列表抓取页面提取URL 内部URL
未访问
域名URL
未访问
页面收录原理
页面收录方式
广度优先深spider-news搜藏
spider-favo联盟
spider-cpro网页以及其频的spider-video 抓取网页
③ 对所有关键字进行重组，并建立关键字与网页间对应关系的反向索引列表，从而实现在根据关键字快速定位至相应的网页。
搜索引擎结合页面的内外因素计算出页面与某个关键字的相关程度，从而得到与该关键字相关的页面排序列表。
搜索引擎接收来自用户的查询请求，并对查询信息进行切词及匹配后，再带http
Google： site:+网址，网址不需要带http
/intl/zh-CN/add_url.html
搜索引擎有自己的域名列表，搜索引擎的“蜘蛛”程序通过URL列表出发，通过URL抓取并存储原始页面。
什么是“蜘蛛”程序？
“蜘蛛”也叫“机器人”或“爬虫”，就是一个软件，搜索引擎利用“蜘蛛” 程序不断地在互联网上巡逻，它根据网页中的链接在各个网页间穿梭，收集网站的内容（如文字和链接），将其保存到数据库中，搜索引擎根据相关算法对网页进行排名。
页面1-1
页面1-2
页面1-3
B-1链接
页面2-1
页面2-2
页面2-3
用户提交
网站管理员只需要把网站页面的URL 地址按照指定的格式制作成文件，提交给搜索引擎，搜索引擎就可以通过该文件对网站中的页面进行抓取及更新。
用户提交方式的优点：
（1）提高了搜索引擎抓取页面的效率及质量；（2）对于网站本身来说，也大大提高了网站页面被收录的数量。
为了提高抓取页面的效率及质量，搜索引擎应结合多种方式去抓取页面。例如，先使用广度优先的方式，把抓取范围铺得尽可能宽，获取到尽可能多的重要页面；再使用深度优先的方式，抓取更多隐蔽的页面；最后结合用户提交的信息，抓取那些被遗漏的页面。
页面维护方式
定期抓取增量抓取分类定位抓取
定期抓取
怎样才能阻止“爬虫”爬行页面呢？
robots.txt
robots.txt文件
当一个搜索引擎robot访问一个站点时，它首先爬行检查该网站根目录下是否存在robots.txt文件。
如果存在，搜索引擎robot就会按照该文件中的内容来确定访问范围；
如果不存在，那么搜索引擎robot就沿着链接抓取。
搜索引擎周期性地对网站中已经收录的页面进行全面更新。把抓取到的新页面替换原有的旧页面，删除不存在的页面，并存储新发现的页面。
周期性更新针对的是全部已经收录的页面，因此更新周期会比较长。例如，Google一般30—60天才能对已经收录的页面进行更新。因此这种方式适合维护页面较少，内容更新缓慢的网站。
<html>
<head>
<meta name=“robots” content=“noindex,nofollow”>
<title>web title</title>
</head> </html>
不允许robot索引本网页的内容
不允许robot跟踪网页的链接
<meta name=“robots” content=“index, follow”> 允许索引和跟踪其中的链接
深度优先是一种纵向的页面抓取方式，首先跟踪最浅层页面中的某一个链接，从而逐步抓取深层页面，直至抓取完最深层次的页面后才返回浅层页面，再跟踪其另一个链接，继续向深层页面抓取。
通过深度优先的抓取方式，搜索引擎可以抓取到网站中较为隐蔽、冷门的页面，这样才能满足更多用户的需求。
A-1链接
首页User-agent: spider-video Disallow: /
谷歌robots.tx/www.baiHale Waihona Puke /robots.txt
1. 网站上的所有文件都需要蜘蛛抓取，就没必要添加robots.txt文件了。反正如果该文件不存在，所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。
User-agent: *
Disallow:
2. 禁止所有搜索引擎访问网站的几个部分
User-agent: *
Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /privat/
3. 禁止某个搜索引擎的访问User-agent: spider Disallow: /
robots.txt文件必须放置在站点的根目录下； robots.txt文件名必须全部小写。
robots.txt文件内容的基本形式
指明哪个用户代理即爬虫， “*”表示所有爬虫。
User-agent:*
Disallow:/
告诉爬虫哪些网页不能访问，“/”表示所有目录。
该文件内容的意思就是：任何爬g$10. 仅允许spider抓取网页和.gif格式图片
方法一：利用搜索引擎提供的网站登录入口；方法url_submit.html
雅虎的网站登录地址：
/h4_4.html
Google的网站登录地址：
SEO 搜索引擎优化技术
SEO是一种思想！最实用SEO策略指导。技术操作也没那么难。
搜索引擎的工作原理
1. 机器人、蜘蛛、爬虫 2. robots.txt文件 3. 搜索引擎的分类 4. 搜索引擎的工作原理
网站发布到网上，就会在搜索引擎中搜索到吗？
被搜索引擎收录的首要条件是加入搜索的域名列表。
URL列表
抓取页面存取
提取URL
原始页面
页面收录流程
在互联网中，URL是每个页面的入口地址，搜索引擎蜘蛛程序就是通过 URL抓取到页面的。搜索引擎蜘蛛程序从URL列表出发，通过URL抓取并存储原始页面;同时，提取原始页面中的URL 资源并加入到URL列表中。如此不断地循环，就可以从互联网中获取到足够多的页面。

e商务文档

搜索引擎的工作原理

相关文档推荐：