当前位置:文档之家› 搜索引擎的原理

搜索引擎的原理


Spider眼中的网页分类
1
已经抓取页面
等待抓取页面
可以抓取页面
暗网页面
Spider的抓取特点
• Spider对于常规网页的抓取,是从一个入口开始抓取的时候,就会获 取这个网页上的所有导出链接,因此当Spider随机抓取其中的一个链接的时 候,同样又会收集到很多新的链接。此时Spider面临一个抓取方式的选择。 • 1、沿着一条链接一层一层的抓取下去,直到这个链接的尽头,然后返回按 照这样的办法继续抓取另一个链接。这就叫深度优化抓取。 • 2、先把入口处的链接全部抓取一遍,把新发现的URL一次入库排列,对同 一层级的页面进行一次横向抓取,然后再进入下一层,这叫做广度优先抓取。
页面。
• 再好的搜索引擎也无法与人相比,这就是为什么网站要进行搜索引擎优化。没有SEO的 帮助,搜索引擎常常并不能正确的返回最相关、最权威、最有用的信息。
搜索引擎抓取详解
Spider
• 他是搜索引擎最开始的一个功能模块,同时,只有它抓取回来的页面或者地 址才可以被索引并参与进排名里面。只要被Spider抓取的URL地址都可能会 参与排名,但是参与排名的网页不一定被抓取了内容。例如现在的天猫商城, 只会被抓去地址,但是正文内容不会抓取。(他是搜索引擎用来抓取网站页 面的一个程序。他抓取页面需要有一个入口,这个入口一般先期可以由我们 人工提交。例如搜索引擎提交我们的网站。)
Spider抓取
• 1、尽可能多的抓取页面 • 2、避免重复的页面抓取 • 因此在实际的抓取过程中, Spider会建立两个列表组,一个是已经抓取的 URL列表,一个是等待抓取的URL列表。每抓取一个新页面的时候,提取出 来的页面链接,都会去和已经抓取的URL列表中的链接去一一比对,如果发 现该链接已经抓取过,就会直接丢弃,如果发现该链接还没有抓取,就会把 它放在等待抓取的列表末尾排队等候。
深度抓取和广度抓取
理论上,Spider不管采用深度还是广度优先策略,只要时间足够,都可以把 互联网上的内容统统抓取一遍,但是很不幸,搜索引擎的Spider时间也非常 宝贵,单一方法的抓取时很奢侈的,所以一般搜索引擎都是采用两种方式相 结合的方式进行的。这就涉及到一个有限选择的问题。一般情况下, Spider 可以在域名级别的网页使用广度的优先抓取策略,这样可以尽可能抓取更多 的网站。在网站内部页面级别一般会根据网站权重综合使用广度和深度优先 抓取,也就是说网站权重,直接影响到抓取量的大小。刚上线的网站一般被 抓去只有一个首页。从抓取的特点上可以看出,对于重要网站优先抓取,重 要的网站和网站内的重要页面是优先抓取的。大站链接也是优先抓取的。
1、何为用户体验
• 因为用户一般浏览自己搜索内容的前三页结果,第四页以后都会很少浏览, 所以搜素引擎会收集所有用户的搜索请求,统计所有搜索结果中,用户可能
看多,
再次被抓取的频率就会越高。
历史更新频率
• 网站页面的主体内容部分稳定的更新频率,也会带来搜索的稳定关注。但是 更新的区域主要是内容区域,不是周围的广告和导航和推荐模块。
网页权重值
• 除了上述的因素,网页权重也会影响到网页的再次抓取的频率。 • 因此在SEO工作中,有时候为了提高某一网站的抓取频率,一般会重点为该 页面的链接提高权重,加大该网页的更新频率。在用户体验方面我们可以用 标题和描述吸引点击,不仅可以提升排名,也可以间接增加页面被Spider抓 取的频率。
• •
搜索词处理 用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即 对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要 启动整合搜索,判断是否有拼写错误或错别字等情况。搜索词的处理必须 十分快速。


排序
对搜索词处理后,搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网 页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜索”
Spider的抓取及分类
• Spider想要抓取到网页,首先要解决时发现网页的入口,没有入口他就无法 进入网站,更是无从抓取网页了。因此这里就涉及到抓取的策略性问题,这 个也是我们后续SEO要解决的第一步。 • 那么抓取的策略是什么呢? • 其次是 ,网页内容是有时效性的,有一些网页内容不存在实时的更新,依 然有着重要的意义,有一些需呀实时更新,那么对于这些信息, Spider采 用什么样的再次抓取和更新策略呢? • 作为大型的搜索引擎, Spider不可能只有一个,为了节省资源,保证效率, 要保证多个Spider同时作业而且工作不重复,这样就会有多个Spider分区域 同时作业,这样分布式抓取策略又是什么样的呢?
Spider的优缺点
• 1, Spider不能很好的读取JS、Ajax和flash中的内容。 • 2, Spider是直接访问网站的。 • 3, Spider不会主动注册登录,不会分析和抓取robots中已经屏蔽的内容。 • 4, Spider对于多个动态参数的网站抓取,可能会陷入死循环。 • 5, Spider对于列表中前几页的新内容抓取可能不好。 • 6, Spider暂时还不能判断文章是不是原创的。
Spider的再次抓取更新策略
• Spider抓取一次网页,被分析索引并且参与排名后,并不是就不会被重新访 问了,因为搜索引擎抓取的信息存储在自己的服务器上,就需要和所访问的 网站保持信息的更新同步,因此Spider会根据一定策略对已抓取网页进行再 次访问。因为资源有限, Spider只会有针对性的访问网站。一般来说:用 户体验,历史更新频率,网页类型和网页权重,直接影响了再次访问抓取的 频率。
中文分词
• 分词是中文才有的技术,因为中文单一的字是没办法表达一个完整的意思的。 计算机没办法词把中文分为单个字来理解,所以需要引入分词技术。例如: 我是一个学生,就会被切分为:我|是|一个|学生。 • 1,基于词典匹配 • 2,基于统计
索引
• 搜索引擎使用的是倒排索引,就是以关键词为核心,进行内容匹配。 • 倒排索引中不仅仅记录了相应关键词文件的ID,还会记录关键词频率,每个 关键词对应的文件频率,以及关键词出现在文件中的位置等信息。这些信息 会在排名过程中分别进行加权处理,应用到最终的排名中去。
等待搜索。所以跟踪网页链接是搜索引擎蜘蛛(Spider)发现新网址的最基本的方法,所
以反向链接成为搜索引擎优化的最基本因素之一。搜索引擎抓取的页面文件与用户浏览器
得到的完全一样,抓取的文件存入数据库。
建立索引 蜘蛛抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,这个过程即是 索引(index).在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、 加粗、斜体等相关信息都有相应记录。
Spider的分类
• 批量型: • 特点:具有明显的抓取范围和目标,时间设定,抓取数量有限,或者当达到目标就 会停止,这样的例子一般是我们的站长和优化人员使用的采集工具中的采集程序。 • 增量型: • 可以成为搜索引擎的网站或者程序,他们使用的都是增量型,他们的特点是没有固 定目标、范围和时间限制,会无休止的抓取,直到把所有的网站数据抓取为止,他 们一般不仅仅抓取尽可能全面的页面,同时还要对已经抓取的页面再次抓取直型: • 特点:只对特定的内容或者行业进行抓取,他具有增量型的部分特点,但是对于抓直型的。
爬行和抓取 搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为蜘蛛 (Spider)。搜索引擎从已知的数据库出发,就像正常用户的浏览器一样访问这些网页并 抓取文件。搜索引擎通过这些爬虫去爬互联网上的外链,从这个网站爬到另一个网站,去 跟踪网页中的链接,访问更多的网页,这个过程就叫爬行。这些新的网址会被存入数据库
搜索引擎的内容处理、中文分词和索引
内容处理
• 1,判断页面类型,是普通网页还是各种格式的文件。 • 2,提取网页的文本信息。搜索引擎对于网页的索引还是以文本为主,还会 提取下网页的Title、Kewords、Description. • 3,去除页面噪音,去除广告、导航、链接、图片、登陆框、网站版权信息等 内容。只提取该网页的主体内容。甚至与页面不相干的链接文本也会被保留 索引。 • 4、去除内容中的停止词,对正文内容的处理,搜索引擎去除诸如:得、的、 啊、地、呀、却之类的停止词。 • 经过这些处理之后,抓取的内容就比较干净了,这样搜索引擎就会对有价值 的内容进行排序了。
重要页面和大站的优先抓取详解
• 1、如何界定页面的重要性,除了受到自己的主站质量和权重之外,就要看 看导入链接的数量和质量了。如果界定为重要页面,一般的抓取策略就会随 之改变,等待抓取的排序依据就会是:页面获得已抓取页面链接的多少和链 接权重的高低。总归 就是数量和质量。 • 2、大站一般是有稳定服务器,良好网站结构,优秀的用户体验,及时的咨 询内容,权威的相关资料,丰富的内容类别和庞大的网页数量等特征。一般 这样站点信息会被搜索引擎重点关注和抓取收录。
网页类型
• 一个网站有不同的网页类型,有着不同的更新频率, Spider的关注和抓取 的频率也会有所不同。同一个站点内:分为:首页、栏目页、专题页和内容 页,一般情况下,首页和栏目页都是Spider经常关顾的页面。根据专题页面 的时效性和特点, Spider可能会在一段时间内进行频繁抓取,时效性过后 就会降低频率,内容页可能在第一次抓取之后就基本不会再来
Spider的抓取认识
• Spider不会爬,不是根据链接爬到另一个网页来进行抓取的。他是首先抓取 一个网页,提取出来所有URL,同时记录和计算URL形式,他的位置,锚文 本,当前页面的所赋予的权重等信息,然后将这些地址合并抓取到列表中, 并且根据每个URL的值来进行抓取排序,spider就是不断根据这个url排序的 变化来抓取内容页面的。 • Spider的访问时单次访问,每次访问一个页面就会把页面信息抓取回来,不 是说一个小蜘蛛,到网站沿着链接爬行大量页面之后再返回。
搜索引擎的原理简述
搜索引擎的服务步骤
相关主题