当前位置:文档之家› 垂直搜索技术精品PPT课件

垂直搜索技术精品PPT课件

自己所需要的信息。
2020/10/12
通用搜索引擎
优点:信息量大、更新及时、无需人工干预。
缺点:查询结果相关度较低,返回信息 过多,死链接较多,信息无序化。
2020/10/12
垂直搜索引擎
定义
垂直搜索引擎(vertical search engine)也 被称为专业搜索引擎,或主题搜索引擎,它 专门收录某一方面、某一行业或某一主题内 的信息,专为查询某一个学科或某一主题的 信息提供检索服务。
2020/10/12
搜索引擎对页面的分析
页面分析首先是对页面(下载到搜索引擎本地的页面-网 页快照)建立索引,以实现对页面的快速定位;然后,提 取页面的正文信息(过滤掉HTML标签),并对正文信息进 行切词以及为这些词(即关键字)建立索引,从而得到页 面与关键字的之间对应关系(一个页面对应多个关键字) ,最后,对所有关键字进行重组,并建立关键字与网页间 对应关系的反向索引列表(一个关键字对应多个网页URL ),从而实现根据关键字快速定位至相应的网页。(包括 :网页索引表、切词后形成的关键字索引表、页面与关键 字的一对多的关系列表、重组关键字与页面的一对多的关 系列表)。
索引数据库的规模 小,有利于缩短查 询响应时间,还可 采用复杂的查询语 法,提高用户的查 询精度。
信息采集量小 ,网络传输量 小,有利于网 络带宽的有效 利用。
2020/10/12
垂直搜索核心技术
主题爬虫
网页信息抽取
倒排索引
2020/10/12
爬虫
爬虫:是一种自动获取网页内容的程序,是搜索引
擎的重要组成部分。
2020/10/12
页面分析处理流程
2020/10/12
页面与关键字关系
2020/10/12
搜索引擎对页面排序
页面排序:
搜索引擎结合页面的内外部因素计算出页面与某 个关键字的相关程度,从而得到与该关键字相关的页 面排序列表。
影响页面排序因素:页面相关性、链接权重、用 户行为等。
2020/10/12
主题爬虫系统结构
2020/10/12
主题爬虫搜索策略
第一代网络爬虫所用的搜索策略主要是基于传统的图 算法,如宽度优先或深度优先算法来索引整个Web。
一个核心的URL集被用来作为一个种子集合,这种算法 递归的跟踪超链接到其它页面,而通常不管页面的内 容,因为最终的目标是这种跟踪能覆盖整个Web。宽度 和深度优先搜索策略通常用在通用搜索引擎中,因为 通用搜索引擎获得的网页越多越好,无特定的要求。 主题爬虫的爬行策略只挑出某一个特定主题的页面。 它依据“最好优先原则”进行访问,能够快速、有效 地获得更多的与主题相关的页面。
垂直搜索简介
2020/10/12
主讲内容
搜索引擎介绍 垂直搜索引擎特点 垂直搜索引擎核心技术
垂直搜所引擎发展方向
2020/10/12
中国网民对各类网络应用的使用率
截至2013年12月,中国网民规模达6.18亿。 中国网民对各类网络应用的使用是什么样的呢?
2020/10/12
搜索引擎简介
搜索引擎是互联网基础服务之一。 帮助我们在浩如烟海的信息海洋中搜寻到
2020/10/12
广度优先抓取流程
2020/10/12
深度优先抓取流程
2020/10/12
主题爬虫URL的处理流程一完个全抓ur取l被之爬后虫就
将url放进完成
URL正在被抓取时放
队列。
进抓取队列,目的是
防止URL被同时多次
抓取。
在抓取过程中 爬虫解析到的URL先保存 出错的url保存 到等待队列中,在等待 到错误队列。 队列中的URL按照特定的 排序法则进行排序,等 候爬虫的抓取。
模块处理;
2020/10/12
由于页面分析模块得 到的超链接可能存在 重复或是无效的情况,
因此,该模块就是对 存放这经些分链析接后进的行过滤; 网页页面的地方。
通用爬虫缺点
通用爬虫并不适合面向领域的垂直搜索 系统,这是因为通用爬虫的目标在于尽可 能多地全网抓取网页,抓取的过程不太关 注网页的主题。而垂直搜索系统需要的并 非是所有的网页,因而垂直搜索系统的爬
2020/10/12
网页信息抽取定义
信息抽取是指把信息源里包含的数据进行结构 化处理,变成规范的组织形式。Web信息抽取则将 Web文档作为信息源,从半结构化的 Web 文档中抽 取数据。
2020/10/12
目前互联网中大部分数据信息是以 HTML(超文本标记 语言)展现的,这种方式的优点是方便显示和适合浏 览器浏览,但是 HTML 的不足之处在于数据和表现 相混杂,缺乏对数据进行描述。为使应用程序或者 用户能更为方便地直接利用 Web中的数据,通过将 HTML 网页中包含的有用的半结构化数据提取出来, 然后以结构化的形式表达出来,例如采用 XML 语言 来描述,这就是 Web 信息抽取。
虫一般采用的是主题爬虫。主题爬虫也叫 专业蜘蛛。
2020/10/12
主题网络爬虫定义
主题网络爬虫就是根据一定的网页分析
算法过滤与主题无关的链接,保留主题相 关的链接并将其放入待抓取的URL队列中, 然后根据一定的搜索策略从队列中选择下 一步要抓取的网页URL,并重复上述过程, 直到达到系统的某一条件时停止。
爬虫按照搜索引擎的不同,又分为通用爬虫和主 题爬虫。并且主题爬虫是在通用爬虫的基础上改造
而来,因此,在分析垂直搜索中的主题爬虫原理技 术之前,先介绍通用爬虫的原理及技术。
2020/10/12
通用爬虫系统根结据人构工设定的 URL种子,启动 爬虫;
作为爬虫与因特网的通信接口, 通过各种主W要eb作协用议就(通是常分是析抓HT取TP下) 来 进行网页的的网抓页取页,面而,下提载取后页的面中的 网页交给超后链续接模U块RL;,继续交给后续
2020/10/12
垂直搜索引擎
优点
➢是搜索引擎领域的行业化分工; ➢专、精、深,具有行业色彩; ➢简单 、直观 、智能。
2020/10/12
2020/10/12
房产类: 搜房网
视频类: 优酷网
常见的垂直 搜索引擎
Байду номын сангаас
旅游类: 去哪儿网
招聘类: 智联招聘
IT信息类: 搜我们
垂直搜索引擎特点
只涉及某一个或 几个领域,词汇 和用语的一词多 义的可能性降低 ,可利用专业词 表进行规范和控 制,从而大大提 高查全率和准确 率。
相关主题