当前位置:文档之家› 第四章搜索引擎优化精品PPT课件

第四章搜索引擎优化精品PPT课件


4.1.2 信息检索技术
❖ 信息检索过程始于用户输入一个查询字符串,该字 符串是信息需求的形式化表示。在信息检索中,一 个查询字符串可以识别出数据库中多个文档,这些 文档的相关性可能不同。
三种经典信息检索(IR)模型 :
布尔模型 统计模型 适量空间模型
❖ 布尔模型:文档被表示成关键词集合,查询被表示 关键词的成布尔表达式(And, Or, Not),其输出是 文档的相关与否,而没有匹配或排名。
❖ 算法要分析的另外一个要素是页面与其它页 面的的链接方式。通过分析页面如何相互链 接,搜索引擎就能决定页面的主题(假如被 链接页面的关键词相似于原页面的关键词) 和页面是否被认为是重要的 。
❖ 基于链接分析的算法,提供了一种衡量网页 质量的方法:独立于语言、独立于内容。
1 PageRank算法
❖ 统计模型:把文档表示成关键词集合(无序),被取 样的单词相互独立,根据词频对文档进行排序。
❖ 矢量空间模型:每个文档被表示成高维空间中的一 个矢量,查询也被表示成一个矢量,比较查询和文 档集合,找出最接近的文档组。大多数查询系统计 算数据库中文档匹配查询字符串的程度,并按排名 依次显示。计算方法有统计法、信息论法和概率法 等,这些方法大都基于矢量空间模型
“爬取”策略
❖ 将Web看作是一个有向图,搜集过程从给定 的起始url集合S开始,沿着网页中的链接, 按照一定的策略(先深/先宽/others)遍历。
❖ 这个过程象蜘蛛(spider)在蜘蛛网(Web) 上爬行(crawl)
维护URL
❖ 系统进行第一次全面的网页搜集之后,维护 相应的URL集合,以后的搜索基于此集合。
-主流搜索引擎
4.1.1 搜索引擎的工作原理
❖ 搜索引擎有两个重要组成部分,即离线部分 和在线部分。离线部分由搜索引擎定期执行, 包括下载网站的页面集合,并经处理把这些 页面转换成可搜索的索引。在线部分在用户 查询时被执行,根据与用户需求的相关性, 利用索引去选择候选文档并排序显示。
搜索引擎原理
❖ 将上述两种方法结合 起来
预处理部分
❖ 读取网页 ❖ 英文按照空格切开 ❖ 中文按照正/逆向最大匹配的方法切词 ❖ 将词编入索引文件
3 查询服务
❖ 搜索引擎为用户提供查询界面,以便用户通 过浏览器提交待查询的词语或短语。
❖ 当用户输入关键词后,搜索系统程序从索引 数据库中找到符合该关键词的所有相关网页, 并根据网页针对该关键词的相关性排序,相 关性越高,排名越靠前。
链接分析
❖ 链接是分析网页重要的信息 ❖ 1.链接描述文字准确的反映了网页的内容 ❖ 2.网页之间的链接关系,反映了网页的重要
程度(PageRank Google)
网页重要程度计算
❖ PageRank(Google) ❖ 指向一个网页的链接越多,说明这个
网页越重要。 ❖ 把整个web结构看作一个矩阵。N个网
页就形成一个n×n的矩阵。
关键词提取
❖ 建立倒排索引 ❖ 英文的分词 ❖ 中文的分词
Word
DocID
DocID
中文分词技术
❖ 中文分词是中文搜索引擎的核心 ❖ 中文分词技术
基于字符串匹配的分词方法 基于统计的分词方法
基于字符串匹配的分词算法
❖ 正向减字最大匹配法 (MM)
❖ 逆向减字最大匹配法 (RMM)
4.1.3 搜索引擎排名算法分类
在各种搜索引擎上进行同样搜索时会产生不同 的结果。究其原因,首先,检索依赖于网络蜘蛛能 找到的信息。其次,并非搜索引擎都使用相同的排 名算法。
排名算法趋势:
1. Yahoo!为代表的第一代文本搜索算法;雅虎的人 工分类方式,网站目录搜索
2. 第二代以PageRank和HITS为代表的基于链接分析 的搜索算法;
❖ PageRank的原理类似于科技论文中的引用机制: 谁的论文被引用次数多,谁就是权威。
❖ 搜索引擎的原理基于三段式工作流程,即搜 集,预处理,提供服务。
❖ 搜索引擎的工作原理包括搜索引擎收录页面、 建立索引和向用户提供查询服务等。
搜索引擎原理
-三段式工作流程
❖ 网页搜集: ❖ 预处理: ❖ 提供服务:
1网页搜集
❖ 网页数据库的基本策略:
❖ 1)定期搜集:
❖ 2)增量搜集: ❖ 网页的抓取策略:
web搜索引擎优化 技术
4.1 搜索引擎
❖ 搜索引擎为用户提供信息检索服务,作为辅 助人们检索信息的工具,是在Web上发现信 息的关键技术,是用户访问万维网的最佳入 口。
❖ 搜索引擎借助于自动搜索网页的软件,在网 络上通过各种链接获得大页面文档的信息, 并按照一定算法与规则进行归类整理,形成 文档索引数据库,以备用户查询。
3. 第二代半基于网站的访问量。
4. 第三代应该具有智能化、个性化和社区化等特征。
4.1.4 Google的几种排名算法
❖ 首先,使用IR(Information Retrieve)算法找 到所有与查询关键字相匹配的网页;
❖ 其次,根据页面因素(标题、关键字密度等) 进行排名;
❖ 最后,通过PageRank得分调整排名结果。
❖ 1)“爬取”策略: ❖ 2)维护URL:
定期搜索
❖ 定期搜索,隔一段时间后对整个网页重新搜 集一遍,替换以前的内容。
❖ 优点:实现起来较简单 ❖ 缺点:开销较大,两次搜集的时间间隔不会
很短,“时新性(freshness)”不高
增量搜索
❖ 开始时搜集一遍,然后: ❖ 1.搜集新出现的网页 ❖ 2.搜集更新了的网页 ❖ 3.发现有网页已经不存在,则从库中删除
存储网页
❖ 搜集到的网页将存储到知识库(repository) 中。
❖ 知识库包含每个网页的docID,长,所以,网页在存入知 识库时要进行压缩处理。
2预处理
预处理旨在为收集到的Web文档建立逻辑视图。
❖ 链接分析 ❖ 网页重要程度计算 ❖ 关键词提取
❖ PageRank在Google中的应用获得了巨大的商业成 功。
❖ PageRank算法是与查询无关的、针对Web页面排 序的、最早应用链接分析技术的搜索引擎算法。
❖ PageRank算法通过网络中链接关系确定页面的等 级和相关性,试图为可以搜索的所有网页赋予量化 值,其值由指向该网页的所有网页的值决定。
相关主题