当前位置：文档之家› 第四章搜索引擎优化精品PPT课件

第四章搜索引擎优化精品PPT课件

4.1.2 信息检索技术
❖ 信息检索过程始于用户输入一个查询字符串，该字符串是信息需求的形式化表示。在信息检索中，一个查询字符串可以识别出数据库中多个文档，这些文档的相关性可能不同。
三种经典信息检索（IR）模型：
布尔模型统计模型适量空间模型
❖ 布尔模型：文档被表示成关键词集合，查询被表示关键词的成布尔表达式(And, Or, Not)，其输出是文档的相关与否，而没有匹配或排名。
❖ 算法要分析的另外一个要素是页面与其它页面的的链接方式。通过分析页面如何相互链接，搜索引擎就能决定页面的主题（假如被链接页面的关键词相似于原页面的关键词）和页面是否被认为是重要的。
❖ 基于链接分析的算法，提供了一种衡量网页质量的方法：独立于语言、独立于内容。
1 PageRank算法
❖ 统计模型：把文档表示成关键词集合(无序)，被取样的单词相互独立，根据词频对文档进行排序。
❖ 矢量空间模型：每个文档被表示成高维空间中的一个矢量，查询也被表示成一个矢量，比较查询和文档集合，找出最接近的文档组。大多数查询系统计算数据库中文档匹配查询字符串的程度，并按排名依次显示。计算方法有统计法、信息论法和概率法等，这些方法大都基于矢量空间模型
“爬取”策略
❖ 将Web看作是一个有向图，搜集过程从给定的起始url集合S开始，沿着网页中的链接，按照一定的策略（先深/先宽/others）遍历。
❖ 这个过程象蜘蛛（spider）在蜘蛛网（Web）上爬行（crawl）
维护URL
❖ 系统进行第一次全面的网页搜集之后，维护相应的URL集合，以后的搜索基于此集合。
－主流搜索引擎
4.1.1 搜索引擎的工作原理
❖ 搜索引擎有两个重要组成部分，即离线部分和在线部分。离线部分由搜索引擎定期执行，包括下载网站的页面集合，并经处理把这些页面转换成可搜索的索引。在线部分在用户查询时被执行，根据与用户需求的相关性，利用索引去选择候选文档并排序显示。
搜索引擎原理
❖ 将上述两种方法结合起来
预处理部分
❖ 读取网页 ❖ 英文按照空格切开 ❖ 中文按照正/逆向最大匹配的方法切词 ❖ 将词编入索引文件
3 查询服务
❖ 搜索引擎为用户提供查询界面，以便用户通过浏览器提交待查询的词语或短语。
❖ 当用户输入关键词后，搜索系统程序从索引数据库中找到符合该关键词的所有相关网页，并根据网页针对该关键词的相关性排序，相关性越高，排名越靠前。
链接分析
❖ 链接是分析网页重要的信息 ❖ 1.链接描述文字准确的反映了网页的内容 ❖ 2.网页之间的链接关系，反映了网页的重要
程度（PageRank Google）
网页重要程度计算
❖ PageRank（Google） ❖ 指向一个网页的链接越多，说明这个
网页越重要。 ❖ 把整个web结构看作一个矩阵。N个网
页就形成一个n×n的矩阵。
关键词提取
❖ 建立倒排索引 ❖ 英文的分词 ❖ 中文的分词
Word
DocID
DocID
中文分词技术
❖ 中文分词是中文搜索引擎的核心 ❖ 中文分词技术
基于字符串匹配的分词方法基于统计的分词方法
基于字符串匹配的分词算法
❖ 正向减字最大匹配法（MM）
❖ 逆向减字最大匹配法（RMM）
4.1.3 搜索引擎排名算法分类
在各种搜索引擎上进行同样搜索时会产生不同的结果。究其原因，首先，检索依赖于网络蜘蛛能找到的信息。其次，并非搜索引擎都使用相同的排名算法。
排名算法趋势：
1. Yahoo！为代表的第一代文本搜索算法；雅虎的人工分类方式，网站目录搜索
2. 第二代以PageRank和HITS为代表的基于链接分析的搜索算法；
❖ PageRank的原理类似于科技论文中的引用机制：谁的论文被引用次数多，谁就是权威。
❖ 搜索引擎的原理基于三段式工作流程，即搜集，预处理，提供服务。
❖ 搜索引擎的工作原理包括搜索引擎收录页面、建立索引和向用户提供查询服务等。
搜索引擎原理
－三段式工作流程
❖ 网页搜集： ❖ 预处理： ❖ 提供服务：
1网页搜集
❖ 网页数据库的基本策略：
❖ 1）定期搜集：
❖ 2）增量搜集： ❖ 网页的抓取策略：
web搜索引擎优化技术
4.1 搜索引擎
❖ 搜索引擎为用户提供信息检索服务，作为辅助人们检索信息的工具，是在Web上发现信息的关键技术，是用户访问万维网的最佳入口。
❖ 搜索引擎借助于自动搜索网页的软件，在网络上通过各种链接获得大页面文档的信息，并按照一定算法与规则进行归类整理，形成文档索引数据库，以备用户查询。
3. 第二代半基于网站的访问量。
4. 第三代应该具有智能化、个性化和社区化等特征。
4.1.4 Google的几种排名算法
❖ 首先，使用IR(Information Retrieve)算法找到所有与查询关键字相匹配的网页；
❖ 其次，根据页面因素(标题、关键字密度等) 进行排名；
❖ 最后，通过PageRank得分调整排名结果。
❖ 1）“爬取”策略： ❖ 2）维护URL：
定期搜索
❖ 定期搜索，隔一段时间后对整个网页重新搜集一遍，替换以前的内容。
❖ 优点：实现起来较简单 ❖ 缺点：开销较大，两次搜集的时间间隔不会
很短，“时新性（freshness）”不高
增量搜索
❖ 开始时搜集一遍，然后： ❖ 1.搜集新出现的网页 ❖ 2.搜集更新了的网页 ❖ 3.发现有网页已经不存在，则从库中删除
存储网页
❖ 搜集到的网页将存储到知识库（repository）中。
❖ 知识库包含每个网页的docID，长，所以，网页在存入知识库时要进行压缩处理。
2预处理
预处理旨在为收集到的Web文档建立逻辑视图。
❖ 链接分析 ❖ 网页重要程度计算 ❖ 关键词提取
❖ PageRank在Google中的应用获得了巨大的商业成功。
❖ PageRank算法是与查询无关的、针对Web页面排序的、最早应用链接分析技术的搜索引擎算法。
❖ PageRank算法通过网络中链接关系确定页面的等级和相关性，试图为可以搜索的所有网页赋予量化值，其值由指向该网页的所有网页的值决定。

e商务文档

第四章搜索引擎优化精品PPT课件

相关文档推荐：