当前位置:文档之家› 搜索引擎的应用

搜索引擎的应用


OR
• • • • 或 至少包含一个特定关键词 书写为:or , 空格 例如: 大学 OR 万州
NOT
• 非 • 包含NOT前的关键词,但不包含NOT后的 关键词 • 书写为: - NOT ! • 例如: 大学 -国办
• 总之:不同的搜索引擎使用的语法不尽相 同,它们各自有自己的特点,搜索的语法 也不是各种搜索引擎都适用的。 • 在搜索表达式中,还可以设定一些限定条 件,即“元词”,以加速信息的查找,一 般元词放在关键词的前面。
搜索引擎的实现过程
• 搜索引擎程序周期性地在INTERNET上收 集新的服务器信息,并将其分类存储,这 样在搜索引擎所在的计算机上,就建立了 一个不断更新的“数据库”。 所以说:用户在搜索特定信息时,实际 上是借助搜索引擎在这个数据库中进行查 找。并不是真正地在全世界范围的网络中 查找。
搜索引擎是导航台
• 有#号的都是注释,方便阅读。 User-agent就是搜索引擎的蜘蛛,后面用了*号, 表示对所有的蜘蛛有效。 Disallow就是表示不允许抓取,后面的目录或者 文件,表示禁止抓取的范围。 • 如果你有一些文件,或者目录,比如后台程序, 或者一些私人隐秘的内容,不希望公开的话,就 用这个Disallow来阻止抓取。 • 编辑好这个文件,然后保存在你的网站的根目录 下,那么搜索引擎就会来看的。 • 如果你没有robots.txt文件,在你的网站访问日志 文件里,你会看到蜘蛛访问robots.txt文件不成功 的纪录。
• 搜索引擎是信息海洋中的导航台,它里面 的信息、数据并不是用户最终所需的信息 本体,而只是指引“到哪些网页中去查找 所需要的信息”,也就是说:是相关网页 的(超级)链接。用户通过搜索引擎的查 询结果,知道了信息所处的站点,再通过 链接即可从该网站获得信息的详细资料。
搜索引擎的组成
• 由三个部分组成: 1、信息提取系统; 2、信息审计和分类系统: 3、信息检索(查询)系统
搜索引擎的基本语法与方法
• 搜索引擎是通过搜索关键词来完成自己的 搜索过程,但结果并不是每次都能令人满 意的。 • 掌握搜索语法,并能正确使用它,可以缩 小搜索的范围,提高搜索的速度。 • 基本语法有:AND、OR、NOT
AND
• • • • 与 同时包含多个特定关键词 书写为:and + & 例如: 大学+万州
常用元序,是在搜索引擎服务器 上运行的网页搜索软件,用于自动访问 WWW站点,并提取被访问站点的信息(如 标题、关键词等)。 比如: 网络蜘蛛(SPIDER) 机器人(ROBOTS)
网络蜘蛛(SPIDER)的实现原理
• 即Web Spider,是一个很形象的名字。把互 联网比喻成一个蜘蛛网,那么Spider就是在 网上爬来爬去的蜘蛛。网络蜘蛛是通过网页 的链接地址来寻找网页,从网站某一个页面 (通常是首页)开始,读取网页的内容,找 到在网页中的其它链接地址,然后通过这些 链接地址寻找下一个网页,这样一直循环下 去,直到把这个网站所有的网页都抓取完为 止。如果把整个互联网当成一个网站,那么 网络蜘蛛就可以用这个原理把互联网上所有 的网页都抓取下来。
信息提取系统:蜘蛛(Spider)模拟器
• /search-enginespider-simulator.php • 输入网址进行信息提取 • 有的网址不能提取。原因是:robots.txt文 件 进行了限制。
配置您的robots.txt文件
• 在一个网站里,robots.txt是一个重要的文 件,每个网站都应当有一个设置正确的 robots.txt。 当搜索引擎来抓取你的网站文件之前,它 们会先来看看你网站的robots.txt文件的设 置,以了解你所允许它抓取的范围,包括 哪些文件,哪些目录。 • 那么如何配置您的robots.txt文件呢?
搜索引擎的应用
因特网最大的优点是信息量大,最大的缺 点也是信息量大。要从数以百万计的站点 中找到符合你需要的资源真犹如大海捞针 一样困难。如何快速有效地找到所需要的 信息?搜索引擎将部分解决这样的问题。
搜索引擎的定义
• 是指在WWW中能够主动搜索信息、组织信息并 能提供查询服务的一种信息服务系统。故它一般 由信息提取系统、信息审计和分类系统、信息检 索(查询)系统三部分组成。 • 是某些站点提供的用于网上查询的(服务器端) 程序。它是一类运行特殊程序的、专用于帮助用 户查询INTERNET上的服务器(包括WWW服务 器、FTP服务器、新闻组服务器等等)信息的 WEB站点。
信息审计和分类系统的功能
• 要对所提取的信息进行分类整理。不同一 搜索引擎在搜索结果的数量与质量上是相 差很大的。这里有软件质量问题,也有人 为因素在里面。 • 提到的内容可能不健康、不与标题相符或 者违背国家政策法规等,这就要相关专业 人员来进行审计了。然后进行分门别类, 只有经过审计和分类之后的信息才是提供 给用户最终查询的信息。
信息检索系统的功能
• 主要用于将用户输入的检索词与系统信息 数据库进行匹配,多数情况下还需要根据 内容相关度对检索结果进行排序。 • 为用户提供一个检索的界面,即用户访问 搜索引擎时所看到的WEB页面
搜索引擎的服务方式
• 目录服务方式
• 关键字(词)服务方式 • 混合服务方式
• 让我们看一个例子: • # robots.txt file start • # Exclude Files From All Robots: • User-agent: * Disallow: /security/ Disallow: /admin/ Disallow: /admin.htm • # End robots.txt file
相关主题