当前位置:文档之家› 搜索引擎专题

搜索引擎专题


(一)Google
• Google是一个搜索引擎,是由两个斯坦福大学 博士生Larry Page与Sergey Brin于1998年9月 发明的。
• Google Inc. 于1999年创立。 • 2000年7月份,Google替代Inktomi成为
Yahoo的搜索引擎 • 2007年9月份,Google成为中国网易公司的搜
• “网页快照”从服务器里直接取出缓存的网页。 用不同颜色标记检索词,很醒目。
(一)Google
• 最好用的图像搜索工具。 • 主页检索框右侧可设定“Preference(使
用偏好)”,将检索界面设为中文
(一)Google
• Google的检索流程
(一)Google
• 2.Google搜索 • 简单检索 • 高级检索
(一)Google
• (1)Google简单检索的基本检索规则 • “与”检索:无需用and或+,用空格代表。 • 白血病 骨髓移植 • 或者检索:OR必须大写。 • mri OR magnetic resonance imaging • 排除检索:用-表示,但减号之前必须留一空格。 • hepatitis prevention -animal • 短语检索:加英文双引号,如“hepatitis
WiseNut全文搜索引擎。 / • — 有其自身特色的目录索引。
二、搜索引擎的种类
• 国外英文全文搜索引擎:
• Google — 以搜索精度高、速度快成为最受欢迎的搜 索引擎,是目前搜索界的领军人物。
• Fast/All The Web — 总部位于挪威的搜索引擎后起之 秀,风头直逼google。/
一、搜索引擎的基本概念
• 搜索引擎既是用于检索的软件又是提供查询、 检索的网站。所以,搜索引擎也可称为Internet 上具有检索功能的网页。
• 搜索引擎也是目前Internet 对信息资源进行组 织的主要方式 。搜索引擎由网上机器人 (Spider 或Robot)自动在网页上按某种策略进 行远程数据的搜索与获取,并生成本地索引 。
• 全文搜索引擎(Full Text Search Engindex/Directory) Yahoo雅虎,搜狐、新浪、网易搜索
• 元搜索引擎(META Search Engine) InfoSpace Dogpile Vivisimo
(一)Google
(一)Google
(一)Google
• 1.Google介绍 Google是由英文单词“googol”变化而来。 “googol”是美国数学家Edward Kasner(爱德 华·卡斯纳)的侄子Milton Sirotta(米尔 顿·西洛塔)创造的一个词,表示1后边带有 100个零的数字,因出现在凯斯纳和詹姆士·纽 曼合著的“数学与想象力”一书中而得到普及。 Google 公司对这个词作了微小改变,借以反映 公司的使命,意在组织网上无边无际的信息资 源,也代表公司想征服网上无穷无尽资料的雄 心。
• 搜索引擎的主要任务:信息搜集;信息处理; 信息查询。
二、搜索引擎的种类
按工作 语种 区分
按搜索 范围 区分
按内容 组织方 式区分
按搜索 资源类 型划分
单 多 万目维 文件 白页 黄页 新闻 元 语种 语种 网录搜式 搜全索文 独搜立索 多搜元索 搜索 搜索 搜索 搜索 索搜引索 引搜擎索 搜引索擎 搜引索擎 引擎 引擎 引擎 引擎 引擎擎 引擎 引擎 引擎
(一)Google
SLearrgreyyPBagrien((拉塞里尔·吉佩·奇布)林,)G,ooGgoloe创gle始创人始之 一 人, 之创 一始,首现席任执 技行 术官 总, 裁现 。任出产生品于总莫裁斯。科密,歇毕根业大 学 于计 马算 里机兰科大学教 帕授 克分Ca校rl,V以ict优or异P成ag绩e博获士得之数子学,与 受 计父算亲机影专响业,理早学在学1士9学79位年,就后开获始得使了用斯计坦算福机大了学, L计a算rry机曾理在学自硕己士6学岁位时,在便该用校他攻的读Le博go士™学积位木期拼间 装 休制学造。出Se了rg他ey的在第2一9岁台获喷国墨家打科印学机基。金La会rr研y以究优员
二、搜索引擎的种类
• 国内全文搜索引擎:• ()— 国内唯一商业化的全文搜索引擎, 提供搜狐、新浪、263、Tom等站点的网页搜索服务。 /
三、主要的万维网搜索引擎介绍
• (一)Google • (二) / • (三)Yahoo • (四)Excite
索引擎。 • 1998年至今,Google已经获30多项业界大奖。
(一)Google
• 通用中英文搜索引擎。 • 由斯坦福大学博士生Larry Page 和 Sergey
Brin于1998年9月发明。 • 2000年7月份,Google替代Inktomi成为
Yahoo!公司的搜索引擎,同年9月份, Google成为网易的搜索引擎,目前全球150多 家公司采用了Google搜索引擎技术。 • 现今的日访问量高达7000万次。 • 98年至今,已经获得30多项业界大奖。
prevention” • 不支持截词 • 对大小写不敏感,所有的字母均当做小写处理 。
(一)Google
• 忽略词:Google 会忽略最常用的词和字符,这些词 和字符称为忽略词。Google 自动忽略“http”, “.com”和“的”等字符以及数字和单字。 使用英文 双引号可将这些忽略词强加于搜索项,例如:输入 “柳堡的故事”时,加上英文双引号会使“的”强加 于搜索项中。另外,在被忽略的字词前输入“+”号, 这样 Google 就不会忽略该字词,如“我+的大学”.
(一)Google
• 拼音汉字转换: Google 运用智能软件系统对 拼音关键词能进行自动中文转换并提供相应提 示(需用简体中文界面)。 例如:搜索“shang wu tong”, Google 能自动提示 “您是不是要 找:商务通”。 如果点击“商务通”, Google 将以“商务通”作为关键词进行搜索。 对于拼音和中文混和关键词, 系统也能做有效 转换。 对于拼音“lü”, “lüe”, “nü” 或 “nüe”,可输入 “lv”, “lve”, “nv” 或 “nve”. 如果拼音中没有空格, 例如 “shangwutong”,Google 也会做相应处理, 但是在多个拼音中加空格能提高转换准确率和 速度。
二、搜索引擎的种类
• 搜索引擎的祖先,是1990年由蒙特利尔大 学学生Alan Emtage发明的Archie。
• 最早现代意义上的搜索引擎出现于1994年 7月:lycos
• 1994年4月:David Filo 和杨致远,目录 索引Yahoo.
• 1998.9 Google
二、搜索引擎的种类
• 搜索引擎的数据检索方式主要是关键字的匹配 方式:如泛匹配、模糊匹配、正则匹配以及多关 键字的处理方式等 。能为用户提供全文索引、 约束性检索、基于布尔关系的查询方式,并对 查询结果根据某种算法和规则评分和排序。
一、搜索引擎的基本概念
• 搜索引擎大多采用自然语言标引和检索 ,没有 受控词表,同义词和近义词得不到控制,词间 的关系得不到揭示。因此,搜索引擎的信息组 织与标引缺乏控制,信息查询的命中率、准确 率、查全率差强人意,往往是输入一个检索式 , 得到一大堆网页地址 ,但其中大部分是冗余信息。
• HotBot — 隶属于Lycos Networks,搜索结果来自其 他搜索引擎及目录索引。
• 国外元搜索引擎(META Search Engine)
InfoSpace Dogpile Vivisimo
二、搜索引擎的种类
• 国内目录式搜索引擎:
• 搜狐(Sohu)— 国内三大门户之一,最早在国内推 出搜索引擎收费登录服务。 / /
• 新浪(Sina)— 最大的中文门户网站,同样也推出了 搜索引擎收费索引项目。/
• 网易(Netease)— 网易搜索是ODP的国内翻版,其 目录由志愿管理员维护,是google的网页搜索用户。 /
• 雅虎 / • lycos中国 / • 法律网站 /lawseek • 北极星
二、搜索引擎的种类
• 国外英文目录式搜索引擎:
• Yahoo — 最著名的目录索引,搜索引擎开山鼻祖之一。 • /ODP — 由义务编辑维护的目录索引。
/ • Ask Jeeves — 著名的自然语言搜索引擎,2002年收
购Teoma全文搜索引擎。 • LookSmart — 点击付费索引目录,2002年收购
• AltaVista — 曾经的搜索引擎巨人,目前仍被认为是 最好的搜索引擎之一。由于种种原因,目前国内用户 无法直接访问AltaVista。
• Overture — 最著名的搜索引擎广告商,竞价排名的 始作俑者,也是全文搜索引擎。
二、搜索引擎的种类
• 国外英文全文搜索引擎(续):
• Lycos — 发源于西班牙的搜索引擎,网络遍布世界各 地。 /
• 词干法 :Google 现在使用“词干法”。也就是说, 在合适的情况下,Google会同时搜索关键词和与关键 词相近的字词。词干法对英文搜索尤其有效。例如: 搜索“dietary needs”, Google会同时搜索“diet needs”和其它该词的变种。用于搜索的您原来用词 的任何变化都将在搜索结果的简述文字中标示出来。
(一)Google
• Google 的拼音汉字转换系统能支持模糊拼音
搜索,具有容错和改正的功能。例如:搜索 “wan luo xing wen”, Google 会提示 “您 是不是要找:万罗兴文 万络行文 网络新闻”, 其中 “网(wang)络新(xin)闻” 是系统参考了 可能会有的拼音错误后自动转换的。 点击其中 任一提示,Google 将以其作为关键词进行oogle的功能与特点
• 80亿个网页,支持多达132种语言,包括简体 中文和繁体中文;
相关主题