当前位置:
文档之家› 《搜索引擎发展史》PPT课件
《搜索引擎发展史》PPT课件
7
万维网:world wide web
(WWW)
• Web的诞生
• Tim Berners-Lee
• 1989年,他开发出世界上 第一个Web服务器和Web 客 户 机 。 命 名 为 World Wide Web 。 1991 年 , WWW在internet上露面。
• 引起轰动。使用HTTP协 议传输信息。
• 实现了自动化爬取,但对链接的分析还欠 缺。
9
• 1993年,6个斯坦福毕业生 ,统计分析方法,分析词汇 间关系,搜索效果更好。
• 后来同宽带提供商公司 @Home 合并,Excite@Home 市值达67亿美元。
• 2001 年 公 司 申 请 破 产 , InfoSpace 用 100 亿 美 元 购 买 了这个公司。
12
• 1995年,Looksmart成立,与Yahoo竞争。 增加网页收录的量。
• 2002年,向被收录站点收费。采用点击付 费模式。
– 收费,客户流失。 – 带来大客户:微软的MSN
• 2003年,微软与LookSmart取消合作
– 陷入低谷
13
目录式搜索引擎的不足
• 维护目录耗费时间,耗费人力物力。 • 从商业角度看,不• 1994年,建立了一个Web资源目录,也提供FTP 、Gopher的搜索服务。
• 1994年4月,David 和杨致远,建立了Yahoo!目 录。建立资源目录,雇佣人手工为网页添加描述 信息。
– 对商业网站收费。(299美元)
11
开放的资源目录
• 发布目录和使用目录都是免费的。
• 图书馆员的资源目录
16
ALTAVISTA
• 1994年成立,在当时,几乎带宽无限。支 持自然语言查询,允许用户添加、删除自 己网页的URL,支持被索引网页的查询。 但由于管理不善,后来被Overture收购。
• Yahoo 又 收 购 了 Overture , 就 把 许 多 Altavista的技术引入了Yahoo搜索引擎。
• 1998年,Google搜索引擎诞生了。Sergey谢尔盖 布林曾出售过他们的PageRank技术,但无人问 津。
• 获得了10万美元投资,接着又获得2500美元的风 险投资。1999年AOL选择Google作为合作伙伴, 2000年,Yahoo也选择Google作为合作伙伴,让 Google为他们提供搜索服务。
– 2003,收购Overture
• 技术整合,2004年,不再使用Google的服务。 20
Yahoo放弃独立开发搜索技术
• 2009年,Yahoo放弃了搜索技术方面的努 力。
• 与Bing签署了10年期合约,由Bing为其提 供搜索结果页面和服务。
21
搜索引擎商务模式的找到
• (1)付费收录 • (2)关键词广告(Google Adwords)
二十年搜索引擎发展史
上网搜信息,首选搜索引擎
2
搜索引擎的原理
• 网络蜘蛛程序:爬取网页 • 网页信息抽取,智能分析,建立索引数据库 • 用户输入搜索词,到索引数据库匹配 • 评价相关性,输出结果
3
4
搜索引擎的诞生背景
• 计算机网络的诞生 • 网络规模变大 • 网络资源数量增长 • 人们搜索信息的刚性需求 • 信息搜索技术的不断提高
5
搜索引擎的发展轨迹
• 从美国发端 • 从人工组织到爬虫自动爬取 • 从简单排序算法到智能排序算法 • 从摸索阶段到成熟商业模式 • 从提供信息到智能反馈知识 • 从检索网页到检索多样资源
6
Archie
• 1990年出现了Archie,是archives的缩写版 ,档案的意思。
• 采集FTP文件信息
17
ALLTHEWEB
• 1999年成立,是搜索技术平台。 • 2003年2月,Overture以7000万美元收购。 • 之后,雅虎收购overture,雅虎从中进行了
技术迁移。把alltheweb的技术加入到了 yahoo搜索引擎中。
18
Google
• Larry/Sergey两个斯坦福的博士生,1996年一起 研究搜索引擎。
8
WWW 与 网页爬虫
• Spider / Robot • 1993年六月,Matthew Gray开发了万维网
漫步者的项目,监测万维网的网页增长速 度。形成链接数据库Wandex数据库。 • 1993年,ALIWEB出现了,类似Archie的网 站,索引的不是FTP服务器的文件,而是 Web服务器的网页。
• 后续google推出了更多的搜索功能~
19
Yahoo失利
• Yahoo在1994年成立以来,专注网页资源 目录和内容资源。而将搜索服务外包给其 他公司。
• 2002年后,醒悟 • Overture 收购 2003
– AllTheWeb , AltaVista
• Yahoo收购Inktomi 2002
– 搜索关键词竞价排名
• (3)网页广告(Google Adsense)
– 站长向Google注册 – 站长在自己网页上展示Google的广告
22
23
24
付费与免费
• 杂志对内容收费
– 部分读者不愿付费。 – 内容费用就是总收入。
• 杂志免费发布
– 在杂志网页上放上google广告。
– 浏览量更大 – 网站流量更大 – 广告收入超出内容收费收入
• WebCrawler 激发了同类公司的出现,包括 :Lycos, Infoseek, OpenText.
15
LYCOS
• 1994年,发端于卡内基梅隆大学,后成为 公司。当时提供了一个包含5.4万文档的目 录。它索引的网页数量不断增加。
• 1994年8月,39万 • 1995年1月,150万 • 1996年11月,6000万 • 远超其他搜索引擎
性强的商务模式。 • 人工干预标注;收录网页有限;无法索引
全文。 • Web迅速增长,而Web目录是个老马车,
跑不动了。
14
爬虫的出现
• 1994年,能够索引网页全文的爬虫出现, WebCrawler,十分受欢迎,一度在白天高 峰时段无法使用。
• 1997年Excite收购了WebCrawler,而AOL 当时委托Excite为其搜索引擎NetFind提供 技术支持。最终成为AOL的品牌。