搜索引擎作业
环境感知 模型
搜索
搜索 结果
参考文献
[1]张俊林.这就是搜索引擎:核心技术详解.北京.电子工业出版社.2012.1 [2]潘雪峰,花贵春,梁斌.走进搜索引擎.北京.电子工业出版社,2011.5 [3]王立清.信息检索教程.北京市.中国人民大学出版社,2008 [4] 李树青,韩忠愿.个性化搜索引擎原理与技术.北京.科学出版社,2008 [5] /view/737447.htm [6] /view/1154.htm [7] /se/ [8] /wiki/Search_engine [9]http://202.194.46.10/adksvod/PublicFolder/AuthorVideo.aspx?AuthorID= 1682
二是竞价排序,根据广告 主的付费多少排列结果。
市场份额
Google's worldwide market share peaked at 86.3% in April 2010. Yahoo!, Bing and other search engines are more popular in the US than in Europe. In the People's share for web search in July 2009. In Russian Federation, Yandex holds around 60% of the market share as of April 2012.
全文搜索引擎
• 全文搜索引擎是目前广泛应用的主流
搜索引擎,页文字为主),建立起数据库,并能检 索与用户查询条件相匹配的记录,按一定的排 列顺序返回结果。 • 一类拥有自己的检索程序,能自建网页数据库, 搜索结果直接从自身的引擎的数据库,并按 自定的格式排列搜索结果,如Lycos搜索引擎。
2 3
搜索引擎 工作原理
搜索引擎 主要需求
省快
稳
全
准
搜索引擎 的,挥结洒构“11度青春”
搜索器 索引器 检索器 用户接口
搜索引擎 工作原理
I. 搜索引擎利用自动搜索机器 人程序来链接每一个网页的 超链接
II. 将搜集的信息保存起来,将 它们按照一定的规则进行编 排,加工处理成数据库
III. 用户向搜索引擎发出查询 IV. 搜索引擎接受查询并向用户
地理位置
感知搜索
地理
位置
感知
跨语言搜索
“麻省理工” 查询翻译系统
“MIT” 英文搜索引擎 •自动将用户的母语查询翻译成相应的其他语种
多媒体搜索
多媒体数 据流分割
多媒体特 征提取
多媒体数 据分类
多媒体数 据索引搜 索
图片:色彩,纹理 音频:音高,音调
用户模型
•就是能够感知人及人所处的环 境,“此时此地此人”来建模, 比如苹果专卖; •用户的身份,兴趣,结合查询 的时间,地点,周边环境。
查询系统
Z查询界面
提高检索效率
Z发展方向
推测用户查询意图,这方面主要的工作包括查 询纠错和查询推荐; 能够在某个细分领域进行查询,例如垂直搜索 及分类搜索; 查询结果的优化; 提供个性化服务,例如可定制搜索服务。
Search engine bias
• Although search engines are programmed to rank websites based on their popularity and relevancy, empirical studies indicate various political, economic, and social biases in the information they provide. These biases could be a direct result of economic and commercial processes (SEO), and political processes (Google Bombing).
王通
• 王通,中国网络策划第一人,实战派网络营销 专家,通王科技总裁。
• 王通,国内最早研究搜索引擎优化的人士之一 ,对电子商务、网络营销、网站运营、网络品 牌、盈利模式、SEO、个人建站等领域深有 研究。
• 几年来,他曾为包括腾讯、拍拍网、金山爱词 霸、金山毒霸、IT世界、宇通集团在内的200 多家企业和网站提供搜索引擎优化和网络营销 策划及培训服务,并发表有网络研究文章上百 篇。
搜索网站排名是影响企业营销效益的 重要因素。
消费行为调查显示,一般用户会 点击搜索结果前50名的链接。
以某站为例,从2002年6月中到 月底的10天间,以“搜索引擎”为 关键词的来自Yahoo中国的点击数为 242次,而同样的关键词,由新浪搜 索引导的访问却只有11次,相差20 倍之多,其原因就在于搜索排名的不 同。
Greek=after or beyond
(META Search Engine) 接受用户查询请求后,同时在 多个搜索引擎上搜索,并将结 果返回给用户。
该搜索引擎类似元搜 索引擎,区别在于它并非 同时调用多个搜索引擎进 行搜索,而是由用户从提 供的若干搜索引擎中选择。
垂直搜索引擎为2006年后逐步兴起 的一类搜索引擎。不同于通用的网 页搜索引擎,垂直搜索专注于特定 的搜索领域和搜索需求(例如:机 票搜索、旅游搜索、生活搜索、小 说搜索、视频搜索等等),在其特 定的搜索领域有更好的用户体验。 相比通用搜索动辄数千台检索服务 器,垂直搜索需要的硬件成本低、 用户需求特定、查询的方式多样。
其实现是基于搜索引擎排名算法中的两个事实: 1)外部链接是排名的重要因素之一 2)链接文字很多时候比链接数量更重要
所以当有大量包含特定关键词的链接指向某 一个网页的时候,这个网页就算没提到这个关键 词,排名也会非常好。
搜索引擎发展趋势
用户搜索历史 用户浏览网页 用户e-mail 用户收藏信息 用户发布信息
正因为预见到企业在这方面的需
求,国内各大门户和搜索引擎都推 出了商业网站搜索引擎推广服务。
Search Engine Optimization to use
some technics to make your website in the top places in Search Engine when somebody is using Search Engine to find something.
• 著有电子书籍《搜索引擎排名秘笈》、《搜索 引擎营销》、《网站运营研究》、《海外推广 秘笈》等。
如何系统 化做 SEO
关键词策略 内容要不断更新,要原创
合理布局关键词 做对应的网站地图
不断的做反向链接
一些人利用谷歌来提升有关 他人不利报道的文章或网页的点 击率,以此让搜索者能更容易找 到这些文章或网页的方法称之为 “谷歌炸弹”。
刘培
搜索引擎是什么?
A web search engine is designed to search for information on the World Wide Web. The search results are generally presented in a line of results often referred to as search engine results pages(SERPs). ——维基百科
谢谢
社会化搜索系统重点关注4类关系:
问题
社交关系 相似兴趣 社区成员 领域专家
完善的实时搜索系统重点考虑以下四个方面的因子:
内容相关性 时效性 信息重要性 社交性
用户关注人发布的信息排名应该靠前。
输入查 询
更便利
展示搜 更准确 索结果 更直接
查看页 面内容
更重要
•用户查询自动补全 •语音识别输入
•展示摘要区域; •自动提取页面重要内容
返回网页链接
下载系统
URL
网页抓取
爬虫
分析系统
中文分词
网页信息结构化
网页查重
例如: 从小/学/电脑 从小学/毕业
Page Rank
索引系统
倒排索引
Z向量空间模型
把原始查询和文档都看做 是文本,使用同样的向量化 过程,分别得到查询向量和 文档向量 通过计算向量相似度的方 法计算它们的相似度 按照与查询词的相似度从 大到小排序文档,返还给用 户。
翻译成中文就是“搜索引擎优化”,一般可简 称为搜索优化。
与之相关的搜索知识还有: Search Engine Marketing(搜索引擎营销) Search Engine Positioning(搜索引擎定位) Search Engine Ranking(搜索引擎排名)等。
ቤተ መጻሕፍቲ ባይዱ
现在搜索引擎的主流
商务模式都是在搜索结果 页面放置广告,通过用户 的点击向广告主收费。 这种模式有两个特点, 一是点击付费(Pay Per Click),用户不点击则广 告主不用付费。
比如在美国争夺国会控制权的选战中,一些民
主党支持者利用“谷歌炸弹”来提升攻击共和党的 文章的点击率,让搜索者能更容易找到这些文章。 一些人利用这一手段,成功地将总统布什和“悲惨 失败”四个字联系了起来,搜索者只要在英文谷歌 网站上输入短语“悲惨失败(Miserable failure)”, 就会被引导到白宫网站写有布什简历的页面上。
定 义
搜索引擎是指根据一定
的策略、运用特定的计算机程序 从互联网上搜集信息,在对信息 进行组织和处理后,为用户提供 检索服务,将用户检索相关的信 息展示给用户的系统。
定 义
• 虽然有搜索功能,但严格意义上不能称为真正 的搜索引擎,只是按目录分类的网站链接列表 而已。用户完全可以按照分类目录找到所需要 的信息,不依靠关键词(Keywords)进行查 询。目录索引中最具代表性的莫过于大名鼎鼎 的Yahoo、新浪分类目录搜索。