当前位置:
文档之家› 信息检索技术现状、发展和未来
信息检索技术现状、发展和未来
发展阶段2—— 早期互联网时代
• 需求
– 超出人们预想的海量网页资源 – 被链接连接起来的文档和网络
• 超链接文本(Hyper-text) • 链接(Links) • 网络(Connected Web)
– 1994,World Wide Web Consortium founded;第 一届WWW会议召开
– Web数据质量研究受到重视
• “Does authority means quliaty”(B. Amento et al, 2000) • 搜索引擎的挑战性问题(Henzinger et al, 2003)(Singhal, 2005) • 反垃圾(作弊)研究(Z. Gyongyi,2004 )
• 中搜(2003年12月23日),搜狗(2004年8月3日) • 搜搜(2006年3月),有道(2006年12月)
发展阶段2—— 早期互联网阶段
• 里程碑:国内学术动态
– 2003年,第一届全国搜索引擎和网上信息挖掘学术研讨会召开
• 同时举行了第一届SEWM评测,设立中文网页分类测试任务
– 2004年,第一届全国信息检索与内容安全学术会议召开
frequency
informativity
123…
Rank
Used by Luhn for term significance
发展阶段1 —— 数字图书馆时代
• 技术:检索模型
– 集合论模型
• Boolean models (e.g. Lancaster et al., 1973)
– 代数模型
• Vector Space models (e.g. Salton et al., 1983)
– 概率模型
• RSJ model (Robertson & Sparck Jones,1976) • BM25(Robertson et al., 1994)
发展阶段1 —— 数字图书馆时代
• 评价
– Cranfield评价体系(Cleverdon,1950’s) – 关注“relevance” (F. W. Lancaster, 1979 )
1991 Cyril Cleverdon 在20世纪60年代完成了著名的Cranfield项目,对信息检索的评价 方法以及自动索引构建的方式做出了卓越的贡献。 1994 William Cooper 信息检索中引入概率的先驱。
1997 Tefko Saracevic 是情报学社会传播派的主要代表人之一,对信息检索系统的测 试和评估,尤其是信息检索中的人机交互等方面做出了突出的 贡献。
信息检索与内容安全专业委员会集体讨论稿
信息检索技术的发展—— 过去、现在和未来
信息检索
• 信息检索:
– 从数据中找到与用户需求相匹配的内容
• 信息检索的发展
– 紧随着用户需求的发展与变化 – 随着信息技术的爆炸式发展而产生质的飞跃 – 在不同的发展阶段遵循不同的商业模式
Figure Copyright by TREC
发展阶段1——数字图书馆时代
• 里程碑(国内):748工程
– 1985年,开始开展新闻资料检索的研究 – 1989年,研制出第一套基于关键词标引的新闻资料检索系 统 – 1992年,研制出基于我国第一套中文全文检索系统 – 1993年,开发商业化全文检索系统TRS – 1997年,获得国家科技进步二等奖
发展阶段2——早期互联网时代
• 技术:基本功能
– 数据获取技术:爬虫技术 – 大规模数据索引及检索 – 链接分析技术
• 超链接文本分析(Botafogo,1992) • 利用节点的入度、出度 • HITS(Kleinberg, 1997) • PageRank (S. Brin and L. Page,1998)
及相关改进:计算与实现,效率,并行化,topic-sensitive PageRank,…
• TrustRank (Z. Gyongyi,2004) • 利用anchor text
发展阶段2——早期互联网时代
• 技术:提高
– 开始理解用户查询,并初步细分检索任务
• 导航类、信息类、事务类 (Broder,2002) • Homepage/Site finding (主页/站点导航任务)(S. E. Robertson,2000) • Topic Distillation(主题提取任务)(K. Bharat, M. R. Henzinger, 1998)
发展阶段1——数字图书馆时代
• 应用形态
– 封闭数据集合 – 单机模式或专网内的主机-终端模式
• 商业模式
– 软件/解决方案提供 – 专网内的查询服务提供
信息检索发展
• 信息检索:从数据中找到与用户需求匹配的内容 • 信息检索的发展,紧随着用户需求的发展与变化
– 发展阶段1:数字图书馆时代 —— 对文档全文内容的快速检索
发展阶段1—— 数字图书馆时代
• 需求
对文档全文内容的快速检索
1945: Vannevar Bush’s article “As we may think” 目标:未来人们能够实现对海量图书 资源(1M)进行快速的访问 “A library of a million volumes could be compressed into one end of a desk… …It may be consulted with exceeding speed and flexibility.”
– 发展阶段2:早期互联网时代 —— ?
信息检索
• 信息检索:从数据中找到与用户需求匹配的内容 • 信息检索的发展,紧随着用户需求的发展与变化
– 发展阶段1:数字图书馆/文档电子化时代 —— 对文档全文内容的快速检索 – 发展阶段2: 早期互联网时代
• 世界上第一个网页 /History/19921103hypertext/hypertext/WWW/ThePro ject.html
• 里程碑:Salton奖的颁发情况
概率检索模型的提出者之一。 20 世纪 70 和 80 年代和另一位 Salton 奖得主 Jones 一起建立了信 息检索的概率框架。和Jones 一起给出了二值独立模型(BIM 的主要基础理论(1976)。 20 世纪 90 年代 在 Okapi 信息检 索系统上实现了 著名的 Okapi BM25检索模型,这一模型被广泛的应用于现代检索系统中。
– 文本的聚类、分类、文摘、推荐、翻译、信息抽取、 自然语言问答、话题跟踪与检测等技术纳入搜索引 擎框架
发展阶段2—— 早期互联网阶段
• 评价(国际)
– 开始细分和探索不同的检索任务的评价方法
• 通用Web搜索:主题提取任务/站点导航任务 • 新信息查询 • 检索的鲁棒性 • 问答,自动文摘,话题检测与跟踪
发展阶段2—— 早期互联网时代
• 技术:扩展
– 概率模型得到发展
• Language Model (e.g. Croft et al., 1998)
– 排序学习方法的兴起
• RankSVM (Joachims et al, 2003), RankBoost(Yoav Freund, et al 2003) • 其后还逐渐发展出了ListMLE, ListNet, SVMMAP等排序学习方法
"Relevance is the correspondence in context between an information requirement statement ... and an article (a document), that is, the extent to which the article covers the material that is appropriate to the requirement statement."
– 开始组织国内的中文信息检索评测
• 2003年开始组织中文Web信息检索评测SEWM
• 2003年,第一次评测,设立中文网页分类 • 2004年,第一次中文网页搜索评测,包括主题提取和导航搜索, CWT100g
– 2003,2004,2005年组织3次863计划信息检索评测
发展阶段2—— 早期互联网阶段
– 第一届TREC(Text REtrieval Conference)标准评测会 议举办(1992)
• 新闻报纸语料,部分政府文档,图书资料;压缩后2G
F. W. Lancaster, 1979
发展阶段1——数字图书馆时代
• 里程碑(国际):Salton奖的颁发情况
1983 Salton 现代信息检索的奠基人, 20 世纪 60 年代开发出信息检索系统 SMART 。 1975 年提出了著名的向量空间模型以及词项权重模型 TF-IDF
2000
索的研究,对信息检索领域做出卓越贡献 将贝叶斯网络引入信息检索中(1989,1991),将统计语言 建模的方法引入到信息检索中(1998),其对于贝叶斯网络 2003 W. Bruce Croft 以及语言模型的理论发展和应用做出的贡献在信息检索领域 是至关重要的。 另外,其建立的智能信息检索中心使得信息检索的基础研究 和实际应用能够很好的相互促进。
发展阶段2—— 早期互联网应用
• 里程碑:第二代搜索引擎
– Google 1998成立,于2000相继出现,中文检索服务开始繁荣
发展阶段1 —— 数字图书馆时代
• 技术:草创时期
– 数据库查询 自由文本的全文检索 – 倒排索引技术 – 词频与权重(term significance)
Frequency/Informativity
• Luhn 1957 • 后来发展出TFIDF权重计算方法
LUHN, H.P., 'A statistical approach to mechanised encoding and searching of library information', IBM Journal of Research and Development, 1, 309-317 (1957).