信息检索
实验内容
l 网页文本的处理(6学时)
- 指定的网站上抓取网页(带有附件,第三个实验使用)
Ø 可以使用开源工具,但要对开源工具进行改造
p 可以定制抓取、多线程等 p 能够对爬虫程序的原理进行很好地分析和解释
- 对抓取下来的网页进行处理
Ø 提取网页正文 Ø 分词、词性标注、停用词去除、词项赋权等操作
实验内容
检索模型
信息过滤与个性化 分类与聚类
检索系统的评价 信息检索
信息抽取—事理图谱 Web检索、企业搜索
文本、查询处理
授课内容
l 课堂教学
第一章 绪论
Ø 信息检索概念及发展历史 Ø 信息检索技术的发展趋势 Ø 面临的困难和挑战 Ø 信息检索技术的应用
第二章 信息检索模型
Ø 布尔模型 Ø 向量空间模型 Ø 概率模型 Ø 语言模型
第九章 问答系统
Ø 问答系统的概念及发展历史 Ø 问答系统的基本组成 Ø 问答系统的基本实例
授课内容
l 课堂教学
第十章 自动文摘技术
Ø 自动文摘技术的评价方法
ü Rouge准则、Rouge-N、Rouge-L
Ø 单文档文摘技术
ü 基于启发式规则的抽取式单文档文摘 ü 基于图排序的抽取式单文档文摘 ü 基于深度学习(Encoder-Decoder框架
能够对检索技术中模型及方法在复杂应用系统中的性能进行分析与评价,具有通 过网络/文献检索综述信息检索相关任务的国内外新技术新理论的能力对检索技 术中存在的问题及发展趋势有初步的认识
能够撰写信息检索技术为基础的具体应用系统相关的报告,具备撰写系统设计、 研制报告以及其他项目文档的写作能力,并能够通过交流与沟通协调小规模团队 进行系统实际开发
Ø 自动抓取往网页并进行存储,提取网页正文,对网页正文进行 分词、停用词、赋权等操作
- 客观事实型问答系统设计与实现
Ø 给出系统的详细设计并分步骤实现,根据最终的系统性能结合 报告分析进行成绩评定
- 企业站内搜索系统的设计与实现
Ø 针对“网页文本处理”实验中获得的数据,设计并实现企业站 内搜索系统,对系统性能进行调优
课程之间的关系
指代消解技术
阅读理解技术
语言与认知原理 认知过程中的记忆机制
认知与推理
语言与认知
问答系统 自动文摘 信息抽取 企业搜索 信息过滤与个性化
检索模型 文本、查询处理 索引方法与顺序检索 Web检索
信息检索
机器翻译
对话系统
知识图谱
词法分析
句法分析
语义分析
篇章分析
自然语言处理
课程目标
l 总体目标
授课内容
l 课堂教学
第七章 Web检索
Ø Web检索的基本原理和结构 Ø 信息采集技术的基本原理 Ø 网页预处理
ü 网页去重、网页正文提取
Ø 网页相关性排序方法
ü PageRank、HITS、L2R
Ø 用户界面及可视化
第八章 文本分类和聚类
Ø 文本分类方法
ü 贝叶斯、K近邻、决策树
Ø 文本聚类
ü 层次聚类、K-Means聚类
信息抽取
斯坦福大学 √ √
√
√ √ √ √ √
麻省理工大学 √ √ √ √ √ √ √ √ √ √ √ √ √
德克萨斯大学 √ √ √ √ √
√ √ √ √ √ √
√
授课内容
深度 问答
任务型 对话
聊天 机器人
智能 客服
情感 分析
阅读 理解
社会媒 体预测
辅助 写作
信息 推荐
知识 推理
…… ……
问答系统、自动文摘 索引方法与顺序检索
l 客观事实型问答系统设计与实现(12学时)
- 问题分类
Ø 采用机器学习的方法,自定方法选取特征 Ø 提供训练语料、测试语料,对分类的效果进行评价
- 文档检索
Ø 对文档集合建立索引,根据给定的问题到文档集合中检索包含 答案的句子或者段落
- 候选答案句排序
Ø 采用相应的算法对候选答案局进行排序
实验内容
课程内容
信息检索概念、历史简介
信息检索的评价
信息检索模型
布尔模型 向量空间模型
概率模型
语言模型、数据平滑
文本处理(倒排文件、索引、压缩)
查询处理(查询扩展、相关反馈)
基于web的信息检索
链接分析技术
文本分类、文本聚类
个性化搜索、推荐系统
跨语言信息检索
信息抽取
斯坦福大学 √ √
√
√ √ √ √ √
麻省理工大学 √ √ √ √ √ √ √ √ √ √ √ √ √
德克萨斯大学 √ √ √ √ √
√ √ √ √ √ √
√
课程内容
信息检索概念、历史简介
信息检索的评价
信息检索模型
布尔模型 向量空间模型
概率模型
语言模型、数据平滑
文本处理(倒排文件、索引、压缩)
查询处理(查询扩展、相关反馈)
基于web的信息检索
链接分析技术
文本分类、文本聚类
个性化搜索、推荐系统
跨语言信息检索
信息检索
张宇
哈尔滨工业大学 计算机科学与技术学院
主要内容
l 课程基本信息 l 课程目标 l 课程内容 l 考核方式
课程基本信息
l 课程学时:72学时
- 讲课学时:48 - 实验学时:24
l 授课对象
- 计算机科学与技术专业、人工智能专业
l 开课学期:3春 l 先修课程
- 机器学习、人工智能、自然语言处理
《信息检索》是自然语言处理方向中的一门核心课程,在人工智能理论、机器学 习模型、语言处理技术的基础上对信息内容进行组织、分析和处理。
该课程的目的是让学生们通过学习了解传统文本检索技术的基本知识,以及互联 网时代信息检索技术的发展状况。掌握信息检索技术的基本概念、信息检索系统 的基本原理和常用方法,结合人工智能、机器学习、自然语言处理技术对信息进 行加工处理。为学生今后设计、开发基于检索技术的应用系统奠定技术基础,提 高学生形式化思维、建模的能力。
ü 分词、简繁转换等
Ø 齐普夫定律、Heap's定律
第五章 查询的操作
Ø 查询扩展方法 Ø 相关反馈技术
ü 显式反馈、隐式反馈
第六章 索引及检索
Ø 倒排文件的基本原理
ü 倒排文件的表示 ü 倒排文件的压缩
Ø 签名文件的基本原理 Ø 后缀树及后缀数组的基本原理 Ø 顺序检索中的模式匹配技术
ü KMP算法、BM算法……
参考书目
l B. Croft, D. Metzler, and T. Strohman, Search Engines: Information Retrieval in Practice. Addison Wesley, February 2009.
l C. Manning, P. Raghavan, and H. Schütze, Introduction to Information Retrieval. Cambridge University Press, 2008.
谢谢!
Ø 事理图谱的应用
第十三章ห้องสมุดไป่ตู้信息过滤及个性化
Ø 信息过滤技术 Ø Collaborative Filtering Ø Neighbourhood Methods Ø Model based Methods Ø Content based Methos
Ø 个性化检索
实验内容
l 信息检索(24学时)
- 网页文本处理
l 企业站内搜索系统的设计与实现(6学时)
- 针对“网页文本处理”实验中获得的数据,设计并实 现企业站内搜索系统,对系统性能进行调优
问题
l 缺乏适合本科生使用的教材 l 学生的基础不同,无法适应所有同学的需求 l 实践环节需要网络带宽的保障、高性能计算设备
的保障 l 需要建立完善的实验平台(实验效果的评价)
和Attention机制)生成式文摘
Ø 多文档文摘技术
第十一章 企业搜索
Ø 企业搜索系统的架构 Ø 企业搜索系统中的任务 Ø 企业搜索系统的评价方法
第十二章 信息抽取
Ø 信息抽取技术简介 Ø 事件抽取技术
ü 机器学习-最大熵、Bootstrapping
Ø 事理图谱的原理及构建方法 Ø 统计脚本学习 Ø 金融领域事理图谱的构建
第三章 信息检索技术的评价
Ø 信息检索相关的评测会议 Ø 基本的评价指标
ü 准确率、召回率、F值
Ø 常用的评价指标
ü P@n、R-Precision、RR、MRR、 Bpref、NDCG……
Ø Kappa系数
授课内容
l 课堂教学
第四章 文本的操作
Ø 英文文本中的问题及处理方法
ü 断词、异文合并等
Ø 中文文本中的问题及处理方法
课程目标
l 课程具体目标
能够运用向量空间模型、倒排索引等信息检索的基本模型与方法,设计并实现与 检索任务相关的应用系统(问答式检索系统、站内搜索系统)
掌握文本检索中涉及的基本模型、算法,掌握Web检索中的信息采集方法、排序 及网页内容管理等技术。能够运用文本检索与Web检索的模型与方法处理信息推 荐、事件抽取等相关任务