当前位置:文档之家› 中文信息处理 教学大纲

中文信息处理 教学大纲

课程名称:中文信息处理课程类别:专业课程授课对象:计算机科学与技术专业学分:3学分指定教材:朱巧明等,《中文信息处理技术教程》,清华大学出版社,2005年一、教学目的:本课程的教学目的是使学生掌握中文信息处理的基本原理,熟悉基本“字符”层面和基于“内容”层面的研究内容、方法、技术和手段。

熟练理解并掌握计算机对中文的输入、存储、输出和应用处理的过程,学习基本的机器学习理论与方法。

本课程对计算机科学与技术的学生有着承前启后的作用,综合结合运用前导课程,又为毕业设计和将来研究生学习或工作奠定扎实基础。

本课程的直接前导课程有《C语言程序设计》、《面向对象程序设计》、《数据结构》和《操作系统》。

二、教学任务:本课程主要教学任务如下:1了解中文信息处理与信息处理的关系,主要研究内容与对象,目前主流的研究技术、手段与方法;2掌握中文信息处理中的汉字代码体系,熟悉主要的中文字符编码与集合,熟悉因特网上的汉字交换码以及编码与解码技术;3深刻理解中文操作系统和中文平台的地位,掌握汉字输入码、机内码、地址码、字形码、地址码、交换码之间的关系;了解主流的中文操作系统的发展趋势4学习汉字编码的方法,理解中文输入的原理,掌握Windows上汉字键盘输入系统的实现方法,了解Linux中文输入的实现机制。

5学习目前主要的三种汉字字形技术,重点掌握点阵字库的原理,压缩方法,以及显示技术。

6理解汉字显示和打印的工作原理以及工作过程。

7理解中文分词的意义,地位、以及主要应用,掌握交集型歧义和组合型歧义的区别,了解基本的解决歧义的方法,能够实现一种中文自动分词算法。

8对中文信息检索、分类、抽取等有较深刻的认识,了解需要解决的问题,以及主流的技术方法。

了解基本的机器学习理论,以及常用的数学模型。

三、教学内容第一讲中文信息处理概论(一)1. 教学内容●什么是信息●信息处理●中文信息处理●中文信息处理发展简史●语料库●互联网与中文信息处理2. 教学要点通过本讲的学习,让学生理解信息处理和中文信息处理的概念,理解中文信息主意研究对象和研究意义,熟悉中文信息处理的发展历史,并了解中文信息处理的国际化趋势。

第二讲中文信息处理处理概论(二)1.教学内容●汉语的特点●自然语言处理的难点●自然语言处理的基本方法及发展方向2. 教学要点通过本讲的学习,让学生掌握现代汉语的特点,知道自然语言处理中的难点,初步了解自然语言处理的基本方法以及发展方向。

第三讲汉字代码体系1、教学内容●ASCII码及其扩展●中文信息在计算机内的表示⏹ISO/IEC 2022●汉字编码字符集⏹GB2312-80⏹BIG-5⏹Unicode和ISO10646⏹GBK和GB180302、教学要点通过本讲的学习,学生应掌握中英文信息在计算机中的表示,以及汉字的代码体系,理解几种常用的汉字编码字符集和汉字的排序规则。

理解汉字编码字符集之间的关系以及发展方向。

第四讲因特网汉字信息交换技术1、教学内容●汉字信息交换技术概述●二进制文件编码方法●常用Internet编码方法●Unicode实现方式2、教学要点通过本讲的学习,理解Internet上常用的字符编码集,理解为何需要汉字交换码,掌握常见交换码的编码与解码算法,并能够通过程序加以实现编码与解码过程。

第五讲中文系统平台概述1、教学内容●中文操作系统与平台概述●中文系统平台设计策略●系统平台的相关模块●中文DOS●中文Windows●中文Linux●嵌入式操作系统2、教学要点通过本讲的学习,让学生了解中文平台和中文操作系统的发展历史、常见中文操作系统和设计中文操作系统的通用方法;掌握系统中汉字处理模块,以及处理模块与汉字代码体系之间的关系;了解软件国际化和本地化的概念。

第六讲汉字编码技术1、教学内容●汉字编码的发展●汉字编码中的几个概念●汉字编码理论●数码键盘方案●编码方案的标准和规范2、教学要点通过本讲的学习,让学生了解汉字编码的发展和相关概念,理解汉字编码理论中的重要概念,了解当前数码设备中的键盘编码方案和国家颁布的汉字编码标准和规范。

第七讲汉字输入技术(一)1、教学内容●汉字输入技术的发展●汉字键盘输入技术2、教学要点通过本讲的学习,让学生了解汉字输入的发展历史、汉字输入的分类和应用等内容,理解汉字键盘输入的原理,掌握输入码对照表的设计,理解汉字键盘输入系统和Windows下汉字输入技术,并对Linux下的汉字输入系统有所了解。

第八讲汉字输入技术(二)1、教学内容●汉字键盘输入系统原理●汉字键盘智能输入技术2、教学要点通过本讲的学习,让学生了解汉字键盘输入在汉字输入中的地位,掌握汉字键盘输入系统的原理,学习汉字键盘智能输入的主要采用的技术以及未来发展的方向。

第九讲汉字键盘输入系统1、教学内容●汉字输入系统的分类●汉字输入系统的功能●汉字键盘输入系统的工作流程2、教学要点通过本讲的学习,主要让学生熟悉Windows和Linux下汉字键盘输入系统的实现方法,熟悉常用汉字输入接口,体会接口在系统中的地位作用。

并能够实现一个简单的Windows汉字输入系统。

第十讲实验分析(一)1、教学内容●本课程实验作用●实验一分析●实验二分析●实验三分析●实验四分析2、教学要点通过本讲的学习,主要让学生对实验的过程有回顾与提高,从具体的实验上升到经验,再通过对经验进行总结,让学生体会这四个实验的作用与学到的东西。

第十一讲汉字字形管理技术(一)1、教学内容●汉字字形概述 (讲授、理解)●汉字字形及其特点●字形、字型和字形库●字形描述技术及其种类●字形描述技术 (讲授、掌握)⏹点阵字形描述技术⏹轮廓矢量字形描述技术⏹曲线轮廓字形描述技术⏹其他字形描述技术●字形的压缩和还原 (讲授、理解)⏹字形点阵的压缩和还原⏹轮廓矢量字形的压缩方法⏹其他字形的压缩技术2、教学要点通过本讲的学习,让学生掌握汉字字形、字库的有关概念,理解常用的字形描述技术、学习并掌握字形压缩的方法,并能用算法加以描述黑白段和线性增量表示法。

第十二讲汉字字形管理技术(二)1. 教学内容●字形的放大和缩小 (讲授、理解)⏹汉字的字号⏹字形放大和缩小的基本原理⏹防止字形放大和缩小失真的措施⏹字形放大和缩小的应用●TTF字形技术 (讲授及自学、了解)⏹什么是TrueType⏹TrueType的基本原理⏹TrueType字体文件结构⏹TrueType的特点和优势⏹TrueType的应用⏹OpenType的出现●字库的设计和管理技术 (讲授、理解)⏹汉字字库的基本要求⏹汉字库性能的评测⏹汉字库结构的设计⏹点阵字库的制作●汉字字库的应用 (讲授及自学、了解)2. 教学要点通过本讲的学习,需要需要掌握字形放大和缩小的原理、防止失真的措施等;了解TTF字形技术;理解字库的设计和管理技术,并由此了解汉字库的应用。

第十三讲汉字输出技术1、教学内容●汉字的输出技术综述 (讲授、理解)●汉字显示输出原理和基本结构 (讲授、掌握)⏹显示设备⏹汉字显示的原理⏹内码缓冲区和字形缓冲区⏹汉字显示输出过程⏹汉字终端●汉字显示技术实例⏹Dos下的汉字显示技术 (讲授、理解)⏹Windows下的汉字显示技术 (讲授、了解)●打印输出原理和基本结构⏹打印设备 (讲授、了解)⏹汉字打印概述 (讲授、理解)⏹汉字打印原理 (讲授、理解)⏹汉字打印过程 (讲授、理解)⏹汉字打印机 (讲授、理解)2、教学要点通过本章的学习,让学生理解汉字输出显示的设备、原理和基本结构,对Dos、Windows操作系统下的显示技术有较深入的分析;理解汉字打印输出的原理和过程,了解常用打印设备。

第十四讲中文自动分词1、教学内容●中文自动分词的概念●中文自动分词的意义、作用●中文自动分词困难:歧义⏹交集型歧义⏹组合型歧义●主要分词方法与算法●如何处理歧义2、教学要点通过本讲的学习,让学生理解分词对于基于内容的中文信息处理的重要性,充分了解分词所遇到的困难,熟悉分词常用的算法,对无词典的分词算法作简要的了解,对于分词中的组合型歧义和交集型歧义进行学习,掌握一些常用的处理交集型歧义的方法。

第十五讲中文信息检索1、教学内容●中文信息检索基础●中文信息检索架构●中文信息检索模型●中文信息检索系统●Web信息检索概述⏹搜索引擎⏹搜索引擎分类2、教学要点通过本讲的学习,让学生理解半结构化文档和无结构化文档,了解中文信息检索中文档的表示方法,检索条件的表示方法。

熟悉中文信息检索系统架构与模型,并深度理解Web信息检索系统的工作原理。

第十六讲中文文本分类1、教学内容●什么是文本分类●文本分类的应用●文本表示●分类特征选择●文本分类算法●文本分类评测2、教学要点通过本讲的学习,让学生理解文本分类的概念,了解文本分类的作用与应用,掌握1-2中文本表示方法,学习特征抽取的技术,并熟悉常见的文本分类算法,明了文本分类评测的技术指标。

第十七讲中文信息抽取1、教学内容●信息抽取概述●信息抽取基本任务●信息抽取系统的结构●信息抽取方法●Web信息抽取方法2、教学要点通过本讲的学习,让学生理解信息抽取的概念,了解信息抽取的作用以及基本任务,熟悉信息抽取系统的结构以及常用的方法,熟悉常用的Web信息抽取方法。

第十八讲实验分析(二)1、教学内容●实验五分析●实验六分析●实验七分析●实验八分析2、教学要点通过本讲的学习,让学生对后面四个实验中的难点与重点进行点拨与回顾,从而进一步发挥实验的教学作用。

对数据压缩、软件二次开发等形成自己感性的认识。

相关主题