当前位置:文档之家› 合肥工业大学自然语言理解实验报告

合肥工业大学自然语言理解实验报告

计算机与信息学院
自然语言理解实验报告
专业班级
信息安全13-1
学生姓名及学号
马骏2013211869 课程教学班号
任课教师
谷雨
实验指导教师
谷雨
实验地点
逸夫楼
2015 ~2016 学年第一学期
实验1 统计词频
一、实验目的
掌握中文词语的标记方法
二、实验要求
统计材料中词语的出现次数及频率
三、实验内容
将形如如下格式的文章统计词频
19980101-01-001-001/m 迈向/vt 充满/vt 希望/n 的/ud 新/a 世纪/n ——/wp 一九九八年/t 新年/t 讲话/n (/wkz 附/vt 图片/n 1/m 张/qe )/wky
19980101-01-001-002/m 中共中央/nt 总书记/n 、/wu 国家/n 主席/n 江/nrf 泽民/nrg
19980101-01-001-003/m (/wkz 一九九七年/t 十二月/t 三十一日/t )/wky
19980101-01-001-004/m 12月/t 31日/t ,/wd 中共中央/nt 总书记/n 、/wu 国家/n 主席/n 江/nrf 泽民/nrg 发表/vt 1998年/t 新年/t 讲话/n 《/wkz 迈向/vt 充满/vt 希望/n 的/ud 新/a 世纪/n 》/wky 。

/wj (/wkz 新华社/nt 记者/n 兰/nrf 红光/nrg 摄/Vg )/wky
19980101-01-001-005/m 同胞/n 们/k 、/wu 朋友/n 们/k 、/wu 女士/n 们/k 、/wu 先生/n 们/k :/wm
四、实验步骤
五、实验总结
通过实验我了解了中文词语的标记方法
四、实验目的
掌握fmm算法并编程完成
五、实验要求
基于已统计的词频来实现fmm算法
六、实验内容
FMM算法的最简单思想是使用贪心算法向前找n个,如果这n个组成的词在词典中出现,就ok,如果没有出现,那么找n-1个...然后继续下去。

假如n个词在词典中出现,那么从n+1位置继续找下去,直到句子结束。

四、实验步骤
通过分词坐标,得到分词结果是:在/中国/的/歪果仁/希望/迈向/新/世纪
五、实验总结
通过实验我了解了fmm算法的编程过程
七、实验目的
掌握bmm算法并编程完成
八、实验要求
基于已统计的词频来实现bmm算法
九、实验内容
B M M算法的最简单思想是使用贪心算法从后向前找n个,如果这n个组成的词在词典中出现,就ok,如果没有出现,那么找n-1个...然后继续下去。

假如n 个词在词典中出现,那么从n+1位置继续找下去,直到句子开始字。

四、实验步骤
通过分词坐标,得到分词结果是:在/中国/的/歪果仁/希望/迈向/新/世纪
虽然结果和fmm一样,但实现的过程显然是不一样的
五、实验总结
通过实验我了解了bmm算法的编程过程
实验4 基于一阶马尔科夫链的分词算法
十、实验目的
掌握基于马尔科夫链的中文分词方法
十一、实验要求
编程实现基于一阶马尔科夫链的分词算法
十二、实验内容
马尔科夫(Markov)过程的定义
一般地,考虑只取有限个(或可数个)值的随机过程{Xn=1.2 ⋯}:若Xn=i,就说过程在n时刻处于i状态,假设每当过程处于状态i,则过程在下一时刻处于状态j的概率P为一定值,即Vn≥1有:
这样的随机过程称为Markov链(给定过去的状态X1 ..,Xn-1 和现在的状态Xn 将来的状态Xn+1 的条件分布独立于过去的状态.只依赖于现在的状态——这就是Markov性)。

一个马尔科夫模型(MM)M就是一个Markov链加上一个转移概率矩阵显然.它可被视为一个随机有限状态自动机.其每个状态都代表一个可观察的事件.之间的转换都对应一定的概率
对于马尔科夫模型而言.每个状态都是决定性地对应于一个可观察的物理事件.所以其状态的输出是有规律的然而.这种模型限制条件过于严格.在许多实际问题中无法应用于是人们将这种模型加以推广.提出了隐马尔科夫模型(HMM)。

隐马尔科夫过程是一种双重随机过程。

即:观察事件是依存于状态的概率函数.这是在HMM 中的一个基本随机过程.另一个随机过程为状态转移随机过程.但这一过程是隐藏着的.不能直接观察到.而只有通过生成观察序列的另外一个概率过程才能间接地观察到
对于隐马尔科夫模型的应用.在语音识别领域已经取得了很好的成效.在信息抽取领域的应用也正在不断的尝试和推广中
四、实验步骤
通过分词坐标,得到分词结果是:在/中国/的/歪果仁/希望/迈向/新/世纪
五、实验总结
通过实验我了解了bmm算法的编程过程
实验5 MFC可视化
十三、实验目的
完成中文分词系统的设计
十四、实验要求
利用MFC实现中文分词系统的可视化
十五、实验内容
通过mfc对fmm,bmm’,hmm算法进行了整合,并可视化。

四、实验步骤
五、实验总结
通过此次实验的学习使我对中文分词有了更深的了解,希望在以后可以学习到更多的自然语言理解的知识。

相关主题