当前位置：文档之家› 合肥工业大学自然语言理解实验报告

合肥工业大学自然语言理解实验报告

计算机与信息学院
自然语言理解实验报告
专业班级
信息安全13-1
学生姓名及学号
马骏2013211869 课程教学班号
任课教师
谷雨
实验指导教师
谷雨
实验地点
逸夫楼
2015 ~2016 学年第一学期
实验1 统计词频
一、实验目的
掌握中文词语的标记方法
二、实验要求
统计材料中词语的出现次数及频率
三、实验内容
将形如如下格式的文章统计词频
19980101-01-001-001/m 迈向/vt 充满/vt 希望/n 的/ud 新/a 世纪/n ——/wp 一九九八年/t 新年/t 讲话/n （/wkz 附/vt 图片/n １/m 张/qe ）/wky
19980101-01-001-002/m 中共中央/nt 总书记/n 、/wu 国家/n 主席/n 江/nrf 泽民/nrg
19980101-01-001-003/m （/wkz 一九九七年/t 十二月/t 三十一日/t ）/wky
19980101-01-001-004/m １２月/t ３１日/t ，/wd 中共中央/nt 总书记/n 、/wu 国家/n 主席/n 江/nrf 泽民/nrg 发表/vt １９９８年/t 新年/t 讲话/n 《/wkz 迈向/vt 充满/vt 希望/n 的/ud 新/a 世纪/n 》/wky 。

/wj （/wkz 新华社/nt 记者/n 兰/nrf 红光/nrg 摄/Vg ）/wky
19980101-01-001-005/m 同胞/n 们/k 、/wu 朋友/n 们/k 、/wu 女士/n 们/k 、/wu 先生/n 们/k ：/wm
四、实验步骤
五、实验总结
通过实验我了解了中文词语的标记方法
四、实验目的
掌握fmm算法并编程完成
五、实验要求
基于已统计的词频来实现fmm算法
六、实验内容
FMM算法的最简单思想是使用贪心算法向前找n个，如果这n个组成的词在词典中出现，就ok，如果没有出现，那么找n-1个...然后继续下去。

假如n个词在词典中出现，那么从n+1位置继续找下去，直到句子结束。

四、实验步骤
通过分词坐标，得到分词结果是：在/中国/的/歪果仁/希望/迈向/新/世纪
五、实验总结
通过实验我了解了fmm算法的编程过程
七、实验目的
掌握bmm算法并编程完成
八、实验要求
基于已统计的词频来实现bmm算法
九、实验内容
B M M算法的最简单思想是使用贪心算法从后向前找n个，如果这n个组成的词在词典中出现，就ok，如果没有出现，那么找n-1个...然后继续下去。

假如n 个词在词典中出现，那么从n+1位置继续找下去，直到句子开始字。

四、实验步骤
通过分词坐标，得到分词结果是：在/中国/的/歪果仁/希望/迈向/新/世纪
虽然结果和fmm一样，但实现的过程显然是不一样的
五、实验总结
通过实验我了解了bmm算法的编程过程
实验4 基于一阶马尔科夫链的分词算法
十、实验目的
掌握基于马尔科夫链的中文分词方法
十一、实验要求
编程实现基于一阶马尔科夫链的分词算法
十二、实验内容
马尔科夫(Markov)过程的定义
一般地，考虑只取有限个(或可数个)值的随机过程{Xn=1．2 ⋯}：若Xn=i，就说过程在n时刻处于i状态，假设每当过程处于状态i，则过程在下一时刻处于状态j的概率P为一定值，即Vn≥1有：
这样的随机过程称为Markov链(给定过去的状态X1 ..，Xn-1 和现在的状态Xn 将来的状态Xn+1 的条件分布独立于过去的状态．只依赖于现在的状态——这就是Markov性)。

一个马尔科夫模型(MM)M就是一个Markov链加上一个转移概率矩阵显然．它可被视为一个随机有限状态自动机．其每个状态都代表一个可观察的事件．之间的转换都对应一定的概率
对于马尔科夫模型而言．每个状态都是决定性地对应于一个可观察的物理事件．所以其状态的输出是有规律的然而．这种模型限制条件过于严格．在许多实际问题中无法应用于是人们将这种模型加以推广．提出了隐马尔科夫模型(HMM)。

隐马尔科夫过程是一种双重随机过程。

即：观察事件是依存于状态的概率函数．这是在HMM 中的一个基本随机过程．另一个随机过程为状态转移随机过程．但这一过程是隐藏着的．不能直接观察到．而只有通过生成观察序列的另外一个概率过程才能间接地观察到
对于隐马尔科夫模型的应用．在语音识别领域已经取得了很好的成效．在信息抽取领域的应用也正在不断的尝试和推广中
四、实验步骤
通过分词坐标，得到分词结果是：在/中国/的/歪果仁/希望/迈向/新/世纪
五、实验总结
通过实验我了解了bmm算法的编程过程
实验5 MFC可视化
十三、实验目的
完成中文分词系统的设计
十四、实验要求
利用MFC实现中文分词系统的可视化
十五、实验内容
通过mfc对fmm，bmm’，hmm算法进行了整合，并可视化。

四、实验步骤
五、实验总结
通过此次实验的学习使我对中文分词有了更深的了解，希望在以后可以学习到更多的自然语言理解的知识。

e商务文档

合肥工业大学自然语言理解实验报告

相关文档推荐：