(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910130170.4
(22)申请日 2019.02.21
(71)申请人 江苏苏宁银行股份有限公司
地址 210000 江苏省南京市建邺区45号地
块金融城4号楼707室
(72)发明人 李加庆 沈春泽 谭子豪 周张泉
(74)专利代理机构 南京先科专利代理事务所
(普通合伙) 32285
代理人 缪友菊
(51)Int.Cl.
G06F 17/27(2006.01)
G06F 16/33(2019.01)
G06F 16/36(2019.01)
G10L 15/20(2006.01)
(54)发明名称
一种特定领域的语音识别文本纠错方法
(57)摘要
本发明公开了一种特定领域的语音识别文
本纠错方法,包括标准词及变种词字典生成、基
于词的N -Gram上下文短语字典生成、基于上下文
短语最大匹配保护的变种词替换纠错三个部分。
本发明尤其适用于特定领域,比如可用在智能客
服机器人或者智能催收机器人等应用场景中,可
以对机器人对话过程中语音识别文本的质量进
行提升,质量提升后的文本可以提高特定领域应
用中机器人意图识别的准确性,进而提升对话过
程的流畅性,
提升对话机器人的业务价值。
权利要求书2页 说明书7页 附图3页CN 109977398 A 2019.07.05
C N 109977398
A
权 利 要 求 书1/2页CN 109977398 A
1.一种特定领域的语音识别文本纠错方法,其特征在于,包括以下步骤:
(1)提供正语料库和负语料库,所述正语料库包含无需纠错的文本语料,负语料库包含未经纠错的文本语料;利用正语料库生成标准词表,利用负语料库查找与标准词对应的变种词,组成标准词及变种词字典;
(2)对正语料库进行中文分词,按照词频大小构成正语料的词项组合表,将同一个词项组合中的字符串合并,得到短语,计算短语的字符串长度,将字符串长度相同的短语放在一个集合中,组成上下文短语字典;
(3)输入待纠错文本,做文本滑窗,从左到右滑动文本滑窗,获取滑窗文本,判断滑窗文本是否存在于上下文字典中,并将出现在上下文短语字典中的滑窗文本中的每个字在文本中的索引列出,建立索引集合;对于索引集合,进一步采用文本滑窗,判断滑窗文本是否存在于标准词及变种词字典中,并将出现在标准词及变种词字典中的变种词用对应的标准词进行替换,输出纠错后文本。
2.根据权利要求1所述的特定领域的语音识别文本纠错方法,其特征在于,所述步骤(1)还包括降噪处理:删除正语料库和负语料库中的英文字母、数字及多余标点。
3.根据权利要求1所述的特定领域的语音识别文本纠错方法,其特征在于,所述步骤(1)的标准词表的生成方法为:
(1a)采用文本滑窗的方式,对正语料库进行字层面的词频分析,得到不同字符个数的词频字典,词频字典包括词项及词频;
(1b)对词频字典中的词项进行拼音转换,得到中间文件,中间文件包括拼音、词项及词频;
(1c)基于词频对中间文件进行降序排列,设定第一词频阈值,保留词频高于第一词频阈值的数据,保持排序不变,得到标准词表。
4.根据权利要求3所述的特定领域的语音识别文本纠错方法,其特征在于,所述步骤(1)的变种词的查找方法为:
(1d)采用文本滑窗的方式,对负语料库进行字层面的词频分析,得到不同字符个数的词频字典,词频字典包括词项及词频;
(1e)对词频字典中的词项进行拼音转换,得到中间文件,中间文件包括拼音、词项及词频;
(1f)基于词项拼音对中间文件进行多层次排序;
(1g)遍历所述标准词表,分别在多层次排序结果中逐项通过标准词的拼音匹配到第一个具有相同拼音的词项所在的行,连同该行上下若干行的数据组成集合,在该集合中对每个词项的拼音字符串与标准词的拼音字符串进行编辑距离计算和字符串长度计算,取编辑距离不大于1且字符串长度不大于标准词的拼音字符串的词作为该标准词的变种词。
5.根据权利要求4所述的特定领域的语音识别文本纠错方法,其特征在于,所述步骤(1)的标准词及变种词字典中,每个标准词对应一组相应的变种词。
6.根据权利要求4所述的特定领域的语音识别文本纠错方法,其特征在于,所述步骤(1f)中的多层次排序包括两个字符层排序及三个字符层排序,两个字符层排序包括:首字拼音、末字拼音、词频;末字拼音、首字拼音、词频;三个字符排序包括:首字拼音、次字拼音、末字拼音、词频;末字拼音、次字拼音、首字拼音、词频;首字拼音、末字拼音、次字拼音、词
2。