当前位置:文档之家› 一种基于多模板匹配的字符识别方法

一种基于多模板匹配的字符识别方法

一种基于多模板匹配的字符识别方法李 婧,龚晓峰,王瑞辉(四川大学 电气信息学院 成都 610065)摘要:本文在对字符进行各种预处理,包括倾斜校正,归一化,分割的基础上,依据字符的高度,宽度范围,提出了一种基于多模板匹配的字符识别方法,并将该算法运用于仿宋_GB2312字体,识别率达到98%以上,有效的提高了识别正确率,简单易实现。

关键词:倾斜校正;字符分割;多模板匹配中图分类号:TP391.41 文献标识码:AA recognition method of characters based onMulti-Template MatchingLI Jing, GONG Xiao-feng, Wang Rui-hui(College of Electrical Information, Sichuan University, Chengdu 610065, China) Abstract: This paper first do pretreatment such as skew correction, normalization, segmentation of characters, etc. Then it presented a new muti-template matching method according to the range of the character’s width and height. At last, the experiment used in the FangSong_GB2312 font show that this method can improve recognition accuracy and is easy to put into practice.Keywords: skew correction; character segmentation; multi-template matching0 引言字符识别是图像处理和模式识别领域中的研究课题之一,它涉及模式识别、图像处理、人工智能、中文信息处理等学科,是一门综合性技术,在中文信息处理、办公室自动化、人工智能、车牌识别、交通管理等高技术领域都有着重要的实用价值和理论意义[1]。

目前字符识别主要有以下几种方法:1)利用字符的统计特征进行特征提取,2)基于字符结构分析的识别方法,3)利用字符的结构特征和变换进行特征提取,4)基于模板匹配的方法进行字符识别,5)近年来又出现了基于神经网络的算法和基于矩和小波变换的识别算法。

但由于同一字体的字符有各种字号的差异,单一的运用上述某一种方法的效果都不理想[2]。

为了提高识别率,本文从识别率较高的模板匹配法入手,对单模板匹配和特征模板进行改进,提出了一种根据字符高度,宽度值为每个字聚类多个模板,最后采用海明距离实现多模板的匹配。

通过将该算法运用于仿宋_GB2312字体,发现这一方法能有效解决相似度高的字符的正确识别问题,有一定的实用价值。

1 识别系统总体方案字符识别系统一般包括字符预处理,字符分割,字符识别三个环节,系统框图如图1所示。

图1 字符识别系统框图2 预处理字符图像可能是彩色的,可能含有噪声点或位置倾斜,为了便于分割和特征比对,我们要先将其全部统一成标准的16×8的二值化模板。

所以需要进行去噪[3],二值化,倾斜校正,图2 遍历法示意图2.1倾斜校正:一般倾斜校正有基于纵向投影和Hough 变换[4]两种方法,本文采取的是遍历法。

如图2所示,选择图像的左边界作为出发点,选择某倾斜角度θ作为直线的倾斜角。

已知直线方程y=k*x 十b,知道直线上的一点(x,y)和直线的倾斜角度θ,则可以求得k 和b。

然后判断被确定的直线是否都在背景中,若是,倾斜角度为θ的直线数加1。

如图2中直线①,③,④,都不满足要求,只有②是完全在背景的直线。

保持θ不变,遍历左边界的所有点可以得到一系列的直线,分别判断这些直线是否满足要求,记录满足要求的直线数。

给倾斜角度θ一个范围,按一定的步进变化θ,可以得到不同的θ对应的贯穿左右边界的直线数,以其中直线数最大的那个θ作为真实倾斜角度的估计。

当倾斜角度限制在较小的范围时,该方法检测倾斜角度的时间会明显优于Hough 变换检测倾斜角度。

图3可以看出在10度角的时候能够贯穿图像左右的直线条数达到280多条,远远高于其它角度检测出来的满足要求的直线。

因此,该文本的倾斜角度是10度,这与实际将图像旋转的角度一样。

图3 倾斜角度检验结果2.2归一化:为了避免归一化后丢失图像信息,我们采用插值法,对于新图里的每个点(i 1,j 1)按比例放大找到原图中的点(i,j),并将(i,j)点的像素值赋给(i 1,j 1),这样处理后不会产生离散点。

3 字符分割完成字符预处理后就可以对字符进行切分了,切分有很多方法, 由于本文是印刷体字符且不存在粘连并具有连通性,可以采用比较简单的投影的方法。

3.1行分割:将字符作水平方向的投影,累加各行上黑色像素的个数,由于每行字符间存在明显间距,可通过一条水平的线条从上到下扫描投影图,通过判断扫描过程中遇见的黑色像素决定每行的起始位置。

3.2 字符粗分割:方法与行分割类似,区别仅在于在已分割出的每行字符中作垂直方向的投影,根据字间距,判断扫描过程中遇见的黑色象素决定字符的起始和结束地址。

3.3 字符细分割:由于字符大小不一,仅用一次上述方法会使小字符和一行多排的字符分割不准确,为了精确取得每个字符的边框,我们必需在已分割出的方框中再次进行行投影,列投影,完成二次分割,效果如图4。

图4 二次分割效果图4 特征提取4.1 投影特征二值的字符图像向下投影,即从字符上边缘向下扫描,遇到字符像素即作累积投影,最后对投影特征进行波峰、波谷判断[5],依据比例构成形成特征模板。

以后得到的投影特征与模板比较分类。

本文采用水平方向和竖直方向的投影合起来作为二维特征向量。

4.2 模板特征4.2.1简单模板匹配 简单模板匹配过程中选择的模板与字符归一化后的图像统一尺寸为高16像素宽8像素。

模板只有一套,本文中用仿宋_GB2312字体中36号字做模板,直接进行模板与字符图像的逐点匹配,采用海明距离[6]即:i d =16800(,)(,)iy x T x y I x y ==⊗∑∑ 其中T i (x,y)为第i 号模板,I(x,y)为字符图像,且T i (x,y),I(x,y)都取值0或者1。

0表示白色背景象素,1表示黑色字符象素。

取d i 最小时T i (x,y)对应的字符为匹配结果。

但由于每种字体的字符从10号到72号不等,而模板仅一种必然会引起识别误差,为处理这个问题首先想到了下面的改进方法。

4.2.2基于概率的多模板匹配在10号至72号字种,平均的选取八种字号建模,得到八个模板,使这八个模板基本涵盖了各种大小的字符。

并计算每个模板的平均字符高度。

识别时,首先统计该文本中所有字符的高度,计算哪种高度的字符数目最多,根据出现概率最多的高度来决定选用哪个模板进行匹配。

当文本中大多数为一种字号的字符,模板选择正确时,识别率基本可达100%,并且由于是基于概率统计的方法,所以文本字符数越多,越容易正确选择模板,识别正确率越高。

而当文本中含有各种不同字号的字符时,每种高度出现的概率相近,就很难选择模板,造成识别错误。

所以综上所述,这种基于概率的多模板匹配实际是一种假相的多模板,因为最终用于匹配的仍然为单一模板。

适用于文本字数多,字号相近的字符识别。

4.2.3改进的多模板匹配在仿宋_GB2312字体中对10到72号字符按照字号的不同共做14个模板,统计各个模板的高,宽范围,对待识别的每个字符按其高,宽值寻找匹配模板,若有多个模板符合要求,则都进行匹配,在结果中选择最相似的一个作为最终识别结果。

图5为字符c 的识别过程。

图5 单字符识别过程4.3 功能扩展4.3.1不同字号混排的识别对这种情况如果依然采用自上而下,自左及右依次进行字符的对应匹配并对应显示的方式,会使一行内重叠摆放的几个小字符同时产生错误,为解决这一问题,我们首先采用第三部分提到的二次分割法精确分割然后用竖直排列显示方法来处理这一问题。

4.3.2特殊字符i,j的识别对于字符i,j,由于字符中有断隔,为了避免错分在分割时设置一定阈值,对像素值小于一定数的不予标记,取消分割。

5 分析与结果选取仿宋_GB2312字体10-72号字符的868个样本对这三种模板:标准单模板,基于概率的多模板,改进的多模板进行试验,考虑各种情况,选取的样本包括有污点,彩色,倾斜,不同字号混排等情况。

得到的实验结果如表1。

表1 实验结果算法 正确匹配个数 识别率单模板 741 85.4%基于概率的多模板 795 91.6%改进的多模板 858 98.8%由实验结果可以看出改进后的多模板匹配虽然在计算量和复杂度上都高于前两种模板,但是这种匹配法对每个字符寻找模板,多次匹配,找出最相似的字符,是真正意义上的多模板匹配。

所以除了特小号字符外,对仿宋_GB2312字体识别率在98%以上,且不受字符数目多少,字号是否一致的限制,解决了基于概率识别的局限性。

通过验证,本算法在印刷体字符识别方面具有很高的实用价值,简单易行,可靠性高。

本文作者创新点:1.预处理阶段用改进的遍历法进行倾斜校正。

2.分割阶段对各种情况下包括不同字号,混排,特殊字符(i,j)的精细划分。

3.识别阶段对单一模板匹配法进行改进,采用海明距离实现多模板的匹配,大大提高了识别的正确率。

参考文献[1]Parker J.R.. Gray Level Thresholding in Badly Illustrated Images. Ieee Tran on Patterm Analysis and Machine Intelligence, 1991, 13(8): 813—819.[2]P V S Rao. A Knowledge-Based Approach for Script Recognition without Training[J]. IEEE Tran on PAMI, 1996, 18(4): 460-464.[3]Guo Xiao-song, Kong Xiang-yu, Yang Bi-wu. Algorithm research of templet matching method based on connected area applied to character recognition[J]. Computer Engineering and Applications, 2002, 12(1): 46-47.[4]Mikhail J Atallah. Fast Image Template Matching in the Sum of the Absolute Value of Differences Measure[J]. IEEE Tran on IMAGE PROCESSING, 2001: 10(4).[5]曾庆鹏,吴水秀,王明文.模式识别中的特征提取研究[J].微计算机信息,2008,1-1:220-221。

相关主题