当前位置:
文档之家› 基于图像统计特性的印刷体汉字识别方法
基于图像统计特性的印刷体汉字识别方法
现在利用幅值信息可以 构造图 像的不变性特征集合: =Q t, 。 Lt t 2 其中Q(,2 ( ) ) ) w (t ) jw
是用上述方法得到的归一化幅值信息。至此,可按照如下步骤构造出不变性特征集合:
舀. 像基于两 求出图 个子相关 偏置矢量h 的 ,卜 三阶累 积矩函 数:
Nw Cm ( 1 P , 1= g_ 3 t 0] P - + o e 一 u 3 , 2 2 I e m (p, 0R 0 8l 1 B1 8 ) P t A ma C u [ B+ , 2 , k t
其 、ks,“o, 度 化 子 。 角 变 因 由 阶 积 的 中 = o一(l 幅 变 因 , 。 度 化 子 三 累 矩 卜( n) k 9 e 为 为
2实验结果
下面是点阵为 1X 的汉字 ‘ 6 1 6 ’ 永”和 “ 家”的原图及其对应的不 变性特征集合 L 的 空间图谱。如图 1 所示:可以看出,图‘> : 与图<> L图谱差异较大,这是因为 “ a b的 永” 和 “ 两个汉字差异较大 家” 所致。 <> <> <> <> < , 的 L图谱相关性 图 与图 c, , , <> a d e f g > 非常高, 这主要是因为它们之间只存在平移、 旋转、 缩放或者有无噪声的关系。可以 用 相关系数来衡量其它各图和<> a的相似度,达到汉字识别的目的。
19,1 :2 -2 98( )929 5 1
陈治平, 林亚平, 李军义. 基于笔划和笔顺的 汉字识别算法. 伏学李友, 0 翻菊 " 20 0,
() 0- 15 4: 1 -0 1 -
具有较强的抗噪能力,利用它作为特征来进印刷体汉字识别是有效的.
关 词模 识 , 矩 不 性 述 空 变 , 秘 A 键 式 别禅积 , 变 描 间 换 边
0引言
汉字识别是一个图像识别过程, 它通过计算机对一个汉字的点阵图像进行分析,最 后从己 有的汉字集合中选出与其匹配的 汉字。根据输入到计算机中的汉字的 产生方式, 汉字识别可以 分为印刷体汉字识别、联机手写体汉字识别和脱机手写体汉字识别。 在汉 字识别中印刷体汉字识别的识别率是比 较高的, 这主要是因为印 刷体汉字具有笔划标准、 字迹清晰和字体规范等优点。当然, 对汉字的识别方法也是多种多 样,比如,在文献[ 4 ) 中,采用了 基于笔划和笔顺的识别方法,可以 对联机顺序手写体汉字进行较好的识别, 但对印 刷体汉字来说不存在笔顺的信息,仅利用笔划的 特征来识别就会存在较大的误差 ( 例如对含有高斯噪声的点阵图 ; 像) 文献(提出了 三阶累 3 1 利用 积量来提取图 像特征的方 法,但未对图像的噪声因素做探讨,也没有对图像进行标准化。 识别印刷体汉字的关键点是能够找到一种对印刷体汉字的不变性描述。例如,印刷 体汉字的 边缘特征、骨架特征和笔 划特征等等。一 般来说, 不变性描述包括平移、 旋转、 缩放和透视四 类不变性。 就目 前而言,还很难做到透视不变性, 但对于印刷体汉字的识 别来说,仅需要这种不变性描述具有平移、旋转、缩放不变的 特性即可。从印刷体汉字 的识别原理来说,也是属于图 像识别的 范畴, 所以本文先基于三阶累积矩构造了一种图 像的不变性描述,最后再应用此方法对印 刷体汉字进行识别, 给出 实验结果。
() 1
1 . 2三阶累 积矩对高斯噪声的 抑制 对于随机变量X和随机变量Y ,如果它们是统计独立的,则存在: Cm(+ 卜 -3 ) -3 : u3 Y C ( + m X XC 而对于二维高斯噪声G来说, 则有Cm() ;故此对于加有高斯噪声的图像IaeG u, = G 0 mg , +
Fe_u 3 吻)F e j 叱) xj 十 Nw j Cm 俩, 二 Ia _ 3 m C 俩, X p2a 叱瑞) g u m 扩e(n} (
值仅相差 k倍,这一点可以通过归一化处理来消除。 Z 1 . 4不变性特征集的建立
() 3
F代表离散傅立叶变换。由 3 得出 式〔可以 如下结论: ) 对于相同的角频率,式(两端的棋 3 )
由于是在整个二维图像域内求和,所以 ()式的平移不变性是显而易见的。 1
.国家自 然科学基金重点项目 资助 《o6751) N . 00 93
梁 寒等:基于图像统计特性 的印刷体汉字识别方法
Ie I) Ie-g+ 吨《 工 m C3I 艺m (me 1 ,2 a u(2 a1 a工1 +) g mt = g) , I )
对此式两端在p,P 轴上进行积分,可 , : 得:
2 0 , 9 ( 3 j C - ' 4 ) 二
Iae 3 氏, 凡卜 m _ M 巩十 凡十 g C
m _ 3i 1 , 0t g mP十, 2 d kt I ] P d 丁 、(eg)P 丁Ieu[e0 2-)P 了 ‘一 It d2 丁aC(,0k00p2 A)8p ,)2 , ) 1 i } d
叭巴
I基于三阶累积矩的印刷体汉字识别
11图像的三阶累积矩 .
设 i日 ( ) Y nSx 代表原 e> 灰度图像, , (1 1 则 Ia (Y的 x e > -。 mgx) 三阶累 y ,. 1 0. . N e, 积矩的 表达 式定义 〔) 这里I(>)} az 如 1 式: ,xY> xY是两个 二 }iz I ) 独立的自 相关偏置矢量, 1 就是矢量(Y X) >
工程 图 学学报 ②. 将三阶累积矩的直角坐标形式为极坐标形式: ③. 对极轴进行两重积分, 并对两个极角进行离散化, 作离散 傅立叶变换, 利用离散 傅立叶变换后的幅值信息构造不变性特征集合L o 1 5印刷体汉字的 识别方法 首先要为某种字型的印刷体汉字建立相应的 L图谱库。 识别过程的第一步是在系统 的输入端将要识别的印刷体汉字采集成灰度图像,然后对该图像进行位置归一化和大小 归一化处理。归一化的目 的是尽量消除后续过程中空间变换所产生的误差,提高识别过 程的精度。 本文实验采用基于汉字边界链码的归 一化方法。最后将归一化后的灰度图像 变换为L 图谱,与库中的图 谱进行匹配,即可识别出相应的汉字。
困. 国. 困. 图 .
<a >
<> b
<G>
V卜
困.
< ) 亡
口. 园.
<> f <> g
图 1 实验果
参考文献 T tn, .Ga as GB Oj t t te sfao un h h o e ss i MK; n l, . e ad u c s ci sg e r r aas . i nd . bc n e r l i tn x ai i i r g d stt , E as tn Ptr a tii IE T n co o ae A 加。ad cn I ei ne 1 2 1 as s E c r a i n t n n n M h e l ec 9 , ai nl t g , 9 4
( : 370 77 - 5 )3
、 乙 勺 」
Kne.Cse a著, e tR al n 朱志刚等译数字图 nh tm 像处理 电 工业出 子 版社, 9, 2127 1 2L 2 3 9 - 唐文彬 郝重阳 张宇 基于三阶累 , , 一 积量的图 特征 新方法 功 像 提取 ..旁 周形李 , 拼
20 年 01
增刊
工 程 图 学 学 报
J OURN AL E OF NGI EE NG N RI GRAP CS HI
基于图像统计特性的印刷体汉字识别方法*
西 交 大 人 智 与 器 研 所 梁 寒 郑南宁 杨 军 安通学工能机人 究
摘 要 图 像的限 积矩走图 像的一个统计特性.本文利用图 像的三阶累 1E 为图 4A , 像 建立了一种不变 性描述集合,并证明了 它的不变性和对高斯噪声的抑制作用.由此提出 了 一种印 刷体汉字的识别方法.实 验结果表明三阶系 积矩除具有非常好的不变 性外,还
由此可得:
,w Cm ( 凡)kla _u 3t外姚十 V _u 3t 二2 g Cm ( + , 氏) e jB m e jB
() 2
式2 (把对极轴的比 ) 例变化转化到二维图像灰度信号的 取值上,可以 通过归一化处理消除 其不同。 接着极角取一定的量化等级,把极角量化为若干个离散值,再把式( 的两端按 2 ) 照 极角量化的离散值进行傅立叶变换, 根据二维离散信号 傅立叶变换的平移性质得:
则有
Cm( a + )C n Iae C m() m( ae u 3m g u 3m g G= m 3m g) u 3 = I e ( + G C I ) 这就是说利用图 像的 三阶累积矩可以 全消除图 完 像中的高 斯噪声。C 表示三 ( -3 阶累计矩) 3旋转不变性与缩放不变性的证明 若图像既有平移,又有旋转和比例变化,即: e (= ae I ) N wI I g( + )m M d L o o o s( ) s ) iB c( n 平移不变性可得到 N wI e(的三阶累积矩:N w Cm(, = a Cm( I I 。将 ) e_u 3,) mg u 3 i 2 I2 I e M , ) I M Nw m(, e一u 3t I U转化为极坐标形式,即;