当前位置:文档之家› 笔顺连笔自由的联机手写汉字识别

笔顺连笔自由的联机手写汉字识别


(& 匹配的一个明显缺点是它的连笔自由是建立在笔顺不
自由的基础上的 " 虽然 ! 通过向字典里添加笔顺变种的模版 ! 可 在 一 定 程 度 上 解 决 笔 顺 自 由 的 问 题 !但 是 !会 带 来 字 典 过 于 庞 大 #匹 配 速 度 减 慢 等 问 题 !而 且 也 不 可 能 穷 尽 所 有 可 能 的 笔 顺 变化 " 因此 ! 必须加以改进才能用于笔顺自由的识别系统上 "
作者简介 $ 曹喆炯 ,/!EB& #" 硕士研究生 " 研究方向为手写汉字识别 ( 王永成 ,/!$!& #" 博士生导师 " 研究方向为智能信息处理 (
!!!!!!!!"
引言
文献标识码 )
键的解决连笔自由问题的整体 67 匹 配 方 法 % 解 决 笔 顺 自 由 问 题 的 笔 画 对 应 关 系 确 定 算 法 , 最 小 风 险 算 法 #" 并 同 现 有 的
I=’ JK62 G2D5AL 法
有 人 提 出 了 JK62 G2D5AL 方 法 )M+! 采 用 动 态 规 划 方 法 在 一 个 超 立 方 体 $LNE25AK62% 中 搜 索 输 入 汉 字 和 标 准 模 式 的 正 确 笔 画对应关系 ! 并同时计算出两者之间的匹配距离 " 设 " 为标准笔画数 !$ 为输入笔画数 " 搜索图 $ 也可看作是 一个超立方体 % 中每条从初始状态到终止状态的路径都代表了 一 种 可 能 的 笔 画 对 应 关 系 " 图 O 是 标 准 模 式 为 I 画 的 JK62
D5/ 1.0 1 $-& !0!$&%%!&#" ! 固定笔画对应关系 " 即固定距离最短
&
的笔画对应关系 ! $&3%" 跳转到 $’ %" 近邻优先算法的优点是速度快 ! 复杂度为 4 $"’%" 但是 ! 其 确定笔画对应关系的正确率不高 "
%& 匹配的算法复杂度为 ! $"’%!" 为序列点数 " 如果对其
笔画对应关系的算法 ! 最小风险算法 &" 并同现有的 89:; <;(=+2 法 % 匈牙利算法 % 近邻优先算法在识别速度 % 识别率等方 面作了比较 ’ 该方法克服了现有的一些方法的不足 " 能高效地同时解决笔顺自由和连笔自由问题 " 而且由于主要采用全 局特征进行识别 " 对形变和噪音具有很强适应能力 ( 另外 " 字典可以通过聚类自动生成 ( 另外还制作了原型 系 统 " 在 对
全世界已有近四分之一的人在使用汉字 " 近 " C## 万 人 在
89:; <;(=+2 法 % 匈牙利算法 % 近邻优先算法进行比较分析 (
"
连笔自由的整体 67 匹配方法
每一次从落笔到提笔的可见线段序列称为 ,5 线 " 从前一
次的提笔到下一次的落笔所经过的不可见线段称为 ,KK 线 ( 在 笔顺固定的情况下 " 随着 连 笔 的 不 同 ",5 线 和 ,KK 线 的 排 列 组 合也不同 ( 因此 " 如果仅匹配 ,5 线 " 无法解决连笔自由的问题 ( 可将输入汉字所有的 ,5 线和 ,KK 线按笔顺相连 " 去除冗余 点 " 抽取特征点 " 生成新的序列 " 记为 !Z[!",# "$#\##"#%] ( 字典 中的标准模式也按同样方法生成 " 记为 &Z[’(,# "$#\##(#)] ( ! 和 & 的 匹 配 距 离 为 * ,! "& #" 可 用 67 ,615(’)+ 7=,M=(’’)5M # 匹配的方法计算 ^C_( 即通过如下的 67 迭 代 式 计 算 出 一 条 最 佳 的输入序列和标准序列的匹配路径 " 请参见图 / ( * * ,+""’(#Z’)5[* ,+",/"’(F/#‘" - ,+""’(#"* ,+""’(&/#a
搜索范围沿对角线加以限制 ! 可以使算法复杂度降为 ! $#"%! 这样同时避免了极端的伸缩匹配 " 另 外 ! 在 (& 匹 配 之 前 可 以 先 用 快 速 的 线 性 匹 配 $ 复 杂 度 为 ! $" %% 进 行 处 理 ! 再 对 匹 配 距 离最小的前 " 个字典标准模式进行 (& 匹 配 ! 这 样 可 以 在 保 证 精度的前提下大幅提高识别速度 )*+"
@A4+1B(+$ H(=M;J)5M K=;; @J=,P; ,=L;= (5L +,55;+J),5 I=,:*;’@ ,5 ,5*)5; 2(5LQ=)JJ;5 82)5;@; +2(=(+J;= =;+,M5)J),5"Q; I=,I,@; R)5)’9’ S)@P T*M,=)J2’ !RST & K,= ,IJ)’(* @J=,P; +,==;@I,5L;5+; L;J;=’)5(J),5 :(@;L ,5 2,*)@J)+ 67 ’(J+2)5M ’;J2,L "(5L +,’I(=; RST Q)J2 89:; <;(=+2"G95M(=)(5 T*M,=)J2’ (5L U;(=;@J V)=@J T*M,=)J2’ )5 J2; (@I;+J@ ,K =;+,M5)J),5 @I;;L (5L =(J;3H2)@ ’;J2,L Q)** 5,J ,5*1 @,*W; J2; I=,:*;’@ ,K K=;; @J=,P; ,=L;= (5L +,55;+J),5 @)’9*J(5;,9@*1 :9J (*@, @2,Q ( 2)M2 J,*;=(5+; K,= L;K,=’(J),5 (5L 5,)@;3X5 (LL)J),5"J2; L)+J),5(=1 +(5 :; M;5;=(J;L (9J,’(J)+(**13R;(5Q2)*; ( I=,J,J1I; @1@J;’ )@ ’(L; (5L 2)M2 =;+,M5)J),5 I;=K,=’(5+; )@ I=,W;L Q2)*; J;@J)5M >?"$/" +2(=(+J;= @;J3H2; (W;=(M; =;+,M5)J),5 J)’; )@ #3$@"J2; =(J; ,K @J=,P; +,==;@I,5L;5+; L;J;=’)5(J),5 =;(+2;@ !!3/Y (5L J2; =;+,M5)J),5 =(J; 2)J@ !B4CA4 C’D0)1E4 $ ,5*)5; 82)5;@; +2(=(+J;= =;+,M5)J),5 "K=;; @J=,P; ,=L;= "K=;; @J=,P; +,55;+J),5
(& 匹配方法进行识别 ! 就可以同时解决笔顺自由和连笔自由
的问题 " 而确定输入汉字和标准模式的笔画对应关系问题其实是 一 个 指 派 问 题 $,--./01203 45"6721 %" 设 !"!$89%&’: 为 输 入 笔 画 和标准模式笔画之间的匹配距离矩阵 !%&’ 为输入的第 & 笔 和 标
>?"$/" 字符集进行的测试中 " 取得了较好的效果 $ 在笔顺 % 连笔完全自由的情况下 " 单汉字平均识别时间小于 #4$@ " 确定
笔画对应关系的正确率达 !!4/A " 识别率达 !B4CA ( 关键词 联机汉字识别 手写体汉字识别 笔顺自由 连笔自由 中图分类号 G/"B4E)H7$!
文章编号 %""!&’((%& !!""# &!!&#/DEF#$
!"#$"% &’()*"$+$)" ), -."/01$++’" 23$"’4% 23.1.5+’1 61’’ ,1)7 8+1)9’ :1/’1 ."/ ;)""’(+$)"
2.) <3’=$)"* >."* ?)"*(3’"* !6;I(=J’;5J ,K 8,’I9J;= <+);5+; (5L %5M)5;;=)5M "<NHO"<2(5M2() "###$#&
!"
/
学习汉语 " 说明汉语正在走向世界 ( 但至少对中国人来说 " 除了 语音输入汉字之外 " 最方便的莫过于手写 ( 于是人们一直热衷 于手写输入法的研究 ( 由于手写汉字的自由度太大 " 识别难度 很大 ( 因此 " 人们希望联机识别先行突破 ( 因联机手写时 " 汉字 的笔向 + 笔顺信息可被记载下来以帮助识别 ( 但写字人不一定 完全按规范的笔向 % 笔顺写字 " 更常常喜欢连笔 ( 这就使笔顺自 由 % 连笔自由成了联机识别中的两大难点 ( 从目前国内外的研 究情况来看 " 现有的一些方法在一定程度上解决了笔顺自由或 连 笔 自 由 问 题 "但 是 "既 能 很 好 地 适 应 手 写 汉 字 笔 顺 变 化 又 能 适应笔画数变化的识别方法还有待研究 ( 我们在嵌入式联机手写汉字识别引擎的研发中 " 提出了一 种能同时解决笔顺自由和连笔自由问题 " 而且对形变和噪音具 有很强适应能力的识别方法 ( 并制作了原型系统 " 在对 >?"$/" 字符集进行的测试中 " 取得了较好的效果 ( 本文将介绍其中关
相关主题