嵌入式中文输入法解决方案
(4)笔画汉字编码表。根据不同笔画组 合匹配出所有可能的汉字编码.匹配列表 输出时需要考虑到汉字排列的优先级。
(5)联想词组编码表。该编码表提供所 有常用汉字词组的编码组合列表,另外还 要提供声母组合和前2个笔划组合这两种 索引方法.以方便快速检索词组。
(6)汉字优先级编码表。对常用的I 500 个左右的汉字根据使用频率由高到低进行 排列,构造相应的编码表,方便匹配汉字时 根据此编码表依次取字。
(2)根据拼音组合获取汉字功能- 该编码表由拼音编码(这里拼音编码 与前面的拼音编码是一致的,只是以16进 制表示而已)、拼音.汉字列表(按字拼排 列),示例如下t 拼音编码拼音键码汉字列表 ox0040 ba 22把.八,吧,爸,拔。 罢.跋。巴。……
洼:设计时要将s和sh等发音容错考虑
进去。
(3)根据输入数字键获取部首功能·
的算法提供数据支持,把输入法算法引擎 部分Eu和数据部分DU分开也是为了便于 输入法在具有不同存储结构和操作系统的 平台上移植。Du部分根据现有引擎的要求 可大致分为拼音组合分类表、拼以说明:
(I)拼音组合分类表。该分类表主要根 据数字键2,3。4,5,6,7,8,9的不同组合匹配 出所有可能的拼音组合列表,如数字键组 合2,3.-f以匹配出ce,ben.bei,ceng等拼音.
词组中的所有字前1个(或2个)笔画+最后 一个字全笔画,以数字。或长按笔画键间隔.数 字0或长按笔画输入后就开始出现词组t
3)拼笔和笔划词组编码表 词组编码表是快速、正确获取相应词 组的关键。该编码表的结构由词组编号,词 组汉字列表、拼笔词组元素表,笔画词组元 素表、词频(0~255)构成,示例如下: 编号词组列表拼笔元素表笔画 元素表词频 0x01 A0一气呵成9742013554
说明:l、2、3、4、5分别代表横竖擞点 折,实际设计时可将最后一个字的笔画单 独列出来给拼笔字组和笔画词组共用。以 节约空间.
4 UI部分设计 UI部分第一版本的设计基于smart
phone平台上实现,编程语言确定为EVC4. 0。输入法类型以长按·键切换ll,2,3,4,5 键分别对应笔画横竖撇点折-2、3、4、5、6、 7.8、9S1分别对应英文字母(或拼音)abc。 clef。ghi,jⅪ。mno.pqrs.tuv,wxyz。
分别为UI、EU和DU,其中UI单元是和用户 界面交互的部分,可以根据不同手机平台 进行相关界面参数调整和移植;EU和DU部 分为正确获得输入法相关数据提供了底层 数据和函数接口方面的支持,EU作为输入 法的核心单元一般需要封装为Lib库。这样 可以保护知识产权。
2 DU部分设计 DU部分主要是为输入法引擎EU部分
(1)根据输入数字键获取拼音组合功能· 该功能主要依据DU部分的第一张表 来实现.以下给出拼音组合种类及对应键 码组台的示例,比如输人24健的时候就会 输出ai,bi.bin等拼音组合。
a,ao,
2。26。
为了节约空间,对上述拼音组合按双 字节数进行编码,即16bit,前12个为拼音编 码,13~14bit为音调,最后2个bit为系统保 留且默认为OO.
集》.中华人民共和国国家标准总局 1981年5月
86
科技创新导报Science and Technology Innovation Herald
万方数据
堡婴鲨竺坐业::业::竺 工程技术 嵌入式中文输入法解决方案
黄德强 丁伟 (解放军理工大学理学院电子信息基础教研宣 江苏南京 2'”0”
擒要:当前主流的嵌入式中文督八法一麓耒用盼是嗣外的并凌方案.如eZI.T9、iTap乎,■产簟八汝目酋置蒜乞有|I多种,但由于
用户使用习惯和技术不成南f屎因.很少有真正移植到手机上的,本文蛤出7一种中文簟八法杆决方童.井已^功特其移植纠一苁t
3 EU部分设计 EU部分是实现输入法各种功能的核
心,是根据用户输入的键值和参数,查找 DU部分的备类码表,然后获取相应查询结 果提供给UI层进行处理.为了方便以后在 不同的嵌入式平台上移植,拟采用c语言实
现其全部算法。为了减少UI编程对引擎功 能的调用复杂度,该部分对外只提供一个 算法接口,该接口既可以实现智能英文输 入·也可以实现双字节字符输入。内部调用 的各类算法接口对UI层屏蔽,实现方莹和 具体编程有关,不在这里具体描述。可以将 EU部分划分为以下功能模块:
镌手机上。但由于时阿仓促.还有掘多地方迸有来得厦进一步完●和走进。希置在3G时戎捌来之际.■产中文■入法可以真正太妃摸进八
3G和其它嵌入式垮葛赣域。
关键词:嵌入式廿人诲 3G手机 智鼍匈扭蕾人
中圈分类号:T P 3
文献标识码:A
文章编号:l●7l—098x(2¨9)oT(t)一008B—Ol
1系统结构 下图将输入法划分为3个不同的层次,
l,2、3、4、5分别代表横竖撇点折,该编
码表由部首编号、部首、键码组合等构成.
示例如下:
部首编码部首键码
0x1061
¨
52
(4)根据笔画和部首组合获取汉字功能, 该编码表由汉字、笔画部首列表。考虑 到汉字笔画组合的多样性。该编码表以汉 字笔划为索引,并按顺序排列,示例如下: 笔画部首列表 汉字 l— 12丁
(5)根据当前输入的汉字编码获取联想
汉字功能t
、
(6)词组输入功能
1)拼音+笔画输入词组
词组中的所有字首字母(或声母)+第一 个字垒笔画,以数字0或长按笔画键闻隔,数
字0或长按笔画输人后就开始出现词组· 2)笔画输入词组
参考文献 【1】《汉字内码扩展规范》.中华人民共和国
全国信息技术标准化技术委员会1995 年12月 【2】《信息交换用汉字编码字符集 基本
(2)拼音汉字编码表。该编码表主要根据 拼音组合匹配出对应的汉字编码列表,必要 时需要把一些方言的发音考虑进去,以提高 汉字输入效率。如拼音组合bei配的汉字 有“被”。。北”,。背”等.但根据匹配列表产生 输出时需要考虑到汉字排列的优先级。
(3)笔画组合分类表.五个最基本笔匾 的定义分别为横竖撇点折,该分类表主要 是根据输入的五个数字键(对应五个最基 本笔划)若干种组合,进而列出该组合下所 有可能的复杂笔画组合。
输入法类型分为拼音、笔画.基本英 文、智能英文、数字、符号五个基本类型。其 中拼音输入法包含拼笔词组输入法,通过 长按最后一个宇首笔或短按间隔符0来实 现自动切换。笔画输入法包含笔画词组输 入法。也是通过长按最后一个字首笔或短 按间隔符0来实现自动切换.
S结语 本中文输入法的特点就是汉字联想和
词组输入功能强,这个比较符合汉字输入 的习惯和特点,一般用户不需要经过特别 训练即可快速掌握其输入方法。由于时间 仓促,笔者只对基本的输入功能进行了验 证,拼音、笔划和词组输入已基本可用,但 还需要进一步测试和验证.另外需要说明 的是,本文中用到的检索算法均为2分法, 还有进一步优化的空间.