五笔字型汉字输入技术
一、简介
1、优点
(1)符合表意文字(2)重码率低(3)不识读汉字输入
(4)字词兼容(5)编码简单(6)输入速度快(每个字最多四码)
2、原理
汉字是表意文字,每个字都有特定的形状和构造,汉字汉型是汉字属性中的重要特征。
一个完整的汉字并非笔画的线性排列,也非笔画的任意堆积,而是由若干笔画复合、交叉、连接所形成的相对不变的结构—字根组成了汉字。
汉字由字根组成,字根由笔画组成,笔画、字根、整字是构成汉字的三个层次。
由于笔画太多(约3905个),不宜做为汉字输入的基本单位,而字根(有点类似偏旁部首)做为汉字输入的基本单位却十分符合用户的意图。
这种拼形组字(词)的输入法技术就是五笔字型计算机汉字输入技术。
3、概念
1)笔画:在书写汉字时,不间断地一次连续写成的线条。
注意:(1)笔画是组成汉字的基本部件。
(2)“书写”的含义
I.按楷体字
II.按国标字
III.按简体字
按照笔画的书写走向(忽略书写的轻重、长短),分为:横、竖、撇、捺、折,并分别给予一个代号:1、2、3、4、5。
如下表:
2)字根:
(1)概念:由若干笔画复合、连接或交叉形成的具有一定独立性、相对不
变的结构体。
共有125种左右的字根
(2)特点:组字能力强、实用频率高、重码少、二义性小
(3)分类:按照起始笔画分为五类:横类、竖类、撇类、捺类、折类
(4)组成字根的各个笔画之间的关系:
I.单:一个基本笔画就是一个字根。
例:一、丨
II.交:组成字根的各个笔画之间是交叉的。
例:十、女
III.连:组成字根的各个笔画之间是相连的。
例:人、上
IV.散:组成字根的各个笔画之间存在一定间距。
例:二、八
二、字根在键盘上的分布
1、五笔字型键盘字根总图
1)字根分类、键盘分区、字根码
(1)字根分类:前面说过,字根按照起笔分为五类(区),又在每类中按照次笔和字根的特征分为五小类(位),这样字根就分为了5*5=25类,(2)键盘分区:把键盘上的25个字母键(除去Z键)分为五个区,分别为横区(1)、竖区(2)、撇区(3)、捺区(4)、折区(5),每区由五个键组
成(又称为位,分别分为1、2、3、4、5位),分别放置相应的一类字根,
由区号和位号构成了键盘某一个键的字根号。
(3)字根号:横区:G(11)F(12)D(13)S(14)A(14)
竖区:H(21)J(22)K(23)L(24)M(25)
撇区:T(31)R(32)E(33)W(34)Q(35)
捺区:Y(41)U(42)I(43)O(44)P(45)
折区:N(51)B(52)V(53)C(54)X(55)
2)字根键盘分布特点和要领
(1)一般情况下,字根首笔笔画代号与其区号一致。
(2)大部分字根的次笔画代号与其位号一致。
(3)复合笔画字根在其所在区的复合数位键上。
(4)部分字根与其键名字根形态相似
(5)部分特例:力(声母与L相同)、心(最长的一笔是拆)、车(繁体与“田”
“甲”相似)、几(与下相似)
2、键名字
从每个区中每个位上选出使用频率高且能代表本位键特征的字根(共25个),命名为对应键的键名字,分别为:
1区:王(G)土(F)大(D)木(S)工(A)
2区:目(H)日(J)口(K)田(L)山(M)
3区:禾(T)白(R)月(E)人(W)金(Q)
4区:言(Y)立(U)水(I)火(O)之(P)
5区:已(N)子(B)女(V)又(C)纟(X)
3、成字字根
除了键名字以外,这100多个字根中有近五分之四(约97个)的本身就是汉字,称之为成字字根。
三、汉字输入流程
五笔字型编码最多为四码,编码全部用小写。
1、键名字根输入法
连击该键四下,(注意:“言”字为三下)
2、成字字根输入法
按如下公式:报户口+首笔画+次笔画+末笔画
3、单笔画输入法
连击该键两下加两个LL(小写)
4、合成字输入法
1)汉字的结构(组成汉字的各个字根之间的关系)
(1)单:一个基本字根本身就是一个汉字
(2)交:组成汉字的各个字根之间是交叉的。
(3)连:由一个单笔画和一个基本字根相连或带孤立点的
(4)散:组成汉字的各个字根之间具有一定间距或两个基本字根之间相连。
2)拆分原则
对于单结构的汉字可由上面的方法进行拆分,对于散结构有汉字字根也容易识别。
但对于连交结构汉字(例:千、年)的字根却不易识别,我们可按以下拆分原则找出汉字的字根。
(1)按序拆分:按照汉字的书写顺序拆分
(2)取大优分:①拆分出的字根最少②前面的字根笔画尽量多。
(3)兼顾直观:对于带框框的和部分汉字,为了照顾字根的完整性,有时要违背“按序拆分”和“取大优先”原则。
例:困、自。
(4)能连不交:当一个汉字既能拆分成“相交结构”的几个字根,又能拆分成“相连结构”的几个字根时,规定“相连结构”拆分法是正确的。
(5)能散不连:当一个汉字既能拆分成“相连结构”的几个字根,又能拆分成“相散结构”的几个字根时,规定“相散结构”拆分法是正确的。
(6)笔画勿断:拆分时不要断开一个完整的笔画。
3)取码原则
汉字的字根找出来,要按下面的取码原则取出正确的汉字编码。
(1)多于四根取一、二、三、末四码
(2)正好四根依次取
(3)少于四根加末笔字型交叉识别码
(4)能用简码用简码
4)识别原则
(1)汉字字型
I.左右型:代号为1
II.上下型:代号为2
III.杂合型:代号为3
(2)末笔字型识别交叉码
取汉字的末笔代号和字型代号组成末笔字型交叉识别码。
(3)取识别码的规定
I.末笔字型交叉识别码的作用就是为分消除重码。
II.只有字根表以外且不足四个字根的汉字才有末笔字型交叉识别码。
III.如果一个汉字别识别后仍不足四码的最后一码别空格。
IV.为了有足够的区分能力,特规定:
●带“框框囗”和带“走之辶”的规定“末笔”为被框框和走之包围
部分的末笔为“末笔”。
●字根“力”“刀”“九”“匕”,末笔为拆。
●“我”“或”“成”等类汉字遵从“从上到下”的原则,末笔为撇。
●单独点为连结构,杂合型,“义”先点后叉。
●以下字为杂合型:司、床、办、皮、处、疗、后、式、压、龙、反、
习、可;以下字为上下型:左、右、有、死、看、布、灰、者。
四、汉字的快速输入
1、简码输入
1)一级简码
单击该键一下加空格。
有如下25个高频使用汉字。
一地在要工上是中国同和的有人我主产不为这民了发以经
2)二级简码
取全码的前二码加空格。
有588个常用汉字。
3)三级间码
取全码的前三码加空格。
2、词组输入
词组输入和单字输入统一、词组和单可同取四码、可混合输入,不需换档。
1)二字词组
取每个字的前二码。
2)三字词组
取前二个字的第一码,第三个字的前二码。
3)四字词组
取每个字的第一码。
4)多字词组
取每一、二、三、末四个字的第一码。
3、万能键(Z)
可代替任意字根编码。
★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆★☆说明:此为内部资料
使用班级:2004级本科1-10班
编辑整理:王金铭。