五笔字型输入法(简称五笔)是王永民在1983年8月发明的一种汉字输入法。
因为发明人姓王,所以也称为“王码五笔”。
五笔字型完全依据笔画和字形特征对汉字进行编码,是典型的形码输入法。
五笔是目前中国以及一些东南亚国家如新加坡、马来西亚等国的最常用的汉字输入法之一。
五笔相对于拼音输入法具有重码率低的特点,熟练后可快速输入汉字。
五笔字型自1983年诞生以来,先后推出三个版本:86五笔、98五笔和新世纪五笔。
一、汉字的基本笔划与字型结构汉字是一种拼形文字,它们是由一些构字的基本单位按照一定的规律组合构成的相对独立的结构。
五笔字型将这些构成汉字的基本单位称为字根。
1.汉字的基本笔划将汉字的笔划分为五类:横、竖、撇、捺、折。
为了便于记忆,依次用1、2、3、4、5作为代号。
在汉字的具体形态结构中产生某些变形的笔划,作了如下特别的规定:①提笔“ˊ”视为横“一”。
如:“扌”、“现”中的提笔为横。
②点笔“丶”视为捺“乀”。
如:“寸”、“雨”中的点为捺。
③左竖钩为竖。
如:“判”字的末笔划应属于竖。
④转折均为折,即带转折、拐弯的笔划,都属于折。
2.汉字的三种字型五笔字型编码是把汉字拆分为字根,而字根又按一定的规律组成汉字,这种组字规律就称为汉字的字型。
汉字的字型分为三种:左右型、上下型、杂合型。
这三、种字型的代号分别是1、2、3。
1左右汉湖结封字根之间可有间距,总体左右排列2上下字莫花华字根之间可有间距,总体上下排列3杂合困凶本天字根之间不分上下左右浑然一体在五笔字型输入法中,对一些特殊汉字的字形作了如下规定:○1字根间是内外型的字型视为杂合型。
如:团、同、这、边、困、匝等汉字;○2字根间是包围与半包围的关系的字型为杂合型。
如:匡、床、巨、冈、屑等,但“见”为上下型。
○3字根间位置关系为“连”的字型属于杂合型,如:自、千、尺、勺、斗、头等。
○4字根交叉重叠构成的汉字字型为杂合型。
如:申、里、半、东、串、冉等。
○5下含“辶、廴”的字型为杂合型:如:迕、运、迈、迤、迅、退等。
3.汉字的基本字根1)字根的键盘布局根据基本字根的起笔的笔划,将字根分为五类,同一起笔的一类安排在键盘相连的区域,对应键盘上五个“区”:1区——横区,2区——竖区,3区——撇区,4区——捺区,5区——折区;每类又分五组,对应键盘上五个“位”,共25位,可用其区位号11、12、13、……53、54、55来表示,它们分布在键盘的A~V共25个键位上,每个键位上取一个字根作为其键名字根。
2)五笔字型字根的键位特征○1字根首笔笔划代号和所在的区号一致。
○2相当一部分字根的第二笔代号与其“位号”保持一致。
○3同一键位上的字根形态相近或有渊源。
○4部分字根的笔划数目与位号一致,如“三”。
另外,部分字根的键盘安排不符合上述几条原则,对这类字根的记忆一方面要借字根助记词来加以记忆,另一方面要特别用心去记住它,如:“丁、力、心、车、乃、匕、巴、马”等字。
3)字根助记词1区横起笔11 G王旁青头五一提12 F土士二干十寸雨13 D大三肆头古石厂14 S木丁西边要无女15 A工戈草头右框七2区竖起笔21 H目止具头卜虎皮22 J日曰两竖与虫依23 K口中两川三个竖24 L田框四车甲单底25 M山由贝骨下框里3区撇起笔31 T禾竹牛旁卧人立32 R白斤气头叉手提33 E月舟衣力豕豸臼34 W人八登祭风头几35 Q金夕犭儿包头鱼4区点起笔41 Y言文方点在四一42 U立带两点病门里43 I水边一族三点小44 O火变三态广二米45 P之字宝盖补示衣5区折起笔51 N已类左框心尸羽52 B子耳了也乃齿底53 V女刀九巡录无水54 C又巴甬矣马失蹄55 X幺母绞丝弓三匕4)汉字字根之间的位置关系汉字是由字根组成的,基本字根在组成汉字时,按照它们之间的位置关系可以分成单、散、连、交四种类型。
分析汉字的字型结构是为正确确定汉字的字型。
○1单:字根本身就单独构成一个汉字。
如:由、雨、竹、车、斤等。
○2散:构成汉字不止一个字根,且字根间保持一定距离,不连也不交。
如:“讲、肥、昌、张、吴”等。
○3连:五笔字型中字根相连不同于常规意义上的相连,特指以下两种情况:a.单笔划与某基本字根相连如:自(丿连目)、且(月连一)、尺(尸连丶)、下(一连卜)等。
b.带点结构如:勺、术、太、主、义、头、斗等。
另外:五笔字型中并不认为以下字字根相连。
如:足、充、首、左、页等;单笔划与基本字根间有明显距离者不认为相连。
如:旦、个、少、么。
○4交:指两个或多个字根交叉套迭构成汉字。
如:申(日交丨)、里(日交土)、夷(一、弓人相交)等。
二、单字输入单字的五笔字型编码口诀是:五笔字型均直观,依照笔顺把码编;键名汉字打四下,基本字根请照搬;一二三末取四码,顺序拆分大优先;不足四码要注意,交叉识别补后边。
注意:五笔字型的编码最多取四个,且都用小写字母。
1.编码流程图五笔字型将成千上万个汉字首先分成两大类:键面上有的“键面字”和键面上没有的“键外字”。
两类汉字的取码法按以下流程图分别取码。
2.编码输入五笔字型字根键盘上,本身是汉字的字根,叫“键面字”。
“键面字”分为三类,其输入法分别是:1)键名字的输入每一个键位上,最左上角的那个黑体字的码元,叫键名字,它是“一键之名”。
以G键为例,其左上角的字根“王”便是“键名字”或“键名”。
“键名字”的输入法是:把所在的键连打4下。
例如:1区1位键名:王11 11 11 11 (GGGG)3区2位键名:白32 32 32 32 (RRRR)4区5位键名:之45 45 45 45 (PPPP)5区3位键名:女53 53 53 53 (VVVV)在王码五笔字型中,键名码元有25个。
1区:王土大木工(对应键位:GFDSA)2区:目日口田山(对应键位:HJKLM)3区:禾白月人金(对应键位:TREWQ)4区:言立水火之(对应键位:YUIOP)5区:已子女又纟(对应键位:NBVCX)2)成字字根的输入键面上除键名外,凡本身是汉字的码元,叫“成字字根”或“成字码元”。
其输入法是:先打一下它所在的键(这一下俗称“报户口”),再打第一个、第二个,以及它的最末一个单笔画,最多4下,不足4下,补一个空格键。
例如:当输入十、七、九、二、几、儿、乃、刀……这一类只有2个笔画的字根时,“报户口”之后就只能有两个笔画了,不足4个码,笔画打完,要再补打一下“空格键”表示结束。
3)补码码元及其输入在字根表中,用方圆框“框住”的4个字根,是“补码码元”,它们作为字根参与编码时,像姓氏中的复姓诸葛、司马一样,要编2个码:“主码(即码元所在键位)+补码(规定取该码元最后的笔画结构)”。
如下表所示:注:表中带圆圈的笔画丶、氵等,是“补码”的笔画表示形式,作为一个符号,用以提示编码。
这4个补码码元中的“犭、礻、衤”等三个字根,本身也是汉字,这三个汉字的编码规则是,要先“报户口”(主码+补码)(已占用2个码)、再打该字的第1笔和最后1笔,共取4码。
即:注:键位上只有有的成字的字根可以打出来,而本身并不是汉字字根不能打出来。
3.“键外字”拆分法凡是“字根总表”上没有的汉字,都是“键外字”。
它们都是由几个码元(字根)组合而成的,我们也把这类字称为“多元字”。
对于“多元字”,只有一个字——拆分。
科学、实用又没有“二义性”的“拆”法,共有以下5项规则:1)书写顺序“合体字”拆成“字根”,一般情况下,要按照正确书写顺序进行。
例如:新:立木斤(顺序正确)立斤木(顺序错误)2)取大优先要“拆”出“笔画尽可能多”的“字根”。
要以“再添一个笔画,便不能构成为笔画更多的字根”为限度。
例如:估:亻古(正确)亻十口(错误,因为“口”可添到前面的“十”上,“凑”成更多笔画的字根“古”)注:“取大优先”,俗称“尽量往前凑”。
因为“向前凑”总是有限度的,要凑成字根表中笔画更多(更大)的一个!否则,便没有“章法”了,势必有许多种“拆法”甚至都要拆成单笔画!在汉字拆分中,这是一个最常用到的、保证拆分唯一性的基本原则。
3)兼顾直观在编码时,为了使码元特征明显易辨,有时就要暂时牺牲“书写顺序”和“取大优先”的原则,形成个别例外的情况。
例:“国”字按“书写顺序”,其码元应是:“冂王丶一”,但这样编码,不但有悖于该字的字源,也不能使码元“囗”直观易辨。
我们只好违背“书写顺序”,按“囗王丶”的顺序编码。
4)能连不交请看以下取码实例:天:一大(正确,“一”与“大”是相连接的关系,比较直观)二人(错误,“二”与“人”交叉在一起了)生:丿(正确,“丿”与“”是相连的,直观可取)土(错误,“丿”与“”是相连的,直观可取)一般来说,“连”比“交”更为“直观”,更能显现码元的笔画结构特征,更易于辨认。
5)能散不连有时候,一个汉字的几个码元,都不是单笔画,这些码元之间的关系,常常在“散”和“连”之间模棱两可。
如:矢:大,两个码元按“连”处理,“矢”便是杂合型(3型)字;两个码元如果按“散”处理,“矢”便是上下型(2型)字。
午:、十(两个字根,可视为散,也可当作连)这两个字都是既可“连”,又可“散”的关系。
当遇到这种既能“散”,又能“连”的情况时,我们规定:只要不是单笔画,一律按“能散不连”判别,即优先确定为“散”的关系。
4.四元及多元字1)“四元字”的编码规则键外字中的“四元字”,是指刚好由四个字根构成的字。
其拆分之后的取码方法是“依照书写顺序输入字根”。
例如:照:日刀口灬22 53 23 44J V K O重:丿一日土31 11 22 12T G J F2)“多元字”的取码规则——“前三末一”(一二三末)键外字中的“多元字”,是指由4个以上的字根构成的字。
这种字,不管实际上能“拆”成几个字根,我们只需“按书写顺序,取拆分结果的第一二三及最末一个字根”便可,俗称“一二三末”,共输入四个码。
例如:暨:彐厶匚儿日一53 54 15 11V C A G攀:木乂乂木大手14 32 32 32S R R R5.识别码汉字编码输入法的设计,要尽量减少重码,以提高输入的唯一性。
但从以下两种情形我们看到,仅仅输入字根,很容易产生重码:1)因构字的字根相同,字型不同引起重码:叭:口八(23 34 KW)只:口八(23 34 KW)这个例子说明,编码中丢失了字型信息,才产生了重码。
2)因几个字根同一键位引起重码:沐:氵木(43 14 IS)汀:氵丁(43 14 IS)洒:氵西(43 14 IS)这个例子说明,编码没有将“木、丁、西”加以区分,才产生了重码。
由以上两类例子可知,当遇到2-3个字根构成的汉字时,为了避免编码相同(重码),既有必要提取“字型信息”,又有必要从字根上“提取笔画特征信息”用于编码。
复合这两种信息的一个附加码,就是“末笔字型识别码”简称“识别码”,“识别码”只追加在由2-3个字根构成的汉字编码中(见下节)。