86五笔字型键盘字根图12五笔字型编码的汉字拆分原则由基本字根组成一个汉字,这是一个正过程,这个过程对我们没有什么影响。
我们学习的是逆过程。
即将一个完整的汉字拆分成若干个基本字根。
五笔字型编码方案拆字的基本原则可概括为下面几种情况:一、单字根汉字这种汉字就是我们所说的成字字根。
由于这种汉字只有一个基本字根,所以不用再拆,这类汉字的拆分有单独规定,在下一节中会详细讲述。
二、散结构的汉字由于组成这种汉字的字根之间没有什么关联。
各部分相对独立,所以拆分时只需要简单地将这些字根孤立出来就行,这类汉字的拆分也相对简单。
如"只"的字根是"口"和"八"。
"数",这个字的字根是"米" "女" "文"。
三、交叉结构或交连混合结构的汉字这类汉字如果一个汉字只是由单笔画与基本字根相连组成,哪么就可以将这个汉字直接拆份成单笔画和基本字根即可,如:"上"可以拆分为"卜""一","太"可以分为"大"和"、"。
四、复杂结构的汉字除此之外,更多的的汉字是哪些结构较复杂的,这些汉字由于组成字根之间有相连,包含或嵌套的关系,没有很明显的界限,对于初学者来说,难以拆分。
对这样的汉字,拆分时要按以下原则进行,也就是"取大优先"、"兼顾直观"、"能连不交"、"能散不连"。
书写顺序:拆分"合体字"时,一定要按照正确的书写顺序进行。
例:"新"只能拆成"立、木、斤",不能拆成"立、斤、木" "中"只能拆成"口、丨",不能拆成"丨、口";"夷"只能拆成"一、弓、人",不能拆成"大、弓"。
取大优先:也叫做"优先取大"。
按书写顺序拆分汉字时,应以"再添一个笔画便不能成其为字根"为限,每次都拆取一个"尽可能大"的,即尽可能笔画多的字根。
例1:"世"字:第一种拆法:一、凵、乙(误)第二种拆法:廿、乙(正)显然,前者是错误的,因为其第二个码元"凵",完全可以向前"凑"到"一"上,形成一个"更大"的已知码元"廿"。
例2:"制"字:第一种拆法:、一、冂、丨、刂(误)第二种拆法:、冂、丨、刂(正)同样,第一"凑成"更大"一点的码元""。
总之,"取大优先",俗称"尽量往前凑",是一个在汉字拆分中最常用到的基本原则。
至于什么才算"大","大"到什么程度才到"边",这要等熟悉了字根总表,便不会出错误了,所以熟悉字根表非常关键。
兼顾直观:在拆分汉字时,为了照顾汉字码元的完整性,有时不得不暂且牺牲一下"书写顺序"和"取大优先"的原则,形成个别例外的情况。
例1:国:按"书写顺序"应拆成:"冂、王、丶、一",但这样便破坏了汉字构造的直观性,故只好违背"书写顺序",拆作"囗、王、丶"了。
例2:自:按"取大优先"应拆成:"亻、乙、三",但这样拆,不仅不直观,而且也有悖于"自"字的字源(这个字的字源是"一个手指指着鼻子")故只能拆作"丿、目",这叫做"兼顾直观"。
能连不交:请看以下拆分实例:于:一十(二者是相连的)、二丨(二者是相交的)丑:乙土(二者是相连的)、刀二(二者是相交的)。
当一个字既可拆成相连的几个部分,也可拆成相交的几个部分时,我们认为"相连"的拆法是正确的。
因为一般来说,"连"比"交"更为"直观"。
能散不连:笔画和字根之间,字根与字根之间的关系,可以分为"散"、"连"和"交"的三种关系。
如:倡:三个字根之间是"散"的关系;自:首笔"丿"与"目"之间是"连"的关系;夷:"一"、"弓"与"人"是"交"的关系。
字根之间的关系,决定了汉字的字型(上下、左右、杂合)。
1)、几个字根都"交""连"在一起的,如"夷"、"丙"等,便肯定是"杂合型",属于"3"型字,不会有争议。
而散根结构必定是"1"型或"2"型字。
2)、值得注意的是,有时候一个汉字被拆成的几个部分都是复笔字根(不是单笔画),它们之间的关系,在"散"和"连"之间模棱两可。
如:占:卜口两者按"连"处理,便是杂合型(3型)。
两者按"散"处理,便是上下型(2型正确)。
严:一厂后两者按"连"处理,便是杂合型(3型)后两者按"散"处理,便是上下型(2型正确)。
当遇到这种既能"散",又能"连"的情况时.我们规定:只要不是单笔画,一律按"能散不连"判别之。
因此,以上两例中的"占"和"严",都被认为是"上下型"字(2型)。
3)、作为以上这些规定,是为了保证编码体系的严整性。
实际上,用得上后三条规定的字只是极少数。
五、五笔字型单字编码规则一、五笔字型编码歌诀掌握汉字的编码规则,熟悉每个汉字的编码,是五笔字型输入的基础,下面提供的单个字的五笔字型编码规则歌忘记诀:五笔字型均直观,依照笔顺把码编;键名汉字打四下,基本字根请照搬;一二三末取四码,顺序拆分大优先;不足四码要注意,交叉识别补后边。
从这歌诀就可以看出五笔字型编码规则的大致面貌,同时口诀也概括了五笔字型拆字取码的五项原则:1、从形取其顺序按书写规则,即从左到右、从上到下、从外到内;2、以130多个字根为基本单位;3、对于字根数超过四个的汉字,按一二三末字根的顺序,最多只取四码;4、单体结构拆分取大优先;5、末笔与字型交叉识别。
下图是五笔字型编码流程图,以方便读者了解整个编码方案的概貌:二、键名汉字的编码规则五笔字型中规定的键名汉字共有25个,"王土大木工目日口田山禾白月人金言立水火之已子女又纟"25个键名汉字与25个字母键相应,这些字的编码相当简单,它们的编码就是4个所在字母键字母,如:"言"字的编码为"YYYY","纟"字的编码为"XXXX",等等。
输入键名汉字时,只要连续击四次该字所在的字母键即可。
三、成字字根的编码规则在五笔字型字根键盘的每个字母键上,除了一个键名字根外,还有一些其它类型的字根。
有些字根其本身就是一个汉字,这样的字根称为成字字根。
成字字根的编码是按下面公式进行的:键名码+首笔码+次笔码+末笔码当成字字根仅为两笔时,编码只有三码,公式为:键名码+首笔码+末笔码例如:"石",字根所在的键为D,第一笔划为 "横"的编码是G,第二笔为 "撇"的编码是T键,末笔"横"的编码也是G键,所以这个字的五笔编码就是DGTG。
再比如"虫"字,这个字根是在J键,第一笔是竖H,第二笔是折N,最末一笔是捺(在五笔里"点"做为"捺")Y,所以"虫"的五笔编码就是JHNY。
四、键外字的编码规则国标GB2312-80中,上述的键名和成字字根这样的键面字总共才有一百多个,绝大部分汉字都不是成字字根,这些才是我们在使用当中用得最多的。
五笔字型汉字编码主要是键外字的编码,编码可以分为两类,纯字根码和识别码。
如果一个汉字的字根是四个或超过四个,就用前三后一总共四个字根码组成编码。
不足四个字根的汉字需补一个字型结构识别码,以增加区分汉字的信息量。
1、字根码每个字根都分派在一个字母键上,其所在键上的英文就是该字根的"字根码"。
凡含四个或超过四个字根的汉字,取其第一、二、三、末四个字根码组成键外字的输入编码。
第一字根编码+第二字根编码+第三字根编码+最末一个字根编码这里一、二、三、末应按正常书写顺序,先左后右,先上后下,先外后内。
2、交叉识别码一个字的字根不足四个时,依次击入字根码后,最后需要补一个识别码。
为什么需要这个识别码呢,这里可以举例说明:如"沐"和"汀"字,这两个字都是由两个字根组成的,且这两个字的字根码都是IS。
虽然也可以让输入者选择的方式来确定到底需要输入哪一个字,但这对汉字输入速度极为不利,重码率要越低越好,所以五笔编码中才引入了识别码这个概念来对这类汉字进行区分。
识别码是用该汉字最后一个笔画和字型结构信息来确定的,具体规则如下表:从上表可以看出,识别码的确定分两个步骤,第一步根据最后一笔确定是在哪个区,第二步再以该汉字的字型结构来确定在哪一位,然后就能得到具体识码了。
例:"旮"字,这个字同旭一样字根只有两个,字根码为VJ,但字型不同,可以通过识别码来区分,"旮"最末笔是横,在一区,是上下结构,所以是在第二位,即F,所以"旮"的五笔编码就是VJF。
再如"汀"字,最末一笔是左竖钩,在五笔里为竖,在第二区,这个字是左右型结构,所以在第一位,即H,所以"汀"的五笔编码就是ISH。