当前位置:
文档之家› 古文字的字形整理 及其编码的原则
古文字的字形整理 及其编码的原则
• 创建一种指称型历史字体的字库,要求字形准 和全,一般采用从古文字实用文本中选择字形, 即使重新写字模,也要以选择好的字形为依据。 字形选择必须整理文本用字。
古文字字形整理和编码的单位
• 字系:同时代、同形制全部的字符群
• 字组:同一字系中记词职能相同(音义相同) 的多个字形的群体
• 字种:记词职能相同、结构(构意)相同的多 个字形的群体。同一字组中不同的字种互为异 构字
• 字样:同一字种中仅仅写法不同的个体。同一 字种中不同的字样互为异写字
指称型古文字字库搜集字种,全原形古文字 字库搜集字样。古文字编码应当以字种为单位
为编码进行的古文字字形整理
古文字字形整理的主要任务是认同与优选:
• 分别已识字与未识字
• 对已识字的职能认同(类聚字组),在同一 字组的字种在排序时应当邻近,并优选领字 字种,置于前列,作为本组字的信息代称
• 对字种的形体认同(类聚字样),优选主形, 作为本字种的信息代称,同一字样应视为一 个字,坚持同码
• 指称型古文字字库只保留主形字样,全原形 古文字字库字组中的其他字样与主形认同。
“酉”的甲骨文异形字样
一般应选择上面列举字形的6或7作主形
“齿”的甲骨文异形字样
齒:
一般应选择上面列举字形的8作主形
古文字不能作为某种字体与现代汉字对应
职能与现代汉字不对应
辖——暴爆曝
蟯——景影
闲——窒钟—— 化——(变)化、(教)化不同形
• 形体与现代汉字不对应
癝眤堡狈辫
• 字样繁多难以穷尽
“酉”在甲文中的字样约有 24 种
• 未识字只有字形而无音义
古文字字库的两种类型
• 古文字字库可以有两种类型:(1)指称型古 文字字库。这种字库的功用,是在创建某些文 本时,出于讲述或引用的需要,在行文中提到 某个或某几个古文字时,能够把这些个古文字 插到文本里去。(2)全原形古文字字库。这 种字库的最高要求是要在计算机里再现一切现 有的古文字实用文本中的字样。后一种要以前 一种为基础。
• 小篆结构图式共146种,再次归纳为基本图 式12种,可以套用。
• 重码率:甲骨文经过处理可降低到1.9,但每 码带动字样数平均7.4个,最多39个。
古文字字形部件的拆分与归纳
• 已识字的拆分和归纳均采用依理操作 • 未识字的拆分和归纳均采用依形操作 • 甲骨文已识字基础部件拆分归纳为基础构件
后,能覆盖未识字构件的89·43%
现有的GB13000.1字符集不可能与已经出土的古 文字一一对应,即将出台的超大字符集仍然不够与各 种形制和各时代的古文字对应。古文字的调出只有依 靠自己的编码,要想作好编码,字形的整理必须先行。 新出土的古文字加上原有的古文字,有些已经编成字 表形式或加上解释编成诂林形式,但是,它们的字形 整理还不能符合信息处理的需要。更达不到国际化的 要求。
• 他不需要通篇连续采用来创建长篇文本,在 快速性上可以放宽;因而在码长(码元可以 多一些)的设计上可以不必过于拘泥。
• 古文字信息量大、形体的参照系多,为其设 计形码的区别因素多于现代汉字。
古文字编码可使用的区别因素
• 已识字与未识字首先分开。后者无法设置音 码,应考虑基础部件的作用。
• 基础构件中成字构件可以采用读音(一般与 《说文》小篆认同来确定);非字构件只能 利用线条类型。例如:小篆可分:横、竖、 左斜、右斜、弧、曲、折、封八类。
• 新出土的古文字,不仅使汉字史的研究发生了很大的变化,也 不仅对人类学、历史学、文化学、古地理学、历史语言学…… 起了新的推动作用,而且由于这部分文字所具有的十分典型的 表意文字特点,以及所含有的文化内涵,被不断引进文化教育 领域,迅速走向普及,成为世界各国了解中国文化的一个重要 窗口,因此,已经在印刷品和影视传媒中频频出现。我们统计 了2000年国内的8种重要的报纸和在国际上销量排前10位的普 及刊物,其中的文章已经采用或需要采用古文字原形的地方有 561处,涉及334个字形。
谢谢!
古文字的字形整理 及其编码的原则
王宁 北京师范大学民俗典籍文字研究中心
古文字进入计算机的必要性
• 80年代以来中国内地大量出土的文字,一部分已经进入今文字 阶段,另一部分属于古文字。这一部分古4文字由于是考古发掘 的成果,历史时代确定,无需辨伪,充实了从宋代就开始搜集 的金石文字,掀起了世界性的中国古文字热。
• 古文字进入计算机已经势在必行,科学整理字形,解决编码问 题,是古文字信息处理的前提。
古文字字形整理与编码
对信息处理的重要作用
由于造字技术的发展,已经有不少单位创建了某 种字体的古文字原形字库。拥有古文字字库后,遇到 的最大难题是如何将需要的字形及时找到,以便提供 给其他专业领域和普及层面在创建文本时任意调用。
“隹”的甲骨文异形字样
பைடு நூலகம்隹:
一般应选择上面列举字形的8作主形
字种的划分
以甲骨文为例,在字组中选择的字种数: 一1 元3 天4 史2 上2 帝6 旁3 下2 示3 福6 祭3 祀4
古文字编码的有利条件
• 古文字字库的作用有两个层面:第一,给专 业人员研究和贮存文字使用;第二,供普及 领域指称。后者用量不大,可以单独处理。 主要考虑专业人员使用,编码在易学性上可 以放宽。
古文字编码的难点
• 甲骨文包括未识字只有三千多个,字量更大的字 系重码率及带字的字数都会增加,需要再做一定 的技术处理。
• 编码是依字系分层面编制的,各层面各体制的 字系最好进行历时认同,不要各行其是,但是,这 一点做起来难题很多,目前只能采用分别编码。
• 古文字字库的排序一般采用与《说文》小篆一 致,利用《说文》部首,其实削足适屦,需要 考虑新的、科学的、易于操作的排序原则。