当前位置：文档之家› 文字信息处理

文字信息处理

三、汉字的字音和字义
1．汉字的字音构成字音的最小单位称为“音素” 音素包括元音音素（6 个）和辅音音素（22 个）两类声韵双拼法：把每个汉字的发音分解成声母和韵母两部分，声母相当于辅音，韵母相当于元音。可归纳出 22 个声母。35 个韵母 2．汉字的字义多义字的消歧（大多数汉字有 2-5 个意思，多的有 6-9 个意思）
2m n
哈夫曼树算法：对子信息块状态进行统计分析，可以得到一个各状态出现概率的高低序列，设法使概率高的代码短，概率低的代码长，从而使平均码最短，这就是哈夫曼树算法。利用汉字点阵的冗余度和哈夫曼树具有最小带权路径长度的性质，能将汉字点阵信息进行压缩。
《文字信息处理》
《文字信息处理技术》
第一章中文信息处理技术概论
1.1 信息处理的实质
一、文字信息处理
1．文字信息处理的环节文字信息处理（显示、输出）的全过程大致包含如下三个环节： 1) 文字信息的输入。 2) 文字信息的处理。 3) 文字信息的输出。 2．ASCII 码 A，B，C· · · ，X，Y，Z，共 26 个英文字母，包括大小写 0，1，2· · ·9 阿拉伯数字 +，—，×，÷…图形符号控制符号 10 32 34 52
将第三层中各种内部码处理结果，按照需要转换成相应外部码输出，供第五层输出用
第五层外部码输出层
文字显示输出文字印刷输出语音合成输出交换码输出
4 / 20
《文字信息处理》
5 / 20
《文字信息处理》
第二章汉字编码输入原理
2.1 汉字和汉字属性
一、汉字的发展
4．字根
字根是汉字字形的基本结构单元“” 分为单结构字根和复结构字根构成字根的笔画间有“单” 、 “散” 、 “连” 、 “交”四种形式
5．单字
(1) 单字的字根构成种类按照单字中所含字根数目的多少，可以分为以下四类：单根单字，如一，女，十，木，口，日，马，又，力，⋯⋯ 二根单字，如从，劝，权，旦，早，杏，另，⋯⋯
五、汉字的属性
1．汉字字量 GB2312（6763 个）、GB18030（27000 个）
2．汉字字形：点、笔画、字根、整字 3．汉字字体 4．使用频度 5．汉字发音：单音节、多音节 6．汉字字义：消歧 7．汉字排序 8．汉字信息交换码
2.2 汉字编码输入方法
一、笛卡尔集分析
当有序组(a1，a2，a3，⋯，an)的客体分别是 A1，A2，A3，⋯，An 元素，即 ai∈Ai(i=1， 2，3，⋯，n)时，有序组的全体组成一个代码集合，称作 A1， A2，A3，⋯，An 的 n 维笛卡儿积集。
b 为寻键所用时间
（K 为键数，T 为击键操作反应时间）
a 可视为 K=1 时的击键反应时间
9 / 20
《文字信息处理》
2．校准以后的海曼公式而实际上，各个键元的使用频度是不相等的，因此较准确的海曼公式应为：
T=a+b*H(K)
其中：
10 / 20
《文字信息处理》
第三章汉字字形存储与编码技术
二、汉字属性熵
1．定义：在某个确定的范围内(例如在一个给定的字符集中)确定一个汉字所需要的平均信息量(单位为二进制位)的最小值。 2．例：若汉字集中汉字数量为 N 等概时：H（汉字）=log₂N 不等概时：设第 i 个汉字使用频率为 Pi，
三、海曼公式和汉字编码的键盘特性
1．海曼公式
T=a+b*log₂K
8 / 20
《文字信息处理》
可表示成： A ₁× A ₂× A ₃× …× An=｛(a ₁，a ₂，a ₃，⋯，an)| ai∈Ai(i=1，2，3，⋯，n)｝其中 Ai 称为 ai 的属性集。 1．存在问题： n 值过小：存在较多重码 n 值过大：空码 2．简单汉字编码模型（例）定义： A ₁ ：汉字偏旁属性集，A₂：汉字部首属性集即：A1=｛x | x 是汉字的偏旁｝，A2=｛y | y 是汉字的部首｝则由(x， y)组成的有序组所构成的有效的汉字子集 R 可表示为： R=｛(x， y)| x∈A1，y∈A2｝把上述汉字代码的二维模型扩大成 n 维(n>2)，即取汉字属性集的 n 种类型，有 X1， X2，X3，⋯，X n。又设 xi 属性有 m 种状态，则 Xi={xij| xij 是汉字第 i 类属性的第 j 种状态，其中 j=l，2，⋯，m，i=l， 2，⋯，n}
11 / 20
《文字信息处理》
3.2 汉字压缩存储常用方法
图形压缩 & 汉字结构压缩黑白段
图形压缩
Hale Waihona Puke 线性增量方格取样六角形取样子信息快哈夫曼树字形轮廓（链接码）笔画坐标法笔画矢量矢量的始点坐标、长度和方向矢量存储法笔画轮廓笔画数学方程式部件一次组合部件组合部件嵌套组合
汉字结构压缩
3.3 压缩编码指标
1．压缩率 η：用来衡量压缩后字形存储容量减少的程度
η=（L-C）/L ×100%
L 为压缩前字形所占存储字节数，C 为压缩后字形所占字节数 2．失真率 ε：用来衡量压缩后字形相对于原字形失真的程度。
ε = E/Q ×100%
Q 为压缩前字形的信息量，E 为经压缩还原后失真的信息总量 3．字形复原速率 R：用来衡量压缩后复原到原点阵字形的速度。 R 为 1 秒内产生的汉字字形数目。
《文字信息处理》
Unicode 代码分配示意图
二、Unicode 汉字
1.6
中文信息处理系统五层结构模型
第一层外部码输入层
键盘编码输入文字识别输入语音识别输入交换码输入
第二层外部码向内部码转换层
将第一层各式各样的输入信息转换成一致的内部码供第三层使用
第三层内部码处理层第四层内部码向外部码转换层
6 / 20
《文字信息处理》

三根单字，如树，查，曼，驾，萌，盟，⋯⋯ 四根(或多根)单字，如楂，碳，疑，爵，壹，恣，⋯⋯
(2) 字的字型分类字型是单字结构的字根相互间的结构类型，可以分成如下四种。独体型。由单式、连式、交式字根组成的单字，结构紧密，独自成为一体，这样的构型称作独体型。单式独体型。如三，石，鱼，米，山，⋯属于单根结构。连式独体型。如天，下，千，少，尺， ⋯属于复根连笔结构。交式独体型。如夫，丈，事，秉，半，坐，⋯属于复根交笔结构。左右型。单字内分成左根和右根两半，中间有一定间隙的散式构型，称为左右型。例如，相，鸠，邢，炳，锉，⋯⋯ 上下型。单字内分成上根和下根两半，中间有一定间隙的散式构型，称为上下型。例如，杏，英，蚕，杂，岩，⋯⋯ 包围型(又称内外型)。单字内一个内根被一个外根全部或局部包围的散式构型，称为包围型。全包围的单字。如囚，困，⋯⋯ 三个方向包围的单字。如冈，罔，凶，区⋯⋯ 两个方向半包围的单字。如这，历，司⋯⋯
7 / 20
《文字信息处理》
四、汉字的排序
1．流水排序法
以汉字的整字为单位，以使用频率为排序依据（高频在前，低频在后）优点：没有重码和虚号缺点：难以熟记编码和汉字的对应关系
2．拉丁字母排序
按 A、B、C、D、……X、Y、Z 的顺序
3．拆字定码排序法
先汉字拆分成字根，再把字根拆分成笔画难点：排序方法的统一和标准化问题
汉字的形态包括：象形字、会意字、形声字、假借字汉字的演化：象形字——会意字——象形和声属结合——假借字
二、汉字的结构分析
分析汉字结构，有以下几种类型：
1．位点
每一个位点代表字模点阵坐标中的一个位量单位，它没有方向。两个或两个以上的位点构成笔画。
2．笔画
楷书汉字基本笔画有六种：
3．部首
楷体汉字部首共 214 个
2 / 20
《文字信息处理》
（3）中、英文混合的信息流问题。（4）与国际标准的兼容问题
1.4 ASCII 体系的汉字内码 1.5 Unicode 文字编码
一、代码赋值
Unicode 分为 5 个区：字母和其他字符集比较小的文字；符号；中文、日文和韩文的辅助字符区；汉字区；用户字符。
3 / 20
13 / 20
《文字信息处理》
二、部件组字压缩方法
1．部件一次组合法 2．部件嵌套结构法
三、子信息块哈夫曼树压缩
1．汉字点阵的冗余度
汉字点阵图形分割成 m×n 子矩阵，称为子信息块发现有许多子信息块是相同的，说明汉字图形有较大冗余度。利用子信息块编码存储，便可达到压缩汉字点阵信息量的目的。对于 m×n 子信息块所表达的状态数为： N
1.2 汉字编码的转换
1．汉字键盘码（KB 码） 2．汉字交换码（以 ASCII 为基础） 3．汉字内部码（汉字交换码加上标识信息形成） 4．汉字地址码（实现可视化） 5．汉字字形码（存储）：通过汉字点阵或矢量描述汉字 6．汉字控制码
1.3 中西文兼容技术
中文信息处理系统技术的特点和要求，主要有以下四个方面：（1）输入和输出汉字信息的问题。（2）海量信息存储问题
2．笔画坐标法
笔画坐标法用存储汉字笔画的两个端点坐标来压缩字形信息
3．矢量存储法
取坐标原点为文字的左上角，用一系列矢量表示汉字字形的笔画，在存储器内存储一个矢量的端点到下一个矢量端点的坐标增量（记录起始点）。 x(或 y)增量为正，表示自左向右(或自上向下)；为负则反之。规定每个汉字的第一矢量起点是坐标原点，实矢量为实有笔画，用 1 表示；虚矢量是没有的空笔画，用 0 表示。
满足显示以及打印的输出精度要求

e商务文档

文字信息处理

相关文档推荐：