当前位置:文档之家› 文字信息处理

文字信息处理


三、汉字的字音和字义
1.汉字的字音 构成字音的最小单位称为“音素” 音素包括元音音素(6 个)和辅音音素(22 个)两类 声韵双拼法: 把每个汉字的发音分解成声母和韵母两部分, 声母相当 于辅音,韵母相当于元音。可归纳出 22 个声母。35 个韵母 2.汉字的字义 多义字的消歧(大多数汉字有 2-5 个意思,多的有 6-9 个意思)
2m n
哈夫曼树算法:对子信息块状态进行统计分析,可以得到一个各状 态出现概率的高低序列, 设法使概率高的代码短, 概率低的代码长, 从而使平均码最短,这就是哈夫曼树算法。 利用汉字点阵的冗余度和哈夫曼树具有最小带权路径长度的性质, 能将汉字点阵信息进行压缩。
《文 字 信 息 处 理》
《文字信息处理技术》
第一章 中文信息处理技术概论
1.1 信息处理的实质
一、文字信息处理
1.文字信息处理的环节 文字信息处理(显示、输出)的全过程大致包含如下三个环节: 1) 文字信息的输入。 2) 文字信息的处理。 3) 文字信息的输出。 2.ASCII 码 A,B,C· · · ,X,Y,Z,共 26 个英文字母,包括大小写 0,1,2· · ·9 阿拉伯数字 +,—,×,÷…图形符号 控制符号 10 32 34 52
将第三层中各种内部码处理结果,按照需要转换成相应外部码输出,供 第五层输出用
第五层 外部码输出层
文字显示输出 文字印刷输出 语音合成输出 交换码输出
4 / 20
《文 字 信 息 处 理》
5 / 20
《文 字 信 息 处 理》
第二章 汉字编码输入原理
2.1 汉字和汉字属性
一、汉字的发展
4. 字根
字根是汉字字形的基本结构单元“” 分为单结构字根和复结构字根 构成字根的笔画间有“单” 、 “散” 、 “连” 、 “交”四种形式
5. 单字
(1) 单字的字根构成种类 按照单字中所含字根数目的多少,可以分为以下四类: 单根单字,如一,女,十,木,口,日,马,又,力,⋯⋯ 二根单字,如从,劝,权,旦,早,杏,另,⋯⋯
五、汉字的属性
1.汉字字量 GB2312(6763 个) 、GB18030(27000 个)
2.汉字字形:点、笔画、字根、整字 3.汉字字体 4.使用频度 5.汉字发音:单音节、多音节 6.汉字字义:消歧 7.汉字排序 8.汉字信息交换码
2.2 汉字编码输入方法
一、笛卡尔集分析
当有序组(a1,a2,a3,⋯,an)的客体分别是 A1,A2,A3,⋯,An 元素, 即 ai∈Ai(i=1, 2,3,⋯,n)时,有序组的全体组成一个代码集合,称作 A1, A2,A3,⋯,An 的 n 维笛卡儿积集。
b 为寻键所用时间
(K 为键数,T 为击键操作反应时间)
a 可视为 K=1 时的击键反应时间
9 / 20
《文 字 信 息 处 理》
2.校准以后的海曼公式 而实际上, 各个键元的使用频度是不相等的,因此较准确的海曼公式应 为:
T=a+b*H(K)
其中:
10 / 20
《文 字 信 息 处 理》
第三章 汉字字形存储与编码技术
二、汉字属性熵
1. 定义: 在某个确定的范围内(例如在一个给定的字符集中)确定一个汉字所 需要的平均信息量(单位为二进制位)的最小值。 2.例:若汉字集中汉字数量为 N 等概时:H(汉字)=log₂N 不等概时:设第 i 个汉字使用频率为 Pi,
三、 海曼公式和汉字编码的键盘特性
1.海曼公式
T=a+b*log₂K
8 / 20
《文 字 信 息 处 理》
可表示成: A ₁× A ₂× A ₃× …× An={(a ₁,a ₂,a ₃,⋯,an)| ai∈Ai(i=1,2,3,⋯,n)} 其中 Ai 称为 ai 的属性集。 1.存在问题: n 值过小:存在较多重码 n 值过大:空码 2.简单汉字编码模型(例) 定义: A ₁ :汉字偏旁属性集,A₂:汉字部首属性集 即 :A1={x | x 是汉字的偏旁} ,A2={y | y 是汉字的 部首} 则由(x, y)组成的有序组所构成的有效的汉字子集 R 可表示为: R={(x, y)| x∈A1,y∈A2} 把上述汉字代码的二维模型扩大成 n 维(n>2),即取汉字属性集的 n 种类 型,有 X1, X2,X3,⋯,X n。又设 xi 属性有 m 种状态,则 Xi={xij| xij 是汉字第 i 类属性的第 j 种状态,其中 j=l,2,⋯,m,i=l, 2,⋯,n}
11 / 20
《文 字 信 息 处 理》
3.2 汉字压缩存储常用方法
图形压缩 & 汉字结构压缩 黑白段
图 形 压 缩
Hale Waihona Puke 线性增量 方格取样 六角形取样 子信息快哈夫曼树 字形轮廓(链接码) 笔画坐标法 笔画矢量 矢量的始点坐标、长度和方向 矢量存储法 笔画轮廓 笔画数学方程式 部件一次组合 部件组合 部件嵌套组合
汉 字 结 构 压 缩
3.3 压缩编码指标
1.压缩率 η:用来衡量压缩后字形存储容量减少的程度
η=(L-C)/L ×100%
L 为压缩前字形所占存储字节数,C 为压缩后字形所占字节数 2.失真率 ε:用来衡量压缩后字形相对于原字形失真的程度。
ε = E/Q ×100%
Q 为压缩前字形的信息量,E 为经压缩还原后失真的信息总量 3.字形复原速率 R:用来衡量压缩后复原到原点阵字形的速度。 R 为 1 秒内产生的汉字字形数目。
《文 字 信 息 处 理》
Unicode 代码分配示意图
二、Unicode 汉字
1.6
中文信息处理系统五层结构模型
第一层 外部码输入层
键盘编码输入 文字识别输入 语音识别输入 交换码输入
第二层 外部码向内部码转换层
将第一层各式各样的输入信息转换成一致的内部码供第三层使用
第三层 内部码处理层 第四层 内部码向外部码转换层
6 / 20
《文 字 信 息 处 理》

三根单字,如树,查,曼,驾,萌,盟,⋯⋯ 四根(或多根)单字,如楂,碳,疑,爵,壹,恣,⋯⋯
(2) 字的字型分类 字型是单字结构的字根相互间的结构类型,可以分成如下四种。 独体型。由单式、连式、交式字根组成的单字,结构紧密,独自成 为一体,这样的构型称作独体型。 单式独体型。如三,石,鱼,米,山,⋯属于单根结构。 连式独体型。如天,下,千,少,尺, ⋯属于复根连笔结构。 交式独体型。如夫,丈,事,秉,半,坐,⋯属于复根交笔结 构。 左右型。 单字内分成左根和右根两半, 中间有一定间隙的散式构型, 称为左右型。 例如,相,鸠,邢,炳,锉,⋯⋯ 上下型。 单字内分成上根和下根两半, 中间有一定间隙的散式构型, 称为上下型。 例如,杏,英,蚕,杂,岩,⋯⋯ 包围型(又称内外型)。单字内一个内根被一个外根全部或局部包围 的散式构型,称 为包围型。 全包围的单字。如囚,困,⋯⋯ 三个方向包围的单字。如冈,罔,凶,区⋯⋯ 两个方向半包围的单字。如这,历,司⋯⋯
7 / 20
《文 字 信 息 处 理》
四、汉字的排序
1.流水排序法
以汉字的整字为单位, 以使用频率为排序依据 (高频在前, 低频在后) 优点:没有重码和虚号 缺点:难以熟记编码和汉字的对应关系
2.拉丁字母排序
按 A、B、C、D、……X、Y、Z 的顺序
3.拆字定码排序法
先汉字拆分成字根,再把字根拆分成笔画 难点:排序方法的统一和标准化问题
汉字的形态包括:象形字、会意字、形声字、假借字 汉字的演化:象形字——会意字——象形和声属结合——假借字
二、汉字的结构分析
分析汉字结构,有以下几种类型:
1. 位点
每一个位点代表字模点阵坐标中的一个位量单位,它没有方向。两个或两个 以上的位点构成笔画。
2. 笔画
楷书汉字基本笔画有六种:
3. 部首
楷体汉字部首共 214 个
2 / 20
《文 字 信 息 处 理》
(3)中、英文混合的信息流问题。 (4)与国际标准的兼容问题
1.4 ASCII 体系的汉字内码 1.5 Unicode 文字编码
一、代码赋值
Unicode 分为 5 个区:字母和其他字符集比较小的文字;符号;中文、日文 和韩文的辅助字符区;汉字区;用户字符。
3 / 20
13 / 20
《文 字 信 息 处 理》
二、部件组字压缩方法
1.部件一次组合法 2.部件嵌套结构法
三、子信息块哈夫曼树压缩
1.汉字点阵的冗余度
汉字点阵图形分割成 m×n 子矩阵,称为子信息块 发现有许多子信息块是相同的,说明汉字图形有较大冗余度。 利用子信息块编码存储,便可达到压缩汉字点阵信息量的目的。 对于 m×n 子信息块所表达的状态数为: N
1.2 汉字编码的转换
1.汉字键盘码(KB 码) 2.汉字交换码(以 ASCII 为基础) 3.汉字内部码(汉字交换码加上标识信息形成) 4.汉字地址码(实现可视化) 5.汉字字形码(存储) :通过汉字点阵或矢量描述汉字 6.汉字控制码
1.3 中西文兼容技术
中文信息处理系统技术的特点和要求,主要有以下四个方面: (1)输入和输出汉字信息的问题。 (2)海量信息存储问题
2.笔画坐标法
笔画坐标法用存储汉字笔画的两个端点坐标来压缩字形信息
3.矢量存储法
取坐标原点为文字的左上角,用一系列矢量表示汉字字形的笔画,在存储器 内存储一个 矢量的端点到下一个矢量端点的坐标增量 (记录起始点) 。 x(或 y)增 量为正,表示自左向右(或自上向下); 为负则反之。规定每个汉字的第一矢量起 点是坐标原点,实矢量为实有笔画,用 1 表示;虚 矢量是没有的空笔画,用 0 表示。
满足显示以及打印的输出精度要求
相关主题