非数值数据的表示
计算机处理字符数据时,当遇到最高位为1的字节,便 将该字节连同其后续最高位为1的另一个字节看做一个 汉字;当遇到最高位为0时,则可看做一个ASCII码西文 字符,这样就实现了汉字、西文字符的共存和区分。
(4)汉字字形码
汉字的字形码通常有两种表示方式,即点阵和矢 量表示方式。 用点阵表示字形时,字形码指的是这个汉字字形 点阵的代码。
3.多媒体信息表示
(1)音频信息 为了要使计算机能够处理音频信息,便于存储和操作,必须
首先要将声音的模拟信号转换为数字信号。按照固定的时间间 隔对声波的振幅进行采样,记录所得到的值序列,并转化为二 进制序列,得到声波的数字化表示。
常见的几种声音文件格式
扩展名 WAV MIDI WMA Mp3、Mp4
B
4
F3
34 73H+80 80H=B4 F3H,得到机内码为B4F3H
国标码转换为机内码:国标码+8080H=机内码
汉字 区位码
国标码
汉字机内码
大 2083 3473(00110100 01110011)B (10110100 11110011)B
工 2504 1904(00011001 00000100)B (10011001 10000100)B
控制字符34个:0~32,127;
普通字符:94个。
例如:“a”字符的编码为110 0001,61H,对应的十进制数是97;
空格
20H
32
‘0’~‘9’
30H~39H
48~57
‘A’~‘Z’
41H~5AH
65~90
‘a’~‘z’
61H~7AH
97~122
2.汉字编码
输入码 汉字输入
国标码
③ 字形编码: 以汉字的形状确定的编码,如五笔字型、表形输入法。(无 重码,快,专业人员)
(2)汉字国标码
为了在计算机中使用汉字,1981年,国家标准局公 布了GB2312-80标准汉字字符集,规定了在不同的汉 字系统中进行汉字交换时使用的编码,简称国标码。 汉字国标码(GB2312-80)也称汉字交换码, 共收
点阵表示:用点阵表示的码,是汉 字的输出形式。它把汉字排成点阵 常用16×16、24×24、32×32、 48×48或更高二进制位来存储。 一个16*16点阵的汉字字形占用32个 字节,24*24要占用72个字节。 编码、存储方式简单、无需转换直 接输出
这类点阵字库汉字最大的缺点是不能放大,一旦放大后就会 发现文字边缘的锯齿。
录7445个汉字符号。能表示6763个常用汉字和一些 符号。 每个汉字用两个字节、以16进制表示。 汉字分成94个区,每个区存放94个汉字或符号。由 区号和位号构成区位码。区位码加上32就构成国标 码。 计算机是如何区分字符与汉字的编码呢?
(3)汉字机内码
汉字机内码是汉字在机器内部的表示形式,是计
算机内部存储、处理、传输汉字的代码。
为区别ASCII码,机内码采用将汉字国标码的每个 字节的最高位设为1,形成了在计算机内部用来进行 汉字存储、运算的编码。
以汉字“大”为例,国标码为34 73H,
二进制: 0011 0100 0111 0011 国标码
二进制: 1011 0100 1111 0011 机内码
机内码
地址码
字形码 汉字输出
拼
汉字在机器内部的表示 形式,是内部存储,处
音
GB2312-1980标准汉字
理,传输汉字的代码,
五
字符集,规定在不同的 两统中进行汉字交
。 为了区分西文字符的机
换时使用的编码,简称 内码,每个字节的最高
国标码,两个字节。
位设为1.
每个汉字字 形码在汉字 字库中的相 对位移地址
大学计算机基础
二、信息的表示与存储
2.4 非数值数据的表示与存储
主要内容 1.字符编码 2.汉字编码 3.多媒体信息表示
1.字符编码(ASCII码)
(American Standard Code for Information Interchange)
128个常用字符,用7位二进制编码,最高位为0,从0到127
(1) 汉字输入码
① 数字编码: 用4位数字代表一个汉字,如国标区位码、电报码等。 GB2312标准将6763个汉字和700多个符号分成94个区,每个区 存放94个汉字和符号。无重码,但是记忆困难。 如:大 2083 工 2504 十进制
② 拼音编码: 以汉语拼音为基础的输入法,常用有智能ABC、微软拼音、紫 光、全拼、搜狗等。(简单易学,重码,拼音为基础)
3.多媒体信息表示
(2)视频信息 视频信号数字化的原理与音频信息数字化相似,
以一定的频率对单帧视频信号进行采样、量化、编码 等,实现模数转换、彩色空间变换和编码压缩等。
常见的视频文件和流媒体文件格式
扩展名 AVI
MPG WMV rm ASF FLV
特点
采用有损压缩,压缩比高,解决了音频与视频信息的 同步问题,已成为Windows视频文件的标准,用于保存 电影、电视信息
矢量表示方式可以得到高质量的汉字输出,与最终文字 显示的大小和分辨率无关。放大后,不会变形。
Unicode 国际标准编码标准:为了规范编码,采用双字 节编码统一表示世界上的主要文字。
键盘输入与屏幕显示
3.多媒体信息表示
多媒体信息是指以文字、声音、图形、图像为载体的 信息。计算机除了能够处理、存储数值和文字,还能 处理大量多媒体信息。这些多媒体信息虽然表示形式 不同,进入到计算机中也要转换为二进制形式表示。
ASCII码的字母存储的也是字母的图片,编码与点阵图片一 一对应,需要时调用这个图片,就可以显示对应的字符。
矢量表示:该方式存储的是描述汉字字形的轮廓特征。 矢量方式与点阵相反,矢量字库保存的是对每一个汉字
的描述信息,比如一个笔划的起始、终止坐标,半径、弧度 等等。需要时,通过计算机的计算,由汉字字形描述程序生 成所需大小和形状的汉字点阵。
特点
记录真实声音,对存储空间需求太大,不便于交流和传播 ,是Windows系统使用的标准数字音频波形文件
比波形文件小,节省空间,但缺乏重现真实自然声音的能 力,常用来存放背景音乐
与MP3格式类似的一种新的音频格式,压缩比和音质方面 都超过了MP3,适合网络实时低速率传输
数字音频编码和有损压缩格式,压缩比高,基本不失真