当前位置:文档之家› 字符编码

字符编码


从键盘上按键输入“ CHINA”的字串,传送进计 算机的,则是01000011、01001000、01001001、
01001110、01000001这五个二进制数字串。
比较字符ASCII码值的大小
空格<标点符号<数字<大写字母<小写字母
十进制数字符号的ASCII码值与其二进制值的区别
ASCII码表示 vs. 二进制表示
✓ 但随着需求的变化,这两种编码有被统一的 UNICODE码(由Unicode 协会开发的能表示几乎世界 上所有书写语言的字符编码标准)所取代的趋势
3
一、计算机中字符的表示(ASCII码)
ASCII(American Standard Code for Information Interchange,美国标准信息交 换码)规定了常用的数字、字符的编码。标准 ASCII码采用7位二进制编码,对应的ISO标准 为ISO646标准,最多可以表示128个字符。 每 个字符可以用一个字节表示,字节的最高位为 0。
.TXT。
15
ASCII码表的扩展集
16
ASCII码表基本集+扩展集(16进制)
Microsoft Windows
IBM PC DOS
17
二、计算机中中文字符的表示 汉字交换码
又称“国标码”,即GB2312-1980,是中华人民共和国国 家标准汉字交换编码。
汉字信息在计算机内部也是以二进制方式存放。由于汉字 数量多,用一个字节的128种状态不能全部表示出来,因此在 1981年我国颁布的《信息交换用汉字编码字符集—基本集》, 即准GB2312-80方案中规定用两个字节的十六位二进制表示一 个汉字,每个字节都只使用低7位(与ASCII码相同),即有 128×128=16384种状态。
20
二、计算机中中文字符的表示 汉字交换码
国标码并不等于区位码,它是由区位码稍作转换得到, 其转换方法为:先将十进制区码和位码转换为十六进制 的区码和位码,这样就得了一个与国标码有一个相对位 置差(20H)的代码;再将这个代码的第一个字节和第 二个字节分别加上20H,就得到国标码。
如:“保” 字的国标码为(3123)H,它是经过下面 的转换得到的:
所谓奇偶校验,是指在代码传送过程中用 来检验是否出现错误的一种方法,一般分奇校 验和偶校验两种。奇校验规定:正确的代码一 个字节中1的个数必须是奇数,若非奇数,则 在最高位b7添1;偶校验规定:正确的代码一 个字节中1的个数必须是偶数,若非偶数,则 在最高位b7添1。
12
ASCII码表基本集(2,10,8,16进制)
23
GB码区位示例
01区 78位
24
GB码区位示例(续)
16 区 1 2 3 4 5 6 7 8 9 0 啊阿埃挨哎唉哀皑癌 1蔼矮艾碍爱隘鞍氨安俺 2按暗岸胺案肮昂盎凹敖 3熬翱袄傲奥懊澳芭捌扒 4叭吧笆八疤巴拔跋靶把 5耙坝霸罢爸白柏百摆佰 6败拜稗斑班搬扳般颁板 7版扮拌伴瓣半办绊邦帮 8梆榜膀绑棒磅蚌镑傍谤 9苞胞包褒剥
18
二、计算机中中文字符的表示 汉字交换码
由于ASCII码的34个控制代码在汉字系统中也 要使用,为不致发生冲突,不能作为汉字编码, 128除去34只剩94种,所以汉字编码表的大小是 94×94=8836,用以表示国标码规定的汉字6763个 (一级汉字,是最常用的汉字,按汉语拼音字母顺 序排列,共3755个;二级汉字,属于次常用汉字, 按偏旁部首的笔划顺序排列,共3008个),数字、 字母、符号等682个,共7445个。
14
ASCII码表的扩展集EASCII
扩展ASCII编码(Extended ASCII,延伸美国标准信息交 换码)是将基本ASCII码由7位扩充为8位,表示256个字 符。
基本ASCII码:最高位为0,称为基本ASCII码; 扩充的ASCII码:最高位为1,扩充部分编码范围为
10000000~11111111,相应的十进制数为128~255 用ASCII码组成的文件,称为“文本文件”,其扩展名为
高3位
低4位
0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111
000
NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO
SI
ASCII码表(二进制)
p q r s t u v w x y z { | } ~ DEL
5
基本ASCII码字符的分类
显示字符
控制字符
✓ 范围为33~126,共94 ✓ 范围是0~32和127,
个,指能从键盘输入、
可以显示和打印的字 符。
共34个,主要用于控 制输入、输出设备。
6
基本ASCII码字符的内容
字符
ASCII编码
17 区 1 2 3 4 5 6 7 8 9 0 薄雹保堡饱宝抱报暴 1豹鲍爆杯碑悲卑北辈背 2贝钡倍狈备惫焙被奔苯 3本笨崩绷甭泵蹦迸逼鼻 4比鄙笔彼碧蓖蔽毕毙毖 5币庇痹闭敝弊必辟壁臂 6避陛鞭边编贬扁便变卞 7辨辩辫遍标彪膘表鳖憋 8别瘪彬斌濒滨宾摈兵冰 9柄丙秉饼炳
25
GB码区位示例(续)
57 区 1 2 3 4 5 6 7 8 9 0 佟佗伲伽佶佴侑侉侃 1侏佾佻侪佼侬侔俦俨俪 2俅俚俣俜俑俟俸倩偌俳 3倬倏倮倭俾倜倌倥倨偾 4偃偕偈偎偬偻傥傧傩傺 5僖儆僭僬僦僮儇儋仝氽 6佘佥俎龠汆籴兮巽黉馘 7冁夔勹匍訇匐凫夙兕亠 8兖亳衮袤亵脔裒禀嬴蠃 9羸冫冱冽冼
27
GB码区位示例(续)
001 010 011 100 101 110
DLE
SP
0
@
P
`
DC1
!
1
A
Q
a
DC2
"
2
B
R
b
DC3
#
3
C
S
c
DC4
$
4
D
T
d
NAK
%
5
E
U
e
SYN
&
6
F
V
f
ETB

7
G
W
g
EM
)
9
I
Y
i
SUB
*
:
J
Z
j
ESC
+
;
K
[
k
FS
,
<
L
\
l
GS
-
=
M
]
m
RS
.
>
N
^
n
US
/
?
O
_
o
111
10
关于最高位
✓ 若在该位置1,可表示一 ✓ 若将传送数据的该位置1
些特殊的符号(图形符) ,则用于数据传输校验
由于ASCII码只用了字节 虽然标准ASCII码是7位编码,
的七个位,最高位并不使
但由于计算机基本处理单位为
用,所以后来又将最高的
字节(1byte = 8bit),所以一
一个位也编入这套编码码
54 区 1 2 3 4 5 6 7 8 9 0 帧症郑证芝枝支吱蜘 1知肢脂汁之织职直植殖 2执值侄址指止趾只旨纸 3志挚掷至致置帜峙制智 4秩稚质炙痔滞治窒中盅 5忠钟衷终种肿重仲众舟 6周州洲诌粥轴肘帚咒皱 7宙昼骤珠株蛛朱猪诸诛 8逐竹烛煮拄瞩嘱主著柱 9助蛀贮铸筑
55 区 1 2 3 4 5 6 7 8 9 0 住注祝驻抓爪拽专砖 1转撰赚篆桩庄装妆撞壮 2状椎锥追赘坠缀谆准捉 3拙卓桌琢茁酌啄着灼浊 4兹咨资姿滋淄孜紫仔籽 5滓子自渍字鬃棕踪宗综 6总纵邹走奏揍租足卒族 7祖诅阻组钻纂嘴醉最罪 8尊遵昨左佐柞做作坐座
19
二、计算机中中文字符的表示 汉字交换码
国家标准将每个汉字和图形符号的两个字节分 别用两位的十进制编码(不足补0),前字节的编 码称为区码,后字节的编码称为位码,排列在一个 94行94列的二维代码表中,形成区位码表。
如“保”字在二维代码表中处于17区第03位 ,区位码即为1703D 。
把区位码按一定的规则转换成的二进制代码叫 做信息交换码(简称国标码)。
十进制值
控制 0000,0000—0010,0000 0—32,127 字符 和0111,1111
0 —9 0011,0000—0011,1001 48—57
A—Z 0100,0001—0101,1010 65—90
a —z 0110,0001—0111,1010 97—122 符号 其余32个
解读基本ASCII码字符内容
字符编码
1
提纲
一 计算机中字符的表示(ASCII码) 二 计算机中中文字符的表示
2
概述
✓ 在计算机中,各种信息都是以二进制编码的形式存在 不管是文字、图形、声音、动画,还是电影等信息, 在计算机中都是以0和1组成的二进制代码表示
✓ 计算机之所以能区别这些不同的信息,是因为它们采 用的编码规则不同 比如:同样是文字,英文字母与汉字的编码规则就不 同,前者采用单字节的ASCII码,后者采用双字节的汉 字内码
国标码很少直接使用。
21
GB码简介
国标码(GB)是指1981年我国公布的国家标准《信息交 换用汉字编码字符集-基本集》,包含: 简化汉字,符号,字母,日文假名,共7445个字符; 其中包含了6763个汉字,并分作两级: 一级为常用字,3755个,按照拼音排序 二级为次常用字,3008个,按照部首排序。
文本存储形式
ASCII形式
int型数 10000的表示
0011000100110000001100000011000000110000
相关主题