当前位置:文档之家› 素材一-字符编码

素材一-字符编码


解读基本ASCII码字符内容
第0~31号及第127号共33 个,为非打印字符,是控 制字符或通讯专用字符, 如控制符:LF(换行)、 CR(回车)、FF(换页) 、DEL(删除)、BEL( 振铃)等;通讯专用字符 :SOH(文头)、EOT( 文尾)、ACK(确认)等 。 第32~126号共95个可打印 字符,其中第33个(32号 )为空格,第48~57号为0 ~9十个阿拉伯数字;65~ 90号为26个大写英文字母 ,97~122号为26个小写英 文字母,第127个(126号 )为“~”,其余为一些 标点符号、运算符号等。
虽然标准ASCII码是7位编码, 但由于计算机基本处理单位为 字节(1byte = 8bit),所以一 般仍以一个字节来存放一个 ASCII字符。每一个字节中多 余出来的一位(最高位)在计 算机内部通常保持为0(在数 据传输时可用作奇偶校验位) 。
11
关于数据传输的奇偶校验
在计算机的存储单元中,一个ASCII码值 占一个字节(8个二进制位),其最高位(b7)用作 奇偶校验位。 所谓奇偶校验,是指在代码传送过程中用 来检验是否出现错误的一种方法,一般分奇校 验和偶校验两种。奇校验规定:正确的代码一 个字节中1的个数必须是奇数,若非奇数,则 在最高位b7添1;偶校验规定:正确的代码一 个字节中1的个数必须是偶数,若非偶数,则 在最高位b7添1。
6
基本ASCII码字符的内容
字符 控制 字符 0 —9 A—Z a —z 符号 ASCII编码 十进制值
0000,0000—0001,1111 和0111,1111 0011,0000—0011,1001 48—57 0100,0001—0101,1010 65—90 0110,0001—0110,1010 97—122 其余
22
GB码的编码空间
一个字符的国标码由两个部分组成,分别是该字符的区 号和位号。 GB码规定共有94个区,每个区中有94个位。 编码空间为:94 * 94 = 8836 个码位 1 ~ 9 区是西文字母、数字、日文假名、图形符号 16~87区是汉字区,其中 16 ~ 55 区 是一级汉字(40 * 94 - 5 = 3755个) 56 ~ 87 区 是二级汉字(32 * 94 = 3008个) 10~15,88~94区是用户自定义区
字 符 编 码
1


一 计算机中字符的表示(ASCII码) 二 计算机中中文字符的表示
2
概 述

在计算机中,各种信息都是以二进制编码的形式存在
不管是文字、图形、声音、动画,还是电影等信息, 在计算机中都是以0和1组成的二进制代码表示 计算机之所以能区别这些不同的信息,是因为它们采 用的编码规则不同 比如:同样是文字,英文字母与汉字的编码规则就不 同,前者采用单字节的ASCII码,后者采用双字节的汉 字内码 但随着需求的变化,这两种编码有被统一的 UNICODE码(由Unicode 协会开发的能表示几乎世界 上所有书写语言的字符编码标准)所取代的趋势
25Biblioteka GB码区位示例(续)54 区 1 2 3 4 5 6 7 8 9 0 帧 症 郑 证 芝 枝 支 吱 蜘 1 知 肢 脂 汁 之 织 职 直 植 殖 2 执 值 侄 址 指 止 趾 只 旨 纸 3 志 挚 掷 至 致 置 帜 峙 制 智 4 秩 稚 质 炙 痔 滞 治 窒 中 盅 5 忠 钟 衷 终 种 肿 重 仲 众 舟 6 周 州 洲 诌 粥 轴 肘 帚 咒 皱 7 宙 昼 骤 珠 株 蛛 朱 猪 诸 诛 8 逐 竹 烛 煮 拄 瞩 嘱 主 著 柱 9 助 蛀 贮 铸 筑 55 区 1 2 3 4 5 6 7 8 9 0 住 注 祝 驻 抓 爪 拽 专 砖 1 转 撰 赚 篆 桩 庄 装 妆 撞 壮 2 状 椎 锥 追 赘 坠 缀 谆 准 捉 3 拙 卓 桌 琢 茁 酌 啄 着 灼 浊 4 兹 咨 资 姿 滋 淄 孜 紫 仔 籽 5 滓 子 自 渍 字 鬃 棕 踪 宗 综 6 总 纵 邹 走 奏 揍 租 足 卒 族 7 祖 诅 阻 组 钻 纂 嘴 醉 最 罪 8 尊 遵 昨 左 佐 柞 做 作 坐 座 9
10
关于最高位
若在该位置1,可表示一 些特殊的符号(图形符) 由于ASCII码只用了字节 的七个位,最高位并不使 用,所以后来又将最高的 一个位也编入这套编码码 中,成为八个位的延伸 ASCII(Extended ASCII)码, 这套内码加上了许多外文 和表格等特殊符号,成为 目前常用的编码。 若将传送数据的该位置1 ,则用于数据传输校验
20
二、计算机中中文字符的表示 汉字交换码
国标码并不等于区位码,它是由区位码稍作转换得到, 其转换方法为:先将十进制区码和位码转换为十六进制 的区码和位码,这样就得了一个与国标码有一个相对位 置差(20H)的代码;再将这个代码的第一个字节和第 二个字节分别加上20H,就得到国标码。 如:“保” 字的国标码为(3123)H,它是经过下面 的转换得到的:
vs. 二进制表示
ASCII形式
文本存储形式
0011000100110000001100000011000000110000 int型数 10000的表示
1
0
0
0
0
0010011100010000 内存存储形式
二进制形式
213 + 210 +29 +28 +24 = 8192 + 1024 + 512 + 256 + 16
从键盘上按键输入“ CHINA”的字串,传送进计
算机的,则是01000011、01001000、01001001、 01001110、01000001这五个二进制数字串。
比较字符ASCII码值的大小
空格<标点符号<数字<大写字母<小写字母
十进制数字符号的ASCII码值与其二进制值的区别
ASCII码表示
a
b c d e f g h i j k l m n o
q
r s t u v w x y z { | } ~ DEL
5
基本ASCII码字符的分类
显示字符 控制字符
范围为33~126,共94 范围是0~32和127, 个,指能从键盘输入、 共34个,主要用于控 可以显示和打印的字 制输入、输出设备。 符。
国标码很少直接使用。
21
GB码简介
国标码(GB)是指1981年我国公布的国家标准《信息交 换用汉字编码字符集-基本集》,包含: 简化汉字,符号,字母,日文假名,共7445个字符; 其中包含了6763个汉字,并分作两级: 一级为常用字,3755个,按照拼音排序 二级为次常用字,3008个,按照部首排序。
18
二、计算机中中文字符的表示 汉字交换码
由于ASCII码的34个控制代码在汉字系统中也 要使用,为不致发生冲突,不能作为汉字编码, 128除去34只剩94种,所以汉字编码表的大小是 94×94=8836,用以表示国标码规定的汉字6763个 (一级汉字,是最常用的汉字,按汉语拼音字母顺 序排列,共3755个;二级汉字,属于次常用汉字, 按偏旁部首的笔划顺序排列,共3008个),数字、 字母、符号等682个,共7445个。
DC1
DC2 DC3 DC4 NAK SYN ETB CAN EM SUB ESC FS GS RS US
!
" # $ % & ’ ( ) * + , . /
1
2 3 4 5 6 7 8 9 : ; < = > ?
A
B C D E F G H I J K L M N O
Q
R S T U V W X Y Z [ \ ] ^ _
26
GB码区位示例(续)
56 区 1 2 3 4 5 6 7 8 9 0 亍 丌 兀 丐 廿 卅 丕 亘 丞 1 鬲 孬 噩 丨 禺 丿 匕 乇 夭 爻 2 卮 氐 囟 胤 馗 毓 睾 鼗 丶 亟 3 鼐 乜 乩 亓 芈 孛 啬 嘏 仄 厍 4 厝 厣 厥 厮 靥 赝 匚 叵 匦 匮 5 匾 赜 卦 卣 刂 刈 刎 刭 刳 刿 6 剀 剌 剞 剡 剜 蒯 剽 劂 劁 劐 7 劓 冂 罔 亻 仃 仉 仂 仨 仡 仫 8 仞 伛 仳 伢 佤 仵 伥 伧 伉 伫 9 佞 佧 攸 佚 佝 57 区 1 2 3 4 5 6 7 8 9 0 佟 佗 伲 伽 佶 佴 侑 侉 侃 1 侏 佾 佻 侪 佼 侬 侔 俦 俨 俪 2 俅 俚 俣 俜 俑 俟 俸 倩 偌 俳 3 倬 倏 倮 倭 俾 倜 倌 倥 倨 偾 4 偃 偕 偈 偎 偬 偻 傥 傧 傩 傺 5 僖 儆 僭 僬 僦 僮 儇 儋 仝 氽 6 佘 佥 俎 龠 汆 籴 兮 巽 黉 馘 7 冁 夔 勹 匍 訇 匐 凫 夙 兕 亠 8 兖 亳 衮 袤 亵 脔 裒 禀 嬴 蠃 9 羸 冫 冱 冽 冼
3
一、计算机中字符的表示(ASCII码)
ASCII(American Standard Code for Information Interchange,美国标准信息交 换码)规定了常用的数字、字符的编码。标准 ASCII码采用7位二进制编码,对应的ISO标准 为ISO646标准,最多可以表示128个字符。 每 个字符可以用一个字节表示,字节的最高位为 0。
15
ASCII码表的扩展集
16
ASCII码表基本集+扩展集(16进制)
Microsoft Windows
IBM PC DOS
17
二、计算机中中文字符的表示 汉字交换码
又称“国标码”,即GB2312-1980,是中华人民共和国国 家标准汉字交换编码。 汉字信息在计算机内部也是以二进制方式存放。由于汉字 数量多,用一个字节的128种状态不能全部表示出来,因此在 1981年我国颁布的《信息交换用汉字编码字符集—基本集》, 即准GB2312-80方案中规定用两个字节的十六位二进制表示一 个汉字,每个字节都只使用低7位(与ASCII码相同),即有 128×128=16384种状态。
相关主题