汉字编码课件.ppt
汉字编码
..
1
汉字编码现状及其根源
多种编码方案共存,不利于交流和共享 新旧标准同台使用,需相互转换 统一标准正在形成 中、日、韩、新等多国同时使用汉字 简繁体汉字并存 地区、国家间的文化、政治差异增加了
汉字统一编码的难度
..
2
主要汉字(文字)编码标准与规范
ASCII(英文) GB2312 GBK GB13000 GB18030 BIG5 Shift_JIS ISO/IEC 10646 Unicode
国标(GB2312-80)表(基本表)把七千余汉字、 以及标点符号、外文字母等,排成一个94行、 94列的方阵
每一横行叫一个“区”,每个区有九十四个 “位”
一个汉字在方阵中的坐标,称为该字的“区位 码”
例如“中”字在方阵中处于第54区第48位,
它的区位码就是5448
..
7
区位码表
区位码来源于信息交换用汉字编码字符集(基本集)国家标准 (GB2312-80),该标准收汉字6763个,第一级3755个,位于16至55 区,55区的最后5个字符没有定义;第二级3008个,位于56至87区
55 区 1 2 3 4 5 6 7 8 9 0 住注祝驻抓爪拽专砖 1转撰赚篆桩庄装妆撞壮 2状椎锥追赘坠缀谆准捉 3拙卓桌琢茁酌啄着灼浊 4兹咨资姿滋淄孜紫仔籽 5滓子自渍字鬃棕踪宗综 6总纵邹走奏揍租足卒族 7祖诅阻组钻纂嘴醉最罪 8尊遵昨左佐柞做作坐座
9
..
12
例
56 区 1 2 3 4 5 6 7 8 9 0 亍丌兀丐廿卅丕亘丞 1鬲孬噩丨禺丿匕乇夭爻 2卮氐囟胤馗毓睾鼗丶亟 3鼐乜乩亓芈孛啬嘏仄厍 4厝厣厥厮靥赝匚叵匦匮 5匾赜卦卣刂刈刎刭刳刿 6剀剌剞剡剜蒯剽劂劁劐 7劓冂罔亻仃仉仂仨仡仫 8仞伛仳伢佤仵伥伧伉伫 9佞佧攸佚佝
包括33个控制码,一个空格码,和94个 形象码
形象码中包括了英文大小写字母,阿拉 伯数字,标点符号等
国际上大部分电脑的通用编码
..
5
文本文件与二进制文件
字符大都是用一个八位二进制数字表示,美标 只规定了128个编码,剩下的另外128个数码没 有规范,美标中的33个控制码,各厂家用法也 不尽一致
文本文件(ASCII Text Files) :美标形象码或空 格码组成,通常可在不同电脑系统间直接交换
二进制文件(Binary Files) :含有控制码或非美 标码的文件,通常不能在不同电脑系统间直接 交换
..
6
国标、区位、“准国标” 、机内 码
国标:中华人民共和国国家标准信息交换用汉 字编码
57 区 1 2 3 4 5 6 7 8 9 0 佟佗伲伽佶佴侑侉侃 1侏佾佻侪佼侬侔俦俨俪 2俅俚俣俜俑俟俸倩偌俳 3倬倏倮倭俾倜倌倥倨偾 4偃偕偈偎偬偻傥傧傩傺 5僖儆僭僬僦僮儇儋仝氽 6佘佥俎龠汆籴兮巽黉馘 7冁夔勹匍訇匐凫夙兕亠 8兖亳衮袤亵脔裒禀嬴蠃 9羸冫冱冽冼
..
13
例
86 区 1 2 3 4 5 6 7 8 9 0 觥觫觯訾謦靓雩雳雯 1霆霁霈霏霎霪霭霰霾龀 2龃龅龆龇龈龉龊龌黾鼋 3鼍隹隼隽雎雒瞿雠銎銮 4鋈錾鍪鏊鎏鐾鑫鱿鲂鲅 5鲆鲇鲈稣鲋鲎鲐鲑鲒鲔 6鲕鲚鲛鲞鲟鲠鲡鲢鲣鲥 7鲦鲧鲨鲩鲫鲭鲮鲰鲱鲲 8鲳鲴鲵鲶鲷鲺鲻鲼鲽鳄 9鳅鳆鳇鳊鳋
17 区 1 2 3 4 5 6 7 8 9 0 薄雹保堡饱宝抱报暴 1豹鲍爆杯碑悲卑北辈背 2贝钡倍狈备惫焙被奔苯 3本笨崩绷甭泵蹦迸逼鼻 4比鄙笔彼碧蓖蔽毕毙毖 5币庇痹闭敝弊必辟壁臂 6避陛鞭边编贬扁便变卞 7辨辩辫遍标彪膘表鳖憋 8别瘪彬斌濒滨宾摈兵冰 9柄丙秉饼炳
..
11
例
54 区 1 2 3 4 5 6 7 8 9 0 帧症郑证芝枝支吱蜘 1知肢脂汁之织职直植殖 2执值侄址指止趾只旨纸 3志挚掷至致置帜峙制智 4秩稚质炙痔滞治窒中盅 5忠钟衷终种肿重仲众舟 6周州洲诌粥轴肘帚咒皱 7宙昼骤珠株蛛朱猪诸诛 8逐竹烛煮拄瞩嘱主著柱 9助蛀贮铸筑
..
3
汉字的几种通行名称
Hanzi,Hantsu,汉字 Ideographic character,表意字符,中文字
符 Kanji-日文中的叫法 Hanja-朝鲜文中的叫法 CJK-中日韩通用字符集
Unihan
..
4
ASCII码
美国信息交换标准编码(“美标”)
用从0到127的128个数字来代表信息的规 范编码
0
─━│┃┄┅
1┆┇┈┉┊┋┌┍┎┏ 2┐┑┒┓└┕┖┗┘┙ 3┚┛├┝┞┟┠┡┢┣
4┤┥┦┧┨┩┪┫┬┭ 5┮┯┰┱┲┳┴┵┶┷
6┸┹┺┻┼┽┾┿╀╁
7╂╃╄╅╆╇╈╉╊╋
8
9
..
10
例
16 区 1 2 3 4 5 6 7 8 9 0 啊阿埃挨哎唉哀皑癌 1蔼矮艾碍爱隘鞍氨安俺 2按暗岸胺案肮昂盎凹敖 3熬翱袄傲奥懊澳芭捌扒 4叭吧笆八疤巴拔跋靶把 5耙坝霸罢爸白柏百摆佰 6败拜稗斑班搬扳般颁板 7版扮拌伴瓣半办绊邦帮 8梆榜膀绑棒磅蚌镑傍谤 9苞胞包褒剥
第一级汉字按照汉语拼音字母顺序排列,同音字以笔形顺序横 (一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔 相同按第二笔,依次类推。
第二级汉字按部首排序,本标准采用的部首与一般字典用的部首 基本相同,略有改变。部首次序及同部首字按笔划数排列,同笔 划数的字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶)、 折(乙)为序。起笔相同按第二笔,依次类推。
8○●◎◇◆□■△▲※
9→←↑↓〓
02 区 1 2 3 4 5 6 7 8 9
0 ⅰⅱⅲⅳⅴⅵⅶⅷⅸ
1ⅹ
⒈⒉⒊
2⒋⒌⒍⒎⒏⒐⒑⒒⒓⒔
3⒕⒖⒗⒘⒙⒚⒛⑴⑵⑶
4⑷⑸⑹⑺⑻⑼⑽⑾⑿⒀
5⒁⒂⒃⒄⒅⒆⒇①②③
6④⑤⑥⑦⑧⑨⑩
㈠
7㈡㈢㈣㈤㈥㈦㈧㈨㈩
8 ⅠⅡⅢⅣⅤⅥⅦⅧⅨ
9ⅩⅪⅫ
..
9
例
09 区 1 2 3 4 5 6 7 8 9
查表时先查区号,再查行、列,例如:“、”是0102,“蔼”是 1610。
..
8
例
01 区 1 2 3 4 5 6 7 8 9
『』〖〗
3【】±×÷∶∧∨∑∏
4∪∩∈∷√⊥∥∠⌒⊙
5∫∮≡≌≈∽∝≠≮≯
6≤≥∞∵∴♂♀°′″
7℃$¤¢£‰§№☆★