当前位置:文档之家› 第1章图灵机模型及数据编码.

第1章图灵机模型及数据编码.


字符的表示(2)

汉字编码

用户用输入码输入汉字,输入码比较容易 学习和记忆;系统由输入码找到相应的内 码,内码是计算机内部对汉字的表示;要 在显示器上显示或在打印机上打印出用户 所输入的汉字,需要汉字的字形码,系统 由内码找到相应的字形码
字符的表示(3)

汉字编码

汉字国标码

全称是GB2312-80《信息交换用汉字编码字符集——基 本集》,1980年发布,是中文信息处理的国家标准,也 称汉字交换码,简称GB码。根据统计,把最常用的 6763个汉字分成两级:一级汉字有3755个,按汉语拼 音排列;二级汉字有3008个,按偏旁部首排列。为了编 码,将汉字分成若干个区,每个区中94个汉字。由区号 和位号(区中的位置)构成了区位码。例如,“中”位 于第54区48位,区位码为5448。区号和位号各加32就 构成了国标码,这是为了与ASCII码兼容,每个字节值 大于32(0~32为非图形字符码值)。所以,“中”的 国标码为8650。
存储器

主存储器

地址
软盘、硬盘和光盘等

辅助存储器

1.4 数据在计算机中的表示

二进制 数值的表示 字符的表示 图形和图象的表示 音频数据的表示
数制

进位计数的方法即数制 在采用进位计数的数字系统中,如果只用r个 数码,则称其为基r数制(Radix-r Number System)或 r 进制,r 便称为该数制的“基数” (Radix)

二进制:B(Binary),如 (11101)B; 八进制:O(Octal),如 (35)O; 十进制:D(Decimal),如 (29)D; 十六进制:H(Hexadecimal),如 (1D)H;
二进制与其他数制的转换(1)

二进制与十进制的转换

十进制转换成二进制:将整数部分和小数 部分分别转换,然后再拼接起来


以离散余弦变换(Discrete Cosine Transform, DCT)为基础的有损压缩算法, 采用以预测技术为基础的无损压缩算法 以离散小波变换(Discrete Wavelet Transform, DWT)为基础的有损压缩算法(JPEG2000)


即每一个像素点表示颜色的二进制位数
音频数据的表示

采样频率

采样频率即每秒钟的采样次数。 即存放每一个采样点振幅值的二进制位数

采样点精度


声道数
1.5 数据压缩


在保留原数据表达的信息不变或者在稍 有变动但不致于影响使用的同时尽量减 少表达这些信息的数据量就是数据压缩 数据压缩有利于节省存储空间,而且可 有效提高数据传输效率
无损压缩(3)

霍夫曼编码
无Hale Waihona Puke 压缩(4)LZW算法



LZW算法是一种词典编码法,其根据是待编码的 数据中总包含有重复代码即词 LZW算法先编制一个基本词典,该词典由待压缩 数据当中出现过的每个字符构成,然后,在不断 编码的待压缩数据的过程中不断扩充,词典中的 每个词都有一个编号即码 数据经过LZW算法压缩的结果是一系列的码
字符的表示(4)

汉字编码

汉字机内码

一个国标码占两个字节,每个字节最高位仍为 “0”;英文字符的机内码是7位ASCII码,最 高位也是“0”。因为西文字符和汉字都是字 符,为了在计算机内部能够区分是汉字编码还 是ASCII码,将国标码的每个字节的最高位由 “0”变为“1”,变换后的国标码称为汉字机 内码。由此可知汉字机内码的每个字节都大于 128,而每个西文字符的ASCII码值均小于128。

反码:


补码:


字符的表示(1)

西文字符



最常用的是ASCII字符编码,即American Standard Code for Information Interchange (美国信息交换 标准代码),用7位二进制编码,它可以表示27 即 128个字符 EBCDIC码,即Extended Binary Coded Decimal Interchange Code(扩展的二-十进制交换码),主 要用在大型机器中,采用8位二进制编码,有256个 编码状态,但只选用其中一部分 存放和使用数据的软件会以其他方式保存有关类型 的信息,指明这个数据是何类型,不致引起混淆
无损压缩(4)

LZW算法

假设待压缩数据为:ABBABABAC
有损压缩(1)


对声音、图像等多媒体信息来说,忽略一些 微小的细节信息不会严重影响视听质量。因 此,可以通过有意丢弃一些对视听效果相对 不太重要的细节数据来压缩数据,这类压缩 方法就称为有损压缩。 经有损压缩的数据,进行数据重构,重构后 的数据与原始数据有所不同,但不影响人对 原始数据表达的信息的理解

图像

图形和图象的表示(2)

基本概念

动画

每一副画面通过一些工具软件对图像素材进行 编辑制作而成;动画是用人工合成的方法对真 实世界的一种模拟 对视频信号源(如电视机、摄像机等)经过采 样和数字化后保存;而视频影像则是对真实世 界的记录

视频

图形和图象的表示(3)


一副图像可认为是由若干行和若干列的 像素(Pixels)点组成的阵列,每个像 素点用若干个二进制进行编码,表示图 像的颜色,这就是图像的数字化。 图像分辨率 颜色深度
图灵机的直观描述

3个部件:有穷控制器、无穷带和读写头 3个动作:改写当前格、左移或右移一格
存储带 …… 读写头 ……
有穷控制器 图灵机模型
图灵机的形式化描述



图灵机是一个五元组(K,∑,δ,s,H), 其中: K 是有穷个状态的集合; ∑ 是字母表,即符号的集合; s ∈K是初始状态; H∈K 是停机状态的集合,当控制器内部状态 为停机状态时图灵机结束计算; δ是转移函数,即控制器的规则集合。
p
数值的表示(4)

若要考虑符号位的处理,则运算变得复 杂:

为了解决此类问题,在机器数中,负数 有三种表示法:原码、反码和补码。
数值的表示(5)

原码:

数符位以0表示正1表示负,数值部分就是绝对值 的二进制表示,不便于加减运算 对于正数与原码相同;对于负数,数符位为1,其 数值部分为绝对值取反 对于正数与原码相同;对于负数,数符位为1,其 数值部分为绝对值取反最右加1,即为反码加1 可方便地实现正负数的加法运算,符号位如同数 值一样参加运算,也允许产生最高位的进位
字符的表示(5)

汉字编码

汉字的输入编码


目的:进行汉字的输入 要求:编码要尽可能的短,重码要尽量少,容 易学容易上手 最常用的输入码:五笔字型、智能拼音等。
字符的表示(6)

汉字编码

汉字字形码

点阵方式 矢量方式
图形和图象的表示(1)

基本概念

图形

一般是指通过绘图软件绘制的由直线、圆、圆 弧、任意曲线等组成的画面,即图形是由计算 机产生的,且以矢量形式存储; 是由扫描仪、数字照相机、摄像机等输入的画 面,即图像是由真实的场景或现实存在的图片 输入计算机产生的,图像以位图形式存储。


二进制与八进制的转换类似
数值的表示(1)

机器数


把在机器内存放的正负号数码化的数称为 机器数,把机器外部由正负表示的数称为 真值数 若一个数占8位,真值数(-0101100)B 的机器数为10101100
数值的表示(2)

整数和实数

整数
数值的表示(3)

整数和实数

实数
N d 2

整数部分,采用除2取余法; 小数部分,采用乘2取整法。 小数点后的权分别为2的-1、-2、-3、……次幂

二进制转换为十进制:直接按权展开即可

二进制与其他数制的转换(2)

十进制转换成二进制:
二进制与其他数制的转换(3)

二进制转换为十进制:
二进制与其他数制的转换(4)
二进制与十六进制的转换 161=24,4位二进制数刚好可以表示0-F这16个 数码,也就是说二进制的4位数正好可以用1位 十六进制数表示
可以编码为:
8A0A6A1A30A7A50A1A30A0A4A8
无损压缩(2)

霍夫曼编码




(1)根据符号出现的概率大小按由小到大的次序 排序; (2)把概率最小的两个符号组成一个节点P1; (3)重复步骤(2),依次得到节点P2,P3,P4, 构成了如图1.17所示的一棵倒立的“树”;其中, P4为树根,称为根节点;P1、P2、P3为树枝,称 为枝节点;A、B、C、D和E为树叶; (4)从根节点P4开始到对应于每个符号的树叶, 左分支标上“0”,右分支标上“1”; (5)从根节点P4开始顺着树枝到每个叶子分别 写出每个符号的代码

JPEG:Joint Photographic Experts Group MPEG:Moving Picture Experts Group
有损压缩(2)

JPEG:由国际标准化组织(ISO)和国际电工 技术委员会(International Electrotechnical Commission)联合组成的一个专家组,负责 制订静态的数字图像数据压缩标准
1.2 位的存储

如果用0-1作为编码的基本元素的话, 那么存储的最小单位为1位(bit),要 么是0要么是1。可见只要存储装置有两 种不同的稳定状态就能可以表示和存储 这两个元素,其中一个状态表示1,则 另一种状态就表示0
相关主题