第5章数字媒体及应用
数据量=水平分辨率×垂直分辨率×像素深度/8
n 几种常用Biblioteka 式的图像的数据量:图像大小 8位(256色) 16位(65536色) 24位(真彩色)
640×480
300 KB
600 KB
900 KB
1024×768
768 KB
1.5 MB
2.25 MB
1280×1024 1.25 MB
2.5 MB
3.75 MB
n 提高图像的传输速度,减少通信费用
n 图像数据压缩的可能性:
n 数字图像中有大量的数据冗余
n 人眼视觉有局限性,允许图像有一些失真
n 图像数据压缩的两种类型:
n 无损压缩:用压缩后的数据还原出来的图像没有任何误差
n 有损压缩:用压缩后的数据还原出来的图像有一定的误差
n 压缩编码方法的评价
•压缩倍数的高低(压缩比) •重建图像的质量(有损压缩时) •压缩算法的复杂程度
•0 1 2 3 4 5 6 7 8 9 A B C D E F
•b6b5b4
•0
•1
•2
•3
•4
•5
•6
•7
第5章数字媒体及应用
常用的汉字编码字符集
n 国家标准GB2312 n 汉字扩充规范 GBK n 国家标准GB18030 n 台湾地区的标准汉字字符集CNS 11643 (BIG 5,
俗称“大五码”) n 日本工业标准汉字字符集JIS X 0208-90 n 韩国国家标准汉字字符集KSC 5601-87
西文字符的编码——ASCII码
n 西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号 以及一些特殊符号所组成
n 美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码):
n ASCII字符集包含96个可打印字符和32个控制字符 n 采用7个二进位进行编码 n 计算机中使用1个字节存储1个ASCII 字符
– 文字、表格混合识别 – 智能校对功能
•语音输 入
•印刷体识别
•纸介 质文本
•扫描仪
•文本 的映象
•(image )
•OCR
•数字 文本
第5章数字媒体及应用
文字符号输入计算机的方法
•字符信息的输入
•人工输入
•自动识别输入
•键盘输入
•联机手写输 入
•语音输 入
•印刷体识别 •手写体识别
– 技术上非常困难,还无法实用 –目前准备先突破工整的楷书手写体的识别!
第5章数字媒体及应用
GB2312汉字编码字符集
n 1980年颁布《信息交换用汉字编码字符集·基本 集》——GB2312-1980
n GB2312字符集由三个部分构成:
•拉丁字母、俄 文、日文平假 名与片假名、 希腊字母、汉 语拼音等共682 个
…… •
•位
•1 •9
••1
•2 •3 …号…………… •94 •字母、数字和各种符号
•Red分 量
•Green分 量
•Blue分量
•像素
第5章数字媒体及应用
例1:黑白图象的表示
n 黑白图像的每个像素只有一个分量,且只用1个二进位表 示,其取值仅“0”(黑)和“1”(白)两种
•黑白图像
第5章数字媒体及应用
例2:灰度图象的表示
灰度图像的每个像素也只有一个分量,一般用8~12个二 进位表示,其取值范围是:0~2n-1,可表示2n个不同的 亮度
第5章数字媒体及应用
计算机文字处理过程
n 文字信息在计算机中称为“文本”(text),文本是计算机中最 常用的一种数字媒体
n 文本由一系列 “字符”(character)组成,每个字符均使用二 进制编码表示
n 文本在计算机中的处理过程是:
•(3)
•文本处理
•文本准备
•(文字与图 表
• 的输入)
•文本编辑
n 用来表示组成该图像的行列数目,亦即图像所包含的像素数目 n 使用 水平分辨率x垂直分辨率 表示 n 对在屏幕上显示出来的大小有影响
n 颜色空间的类型,指彩色图像所使用的颜色描述方法,如:
n RGB(红、绿、蓝)模型,显示器使用 n CMYK(青、品红、黄、黑)模型,彩色打印机使用 n HSB(色彩、饱和度、亮度)模型,用户界面中使用 n YUV(亮度、色度)模型,彩色电视信号传输时使用
• ……
•16
•一级汉字
•(3755个)
区
•(按汉语拼音排列)
号
•55 •56
•二级汉字
•(3008个)
•87
•(按偏旁部首排列) •(扩充使用)
•94
•共6763个汉字和 682个符号,每个 汉字或符号都有一 个确定位置,该位 置的区号和位号就 是这个汉字的“区 位码”
•(注:区位码仅用于在键盘上输入汉字)
n 像素深度,即像素的所有颜色分量的二进位数目之和
图像类型 单色图像 彩色图像
黑白图像 灰度图像 彩色图像
像素的组成 仅1个分量 仅1个分量 3个分量以上
像素深度(位数) 1位 2~12位 8~36位
颜色空间 不使用 不使用 RGB,CMY,YUV等
第5章数字媒体及应用
数字图像的数据量
n 数字图像数据量的计算公式(以字节为单位):
第5章数字媒体及应用
文字符号输入计算机的方法
•字符信息的输入
•人工输入
•自动识别输入
•键盘输入
•联机手写输 入
•优点:
–自然,流畅 –小型化,适合移动计算
•不足:
–识别速度和正确性还需提高 –书写要求还要降低
第5章数字媒体及应用
文字符号输入计算机的方法
•字符信息的输入
•人工输入
•自动识别输入
•键盘输入
第5章数字媒体及应用
汉字的键盘输入
n 汉字与键盘上的键无法一一对应,因此必须使用 几个键来表示一个汉字,这就称为汉字的“键盘输 入编码” n 优秀的汉字键盘输入编码应具有的特点:
n 易学习、易记忆 n 效率高(平均击键次数较少) n 重码少 n 容量大(可输入的汉字字数多)
第5章数字媒体及应用
5.1.3 文本的展现(输出)
•数
•字
•量 化
•图
•量 化
•像
•测量每个取样 点的每个分量
•对取样点每个 分量的亮度值进
(基色)的亮度 行A/D转换,使
值
用数字整型量表
第5章数字示媒体及应用
5.2.2 图像的表示与压缩编码
第5章数字媒体及应用
数字(取样)图像的组成
n 数字取样图像由M(列) × N(行)个取样点组成 n 取样点是组成数字取样图像的基本单位,称为“像素” n 彩色图像的像素通常由3个彩色分量组成 n 灰度图像和黑白图像的像素只包含1个亮度分量
•灰度图像
第5章数字媒体及应用
例3:彩色图象的表示
彩色图像的每个像素有三个分量,分别表示三个基色的亮度,假设3 个分量分别用n,m,k个二进位表示,则可表示2n+m+k种不同的颜色
•红 色 分 量 •绿 色 分 量 •蓝 色 分 量
第5章数字媒体及应用
数字(取样)图像的主要参数
n 图像大小(图像分辨率):
n 存在问题:
n 7位代码空间太小(只能对128个字符编码) n 不同国家和地区使用不同的字符集及其编码,互不兼容 n 东亚地区使用的大字符集无法编码
第5章数字媒体及应用
标准ASCII字符集及其码表
• b6 b5 b4 b3 b2 b1 b0
•1 01 0 •01 10 1
•b3b2b1b0
0
01
•联机手写输 入
•语音输 入
•优点: •自然,方便,适合移动计算
•不足: •对说话人、说话方式、说话内容的适应能力要大 大增强 •识别速度和正确性还需大大提高
第5章数字媒体及应用
文字符号输入计算机的方法
•键盘输入
•人工输入
•联机手写输 入
•字符信息的输入
•识别率已达到98% •功能:
– 简、繁体字混合识别 •自动识– 中别文输、入西文混合识别
第5章数字媒体及应用
图像文件格式例1:BMP格式
n BMP图像格式是Windows操作系统下使用的一种 标准图像格式
n 支持单色、16色、256色、真彩色图像 n 一个文件一幅图像,可以进行无损压缩,也可不压
•Unicode:UTF-8 单字节可变长编码
•单字节:ASCII字符 •双字节:拉丁、希腊、阿拉伯,··· •三字节:CJK汉字 •四字节:其他
•应用:Linux,Web网页,电子邮件
•Unicode:UTF-16双字节可变长编码
•双字节: ASCII字符、拉丁、希腊、 阿拉伯,常用CJK汉字,··· •四字节:CJK汉字
•应用:Windows,Mac,Java,···
第5章数字媒体及应用
例: IE浏览网页时文字编码的选择
第5章数字媒体及应用
5.1.2. 文本准备
——文稿如何输入计算机
第5章数字媒体及应用
文字符号输入计算机的方法
•字符信息的输入
•人工输入
•自动识别输入
•键盘输入
•(1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 •(3)字形编码,如五笔字形和表形码等, (4)形音编码 •发展趋势:基于统计和学习功能的以词语(短语)或句子作为输入单 位的输入方法
第5章数字媒体及应用
文本的展现(输出)
n 目的:阅读、浏览或打印文本 n 使用的软件:文本阅读器/文本浏览器
n嵌入在文本编辑(处理)软件中,如微软的Word, n独立的软件:如Adobe公司的Acrobat Reader,