计算机导论课程教案教学过程新课导入:提问:什么是数字媒体?数字、文字、声音、图像都是人们用以表达和传递信息的媒体。
今天我们就来学习文本与文本处理。
大家都知道计算机中处理的数据或信息都是二进制的,那我们的文字在计算机中是怎么表示的呢?下面我们就来学习字符的编码。
新课讲授:5.1 文本与文本处理5.1.1 字符的编码1.西文字符的编码(1)西文字符集:由拉丁字母、数字、标点符号及一些特殊符号等常用字符组成。
(2)字符的编码:每一个字符有一个代码,即字符的二进制表示。
(3)使用最广泛的西文字符编码--ASCII码2. 汉字编码1.GB2312-80汉字编码《信息交换用汉字编码字符集·基本集》(GB2312-80)(1) 组成:●第一部分:字母,数字和各种符号,共682个图形符号●第二部分:一级常用字,共3755个,按汉语拼音排列●第三部分:二级常用字,共3008个,按偏旁部首排列2.GBK汉字内码扩充规范问题:GB2312-80只有6763个汉字,不够用。
解决方法:1995年发布GBK,全称为《汉字内码扩展规范》GBK字符集中的每个字符都采用双字节表示,首字节在81-FE之间,尾字节在40-FE 之间3.UCS/Unicode与GB18030汉字编码标准(1)通用编码字符集UCS/Unicode:约有6800种语言和文字在使用,需要建立一个多文种(Multilingual)处理环境目标与途径:实现所有字符在同一字符集中统一编码UCS:ISO/IEC 10646:通用多8位编码字符集Unicode:统一码或联合码UCS/Unicode:用4个字节对全世界现代书面文字所使用的所有字符、符号进行编码(记作UCS-4)优点:编码空间大,能容纳足够多的各种字符(13亿字符)缺点:4字节的字符编码使存储空间浪费严重克服:把第1和第2字节均为“0”的一个子空间,作为UCS/Unicode的子集来使用,记作UCS-2。
UCS/Unicode与GB2312和GBK编码标准不兼容5.1.2 文本准备人工输入:通过键盘、手写笔或语音输入方式输入字符特点:速度慢、成本高,不适合处理大批量文字的应用自动输入:将纸介质上的文本通过识别技术自动转换为文字的编码特点:速度快,效率高文字的自动识别分为:印刷体识别和手写体识别输入法的分类:数字编码、字音编码、字形编码、形音编码使用不同的输入编码方法向计算机输入的同一个汉字,它们的内码是相同的。
5.1.3 文本的分类与表示文本分类根据排版格式分:简单文本、丰富格式文本根据文本内容分:线性文本、超文本根据文本内容是否变化和如何变化分:静态文本、动态文本、主动文本(1) 简单文本(纯文本):纯文本文件后缀名是.txt(2) 丰富格式文本:文本的格式化:文字的字体、字号、颜色、文字走向、页面大小、布局、段落格式等。
RTF格式(中间格式)、多媒体文档(Multimedia Document)(3) 超文本超文本的阅读方式传统的顺序式阅读通过链接、跳转、导航、回溯等操作实现跳跃式阅读超文本的结构:超链(hyperlink)、链源、链宿5.1.4 文本的编辑与处理1.文本编辑对字、词、句、段落进行添加、删除、修改等操作字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等段落的处理:设置行距、段间距、段缩进、对称方式等页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等2.文本处理(1)内容字词层面:字数统计,字频统计,简/繁体相互转换,词法检测、词语排序,自动分词,词频统计,词性标注,词义辨识,大陆/台湾术语转换,语句层面:语法检查、文语转换、文种转换等篇章层面:关键词提取,文摘自动生成,文本分类,文本检索3.常用文本处理软件(1)面向通信的文本处理软件:微软公司的Outlook Express(2)面向办公的文本处理软件:典型软件:MS-Office、WPS、永中office(3)面向出版的文本处理软件:美国Adobe公司的PageMaker和PDF Writer(4)面向网络信息发布和电子出版的文本处理软件:制作HTML文件的软件:FrontPage、Word。
面向电子出版的软件:PDF格式文件。
5.1.5 文本的展现1.文本输出(1)文本输出的两种方式:在屏幕上显示文本;用打印机打印文本等操作。
(2)文本输出过程:首先要对文本的格式描述进行解释,然后生成文字和图表的映像(bitmap),最后再传送到显示器或打印机输出。
5.2 图像与图形数字图像的分类(1)图像(image):是指从现实世界中通过数字化设备获取的图像,称为取样图像(或点阵图像、位图图像或简称图像)。
(2)图形(graphics):是指使用计算机合成的图像(synthetic image),称为矢量图形(vector graphics),简称图形。
5.2.1 数字图像的获取1.图像的数字化(1)图像的获取:从现实世界中获得数字图像的过程,实质上是模拟信号的数字化过程。
2.数字图像获取设备2D图像获取设备:只能对图片或景物的2D投影进行数字化。
如扫描仪、数码相机等;3D图像获取设备:能获取包括深度信息在内的3D景物的信息。
如3D扫描仪。
图像的数字化步骤:扫描、分色、取样、量化。
5.2.2图像的表示与压缩编码1.图像的表示方法与主要参数从图像获取过程得知,一幅取样图像由M(行)* N(列)个取样点组成,每个取样点是组成取样图像的基本单位,称为像素(picture element, 简写为pel)。
彩色图像的像素是矢量,它由多个彩色分量组成,黑白图像的像素只有1个亮度值矩阵的行数称为图像的垂直分辨率,列数称为图像的水平分辨率,矩阵中的元素是像素颜色分量的亮度值,使用整数表示,一般是8位至12位图像的描述信息●图像大小:也称图像分辨率(垂直分辨率×水平分辨率)●颜色空间的类型:指彩色图像所使用的颜色描述方法,也叫颜色模型。
常用颜色模型:RGB(红,绿,蓝)、YUV(亮度,色度)等。
●像素深度:即像素的所有颜色分量的位数之和它决定了不同颜色(亮度)的最大数目2.图像的压缩编码(1)一幅图像数据量的计算(以字节为单位):图像数据量=图像水平分辨率×图像垂直分辨率×像素深度/8(2)几种常用图像的数据量(3)图像数据压缩的可能性数字图像中的数据相关性很强,冗余度大;人眼视觉有一定局限性,即使压缩图像有失真,只要限制在人眼允许的误差范围之内,也是允许的。
(4)数据压缩类型无损压缩:压缩以后的数据进行图像还原时,重建的图像与原始图像完全相同。
例如:行程长度编码、哈夫曼(Huffman)编码;有损压缩:使用压缩后的数据进行图像重建时,重建后的图像与原始图像虽有一定的误差,但不影响人们对图像含义的正确理解。
例如:变换编码、矢量编码等(5) 压缩编码方法优劣的评价压缩倍数的大小、重建图像的质量(有损压缩时)、压缩算法的复杂程度。
(6)图像压缩编码方法的国际标准和工业标准:ISO和IEC两个国际机构联合制定了一个静止图像数据压缩编码的国际标准,称为JPEG标准。
JPEG标准的特点:适用范围广;算法复杂度适中;软硬件均可实现、压缩比可控制(压缩比低,图像质量好;压缩比高,质量差);JPEG-2000的特点:适用于各种不同类型和不同特性的图像,采用了小波分析等先进算法。
3.常用图像文件格式(1) BMP(BitMaP-file)图像:微软公司在Windows操作系统下使用的一种标准图像文件格式。
一个文件存放一幅图像,可以进行无损压缩,也可不压缩。
不压缩的BMP文件是一种通用的图像文件格式。
(2) TIFF(Tagged Image File Format)图像:用于扫描仪和桌面出版,能支持多种压缩方法和多种不同类型的图像,有许多图像图形应用软件支持这种文件格式。
(3) GIF(Graphics Interchange Format)图像:互联网上广泛使用,颜色数目较少(不超过256色),文件特别小,适合网络传输。
GIF适用于插图、剪贴画等色彩数目不多的应用场合。
它可以将许多张图像保存在同一个文件中,可按规定的时间间隔逐一进行显示形成动画的效果,在网页制作中大量使用。
5.2.3 数字图像处理与应用1.数字图像处理(1)数字图像处理:使用计算机对来自照相机、摄像机、传真机、扫描仪、医用CT机、X光机等的图像,进行去噪、增强、复原、分割、提取特征、压缩、存储、检索等操作处理(2)图像处理的主要目的提高图像的视感质量、图像复原与重建、图像分析、图像的存储、管理、检索,以及图像内容与知识产权的保护等。
2.图像处理软件与应用领域密切相关,通常具有很强的专业性,如遥感图像处理软件、医学图像处理软件等。
使用较多的是面向办公、出版与信息发布的图像处理软件,也称为图像修饰或图像编辑软件,支持多种不同的图像文件格式,提供多种图像编辑处理功能,可制作出生动形象的图像。
3.数字图像的应用图像通信、遥感、医疗诊断、工业生产中的应用、机器人视觉、军事、公安、档案管理。
5.2.4 计算机图形1.景物形状的计算机表示1) 基本概念景物的模型(model ):景物在计算机内的描述景物的建模(modeling):人们进行景物描述的过程绘制(rendering):也称图像合成根据景物的模型生成图像的过程,所产生的数字图像称为计算机合成图像计算机图形学(Computer Graphics):研究如何使用计算机描述景物并生成其图像的原理、方法与技术2)景物建模几何模型:景物建模方法与景物类型有关。
普通工业产品(如电视机、电话机、汽车、飞机等),使用基本的几何元素(如点、线、面、体等)及表面材料的性质等进行描述所建立的模型几何模型分类(按照所使用的几何元素类型)线框模型、曲面模型、实体模型几何模型应用:CAD/CAM过程模型/算法模型:根据景物的生成规律,并使用相应的算法来描述其规律所建立的模型3.计算机课程图像的应用CAD/CAM、利用计算机生成各种地形图、交通图、气象图、海洋图等、作战指挥和军事训练、计算机动画和计算机艺术。
4.矢量绘图软件矢量图形:计算机合成图像矢量绘图软件:制作矢量图形的软件如:AutoCAD、MAPInfo、ARCInfo等授课小结:本次课主要讲授文本与文本处理、图像与图形,同学们要理解GB2312,GBK和GB18030三种汉字编码标准的内容、关系与应用,熟悉中文文本准备的方法,掌握常用文本编辑与处理软件的功能与应用。
要了解图像的表示与压缩编码、掌握图像的几种常用格式及其特点,了解获取图像的过程,了解图像和图形的应用。
讲解的内容比较多,同学们课后要加以复习巩固。