当前位置:文档之家› 文本素材处理word版

文本素材处理word版

第2章文本素材处理学习指南:本章介绍文本素材采集、编辑、加工处理的有关知识。

主要内容有:文本素材的基础知识,文本素材的采集与处理方法,文本素材创作实例。

学习本章,要求掌握以下知识:掌握文本在计算机中的表示方法,了解文本素材的主要特点;熟悉常见的文本文件的格式,并能正确地选择文本文件的存储格式;了解常用的文本素材采集方式,熟悉扫描仪+OCR文字识别输入方法;了解常用的文字处理软件,掌握Word文字处理的方法;会用相关的文字处理软件制作多媒体作品中需要的文本素材。

在多媒体作品中,文本是最基本也是最常用的素材。

一些说明、介绍、作品中的文字资料都会用到文本,作为多媒体系统的组成元素,它和其它素材同样重要。

文本素材处理包含文本的采集、录入、编辑等加工处理,本章将介绍文本素材处理的相关知识。

2.1 文本素材概述文本是人们早已熟知的信息表示方式,如一篇文章、一段程序、一个文件都可用文本描述。

它通常以字、句子、段落、节、章为单位,记录自然现象、表述思想感情、传达某种信息。

人们在阅读时,通常是一字一句、一行一页顺序地浏览。

文本是文字、字母、数字和各种功能符号的集合。

在现实生活中,人们对事情的讲述、逻辑的推理、数学公式的表述等都主要用文字和数字来准确的表达。

在多媒体应用系统中,虽然有图形、声音、视频影像等多种媒体形式,但是对于一些复杂而抽象的事件,文本表达却有它不可替代的独到之处。

2.1.2 文本素材基础知识在多媒体应用系统中,文本作为重要的基本素材而被广泛应用,它具有信息表达清楚、计算机处理方便、存储容易、传输快捷等优势。

具体来说:(1)编码形式简单在计算机中,西文字符最常用的编码是ASCII码,即American Standard Code For Information Interchange(美国信息交换标准代码)。

它用7位二进制数进行编码,可以表示27即 128个字符,其中包括数字字符0~9、大小写英文字符、运算符号、标点符号、标识符号和一些控制符号。

这些字符种类大致能够满足各种计算机语言、西方文字、常见命令的需要。

一个ASCII码字符在内存中占一个字节。

汉字字符在计算机中也是以编码形式处理的,汉字输入用输入编码,汉字存储用机内码,汉字输出用字型码。

在计算机中存储时,一个汉字占2个字节。

(2)易于获取,存储、处理和传输容易多媒体计算机系统中,文本资料可以用多种方式获取,可采用多种输入编码录入,还可以用光电技术或语音识别技术输入。

如果用键盘输入文字,对于一个熟练的文字录入员来说,每分钟可以输入上百个汉字,用光电扫描和语音识别录入,其录入和处理速度更加快捷。

西文字符和汉字在计算机中都是以一个或两个字节的二进制编码表示,占用的空间很小,处理和存储都非常方便,所生成的文本格式文件也很小,一篇十万字的纯中文文本仅占200k左右的空间,移动和传输都很容易。

(3)在多媒体作品中的表现形式丰富为了使文字在多媒体作品中更加美观生动,常将作品中的文字处理成多姿多彩的艺术形式。

各种文字处理软件都具有较强的处理功能,能将文本设置成多种多样的形式,通过对文本字体、字号、颜色、字形(如:加粗、斜体、底纹、下划线、方框、上标、下标等)、字间距、对齐等设置,使文本在多媒体作品中变得丰富多彩。

(4)可以配合其它媒体的应用而提高作品表现力文本具有其它媒体不可替代的重要作用,它除了自身所能完成的表述功能外,还可以配合其它媒体,共同完成对事件的描述,提高多媒体作品的表现能力。

它可以为图片添加说明、为视频添加字幕、为声音解说配上文字注释。

(5)建立超文本链接功能在多媒体应用系统中,可用文本设置超链接。

通过超文本建立的链接关系,实现程序的交互跳转,从而突破传统文本信息表示的线性和顺序结构、建立真正的多种媒体逻辑连接。

例如:在多媒体作品中,文章的标题、导航菜单、按钮中的文本都可以建立对应的超链接,用户可通过点击超链接选择自己需要的信息,这样可满足一些教学软件联想式学习的需要及一些多媒体软件交互式操作的需要。

2.1.2常见文本文件的格式目前流行的文字处理软件种类繁多,不同的软件生成的文件格式各不相同。

当使用不同的文本编辑软件编辑文本时,系统通常会采用默认的文本文件格式来保存文档。

如字处理软件MicroSoft Word XP/2003的默认文档格式为DOC ,当然该软件还支持另外一些流行的文本文件格式。

如TXT 、RTF等等。

下面是比较流行的文本文件格式:(1)TXT格式:是纯ASCII码文本文件,纯文本文件除了换行和回车外,不包括任何格式化的信息,即文件里没有任何有关文字字体、大小、颜色、位置等格式化信息。

Windows 系统的“记事本”就是支持TXT文本编辑和存储的文字工具程序。

所有的文字编辑软件和多媒体集成工具软件均可直接使用TXT文本格式文件。

利用纯文本不含任何格式化信息的特点,我们可以比较方便地实现一些图形表格文字的转换,例如,从网页上下载的文字资料一般都包含有格式控制,如果直接下载到Word等字处理环境中,会带有一些不需要的格式符号,常含有表格形式,通过“记事本”等工具,将下载的文本资料转换为纯文本后再导入Word中,会使排版变得轻松快捷。

(2)WRI格式:是Windows系统下的写字板应用程序所支持的文件格式。

(3)DOC格式:是Microsoft Word字处理软件所使用的默认文件格式,其中可以包含不同的字符格式和段落格式。

(4)RTF格式:是Rich Text Format文件格式,是一种可以包含文字、图片和热字(超文本)等多种媒体的文档。

在Macromedia公司的多媒体开发软件Authorware6.0/7.0中就可以直接对RTF格式文档进行编辑,并且通过RTF知识对象对其使用。

另外,在Microsoft Word字处理软件中也能将文档保存为RTF文件格式。

(5)WPS格式:是金山中文字处理软件的格式,其中包含特有的换行和排版信息,称为格式化文本,通常只在WPS编辑软件中使用。

各种文本格式可以通过一定的方法相互转换,例如:① WPS文档转换为Word文档:常见的WPS文档可以直接在WPS应用程序中转换为Word 应用程序使用的DOC格式文档。

操作方法是:启动WPS应用程序窗口,打开要转换的WPS 文档,然后选择〖文件〗菜单中的“另存为”命令,打开“另存为”对话框,然后在其文件类型列表选项中选择“Word的DOC文档”,按下【保存】按钮即可转换。

② Word文档转换为WPS文档:在Word 2000应用程序中也可以直接打开WPS文档,方法是:在Office 2000安装盘找到“\PFiles\Common\MSShared\TextConv”文件夹中的WPS 2000转换器程序“Wps2Word.exe”,双击它可以自动为Word 2000安装WPS 2000 转换器。

安装成功后,启动 Word 并单击〖文件〗菜单中的“打开”命令时,就会在“文件类型”列表框中找到“WPS DOS file 导入”和“WPS file (*.wps)”选项。

利用这一转换器,可以打开WPS 2000/97 的所有文档,并且会保留原文件的大部分格式信息和嵌入对象。

2.2 文字素材的采集与处理与其它媒体素材相比,文字输入方便、容易处理。

从操作方式上来看,文字采集主要可分为两类方式:自然输入和键盘编码输入。

通过构建OCR文字识别系统和语音识别系统,可以实现文字的自然输入,这是文字输入的最理想和快捷的方式。

但目前技术上还不够完善,还不能完全满足实际需要。

而键盘编码输入则是根据文字的读音或文字的基本结构将文字编成与之对应的数字代码或字母代码输入计算机。

下面将介绍文本信息采集的有关内容。

2.2.1 文本信息的获取文本信息输入、采集的方法主要有以下几类:(1)键盘输入方法:键盘输入法是利用键盘,按照一定的编码规则来输入汉字。

这是最早采用的文本输入方法,也是现在计算机进行文字输入最普遍的方式。

其中,英文字符可以直接从键盘输入,无需编码;汉字输入则必需对汉字编码,可以根据汉字的读音或基本形状用数字或英文字符编码。

常用的有“微软拼音输入法”、“五笔字型输入法”等。

汉字输入法种类繁多,而且新的输入法还在不断涌现,各种输入法各有特点,功能也不断增强。

键盘输入文本的优点是方便快捷,易修改并且不需附加录入设备,缺点是由于使用键盘输入文字通常需要理解和记忆对应的中文输入法的编码规则,因此输入速度较难提高。

对于键盘输入法来说,无论其有多好,都需要使用者经过一段时间的练习才可能达到基本要求的速度,至少用户的指法必须熟练才行,因此现在文本输入新技术正向着自然输入的方向发展。

(2)语音输入方法随着计算机技术的发展,大量信息输入仅仅通过键盘来完成已经不能满足人们的需要,让计算机能听懂人类语言,或是用语音来控制各种自动化系统,是一种最理想的信息输入选择。

语音输入法,是将声音通过话筒输入计算机后直接转换成文字的一种输入方法。

利用语音识别技术,计算机能迅速、自然地把读入计算机的声音信息转换成计算机中的文本。

语音输入法在硬件方面要求电脑必须配备能正常录音的声卡和录音设备,安装语音识别软件。

在调试好麦克风后,即可以对着麦克风进行朗读录入。

如果普通话不标准,可用语音识别软件提供的语音训练程序,进行一段时间的训练,让软件熟悉您的口音后,就可以通过讲话来实现文字输入。

识别软件将录入的语音信号识别转换为数字文本,实现语音文字输入。

目前,语音识别技术整合较好的软件有IBM公司的VIA Voice , VIA Voice标志大词汇量、非特定人和连续语音识别技术正在趋于成熟。

国内推出的Dutty ++语音识别系统、天信语音识别系统、世音通语音识别系统等也被广泛使用。

语音输入是通过向计算机发出一个简单的声音命令,控制计算机操作。

如:命令启动计算机中的 Microsoft Office Word 2003应用程序,只需对着话筒说道“开始程序Microsoft Office Word 2003”,就可以启动对应的应用程序Microsoft Word 2003。

然后进行朗读,计算机在语音识别软件的控制下自动写出对应于语句的文本。

但是,目前大多数语音识别软件构建的语音识别系统是与说话者相关的,还不是一个完善的非特定人识别系统,因此,在需要使用语音录入系统前必须经过反复训练,使计算机熟悉讲话者的语音、语调和节奏等声音特征后再进行语音输入,正确率可达到90%以上,能较准确完成语音输入转换成文本的功能。

语音输入方法的优点是可以快捷、自然地完成文本录入,可减轻用户使用键盘输入的疲劳;缺点是错字率仍然比较高,特别是一些未经训练的专业名词及生僻字,因此要求录入者发音比较标准,还需要先使系统适应录入者的语音语调。

相关主题