当前位置：文档之家› 怎样将扫描文件转成WORD格式

怎样将扫描文件转成WORD格式

Apabi Reader转成文档可以保存为txt文本信息，选择文本菜单——〉保存文本信息，即可。

再把txt文件内容复制到word里稍作编辑就行了。

如何用apabi reader4.0把pdf文件转换成word文档用Apabi Reader打开PDF文件，保存成txt 文件，再拷贝到Word中，就可以了把PDF文档放在Apabi reader中点击文件选择储存为，再选择文件类型里面有个doc的文件类型，选择它点击保存就OK了如何把Apabi Reader 3.2的文档转为TXT或者是WORD文档?不能直接复制，只能用OCR识别，对于安装word完整版的，可以用word里的OCR识别插件来识别方法：1.安装打印机服务，在安装过程中选择word2.在Apabi Reader中，选择打印3.这是会自动跳出处理程序一般PDF文件不能复制是因为文本保护加密了,打开文件可以看到在左下角有一个小锁.搜一个叫PDF文件解密的软件,先将加密的文件解密,然后就可以复制了.如果是加密的话，你不嫌麻烦，就用屏幕截图保存为图片，再用orc文本识别软件，把字抠出来怎样将扫描文件转成WORD格式电子书是存储在光、电、磁等载体之上的数字图书。

在早期的电子出版中，电子书大都封存在光盘中出售给顾客；在网络出版时期，电子书并没有具体的出版物形式，取而代之的是电子书格式。

格式简而言之就是存储方式，一本电子书可以做成TXT文档或Word文档。

但这些格式不但不利于阅读，也无美观可言，更不用说进行加密、版权管理了。

因此，几乎各个厂商都将目光放到了专门的电子书格式上，开发出了各种不同的电子书格式，几乎每一家公司推出的电子书阅读器就有一种专门的电子书格式。

电子书阅读器有软、硬件之分。

后者称之为专用阅读器，这种阅读器只有一个功能：提供相应格式电子书的阅读环境。

所以每种专用阅读器就有一个独立格式，如SoftBook格式、RocketBook格式、eBookman格式等等。

软件形式的阅读器主要应用于PC机、PDA等数字处理设备上。

PC机上最常见的是微软LIT格式和Adobe公司的PDF文件；PDA则主要采用PRC文件格式。

CHM和HLP格式随着技术的进步，单纯文字形式的电子书已经不能满足读者的要求，因此，CHM和HLP格式的电子书应运而生，作为Windows系统帮助文件的标准格式，CHM和HLP格式能够支持图片的插入，并且还能通过制作目录、索引等功能来方便读者阅读。

这两种格式无须任何第三方软件支持，在Windows系统中就可以直接阅读。

CEB格式CEB格式是由北大方正公司独立开发的电子书格式，由于在文档转换过程中采用了“高保真”技术，从而可以使CEB格式的电子书最大限度地保持原来的样式。

正是基于这种特点，不少电子书发行机构和数字化图书馆都已经开始采用这种格式，国家有关部门还把CEB格式作为电子公文传递的标准格式。

方正Apabi Reader(阿帕比)是CEB格式的指定阅读软件，Apabi Reader还具有字体缩放、书签、作笔记、书籍管理、翻译和文字部分拷贝功能，能尽量符合广大读者传统的阅读习惯。

网络上CEB格式的电子书比较多，(游书网)、(新浪读书频道)/(华夏电子书局)(中文电子书网)都是很不错的选择，只是上述网站中的大部分资源都是收费的。

如果你只是想体验一下Apabi Reader的效果，那么就去阿帕比免费电子书下载网站(/ebookdown/ebook_3.htm)看一下吧，里面有好多的免费电子书可以下载阅读。

PDF格式PDF是由Adobe公司所开发的电子读物文件格式，它可以真实地反映出原文档中的格式、字体、版式和图片，并能确保文档打印出来的效果不失真。

因此，PDF格式已经成为一种国际上认可的电子文档格式。

PDF文件的专用阅读工具就是Adobe Acrobat Reader软件。

为了能够使读者阅读到原始版面，不少报纸的电子版都是采用PDF格式，如上海的《新民晚报》(/pdf/default.asp)，北京的《北京青年报》()等。

顺便再说一句，上文介绍过的方正Apabi Reader(阿帕比)也能阅读PDF文档，所以在安装PDF阅读软件的时候，你可以两者选其一。

PDG格式超星公司已经通过全国各家图书馆，收集了大约30万册左右的各种图书，并且把书籍经过扫描后存储为PDG数字格式，存放在超星数字图书馆中。

如果你要想阅读这些图书，则必须使用超星阅览器(Superstar Reader)，把阅览器安装完成后，打开超星阅览器，点击“资源”，我们就可以看到按照不同科目划分的图书分类，展开分类后，每一本具体的书就呈现在我们面前了。

在阅读过程中，你还可以选择把这本书进行下载。

但是令人感到遗憾的一点就是，非超星读书卡会员的读者只能试读每本书的前17页，为了能完整地读到每一本书，还是赶快买读书卡进行注册吧。

WDL和WDF格式WDL和WDF格式解决了不同软件平台和语言系统互相之间不兼容的问题，由于这两种格式对汉字和文档中的图片的支持效果特别好，所以，当你在使用DynaDoc Reader阅读这两种格式时，绝对不会发生字体变形、乱码等现象。

从目前使用的情况来看，一些计算机编程类的电子书籍，大都喜欢采用WDL格式。

如果你对编程感兴趣，那么DynaDoc Reader可是你的必备软件之一。

ABM 和BOK格式ABM和BOK作为两种全新的数码出版物格式，你可能会对它们有点陌生，这两种格式最大的特点就是能把文字内容、图片、声音甚至是视频动画有机地结合为整体。

在阅读时，能给你带来视觉、听觉上全方位的享受。

“藏画”作为ABM和BOK格式的指定阅读软件，使用方法相当简单，打开软件后，你只要用鼠标把文件拖到播放窗口后，文件就会自动运行。

OCR （Optical Character Recognition光学字符识别）技术，是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。

扫描形成的PDF格式文件不能用相关的PDF软件将其转换成ＷＯＲＤ格式。

要将图形中的文字转换成文本文字，一般是用OCR软件。

但是如果您的电脑安装的是Office2003的话，用其安装后的“Microsoft Office Document Image Writer”打印机就行，而且效果还较一般的OCR软件强，具体方法是：你先打开你问题中说的PDF格式的扫描文件，再进行打印，打印时选用“Microsoft Office Document Image Writer”打印机（请见上传的图1），选好保存位置和文件名后点击“确定”进行打印。

打印完成后就会在你选择的保存位置出现如图2所示图标的文件（假定名为01）。

然后你再打开该“01”文件，点击左上角的“工具”—“将文本发送到Word”（见图3），最后你按提示保存即可。

1.扫描文件是图片型的，没法如Word一样直接编辑。

2.对于修改量不大的一般可用PS软件进行修改，而我却是先转换成PDF文件，再用“Foxit PDF Editor”软件对图片型的PDF文件进行修改。

3.大量修改的，建议用OCR软件进行文字识别后转变成Word文件就能编辑修改了。

TH-OCR XP 能够适应超过一百种Windows字体。

TH-OCR XP 能够识别全部简体国标一二级6763个字符，繁体13000多字符。

TH-OCR XP 能够识别彩色图象，并转换成带有彩色图片的RTF格式（WORD可编辑）。

TH-OCR XP 支持多任务，可以在识别一篇文章的同时扫描或编辑其它文档。

TH-OCR XP 中对于每个区域可以设定不同的字体，例如一篇文档中的大段英文可以设为英文识别，以提高识别率。

按住Ctrl键用鼠标拖动，可以移动区域。

按住Shift键用鼠标点取，可以选择多个区域，一起设置字符集和类型。

按住Shift键用鼠标右键拉直线可以进行手动倾斜校正。

版面分析前根据实际情况选择“报纸版面”或“杂志版面”可以提高版面分析正确性。

对一般文本识别扫描分辨率用300DPI比较合适，识别小于5号的字可选400DPI。

选择“简体全字集”或“繁体全字集”，能够识别更多的字体和全部字符集，但识别速度较慢用OCR软件进行扫描识别文本的小技巧扫描仪的一个重要功能就是通过OCR软件（即文字识别软件）将扫描后的文字图像转换成文本格式的文件，使文字处理软件能够调用处理。

这样可以大大提高文字录入速度，极大地提高工作效率。

目前，文字识别软件主要有《尚书OCR》、《汉王OCR》和《紫光OCR》等几种。

不过，我们在进行文字识别时经常会遇到识别率低的问题，其原因除了被识别稿件有问题外，主要还是我们没有掌握好扫描及OCR识别软件的使用技巧。

那么进行文字识别时有哪些技巧呢？一、根据识别稿的质量进行处理进行扫描识别时，在可能的情况下应尽量选择清晰度与洁净度都很高的识别稿，识别稿的清晰度与洁净度的不同会使扫描后的识别率有很大差距。

对一般的印刷稿、打印稿等质量较好的文稿进行识别，只要掌握好方法与技巧，其识别率一般可达到98％以上。

而对报纸、杂志等清晰度不佳的原稿进行识别，无论使用何种识别软件都难以达到很高的识别率。

1.对一些带有下划线、分隔线等符号的文本原稿，有些OCR软件是识别不出的，一般会出现乱码。

如果必须扫描带有这些符号的原稿，一是要确保使用的识别软件能够识别这些符号。

二是使用工具擦掉这些特殊符号，使识别软件能正确识别这些文字。

如果扫描后的文档中含有OCR软件不能识别的图像、图形和一些特殊符号，可以考虑使用“擦拭”工具将文档中的图像、图形和一些特殊符号擦除，同时将图像上一些杂点也一并去除。

使图像中除了文字没有多余的东西，这可以大大提高识别率并减少识别后的修改工作。

2.在扫描识别报纸或纸张较薄的文稿时，扫描时稿件背面的文字通常会透过纸张造成错字或乱码，使识别率大大降低。

在对这类原稿扫描时，我们可以在原稿的背面覆盖一张黑纸，在进行正式扫描时，适当增加扫描对比度或亮度，即可有效提高识别率。

3.对于一些图文混排的原稿，扫描成一幅图像进行全区识别会严重影响OCR软件的识别率。

我们可以根据实际情况将扫描后的版面切分成多个区域后再识别，切分区域的原则是：将图形、图像排除在区域之外（图1），尽量把文字字体、字号一致的划在一个区域内，不要嫌这个过程烦琐而选用自动切分区域，手动选取扫描区域会有更好识别效果，还应注意各识别区域不能有交叉情况。

图1 版面切分二、扫描识别稿的操作技巧1.首先要保持工作环境的清洁，扫描仪的玻璃板以及若干个反光镜片及镜头，其中任何一部分脏污都会影响扫描文字图像的效果。

e商务文档

怎样将扫描文件转成WORD格式

相关文档推荐：