帮助 | 留言交流 | 登录首页我的图书馆主题阅读精彩目录精品文苑Tags 会员浏览好书推荐各种格式文件ocr 成word 文件的方法(转载)kingguy 收录于2010-02-08 阅读数:查看 收藏数:5 公众公开 tags : 学习欢迎浏览 kingguy 个人图书馆中收藏的文章,想收藏这篇好文章吗,赶快吧,1分钟拥有自己的个人图书馆!我也要收藏举报以文找文如何对文章标记,添加批注?你还在为不同格式的文件怎么变成word 文件发愁吗?各种识别软件各有缺陷,识别效率低,让你痛苦不堪,有的只能识别字,对表格和图形无能为力,识别完了,版面乱七八糟,无法使用。
现在好了,本文针对各种情况下文字识别进行总结,帮助大家掌握正确方法,节省时间,本文给出了所有情况下全文件表格、图形、文字识别的完美解决方案:1、PDF 文件的识别:1)文件可以直接识别的(以文本形式保存的PDF 文件):安装acrobat 7专业版,注意不是acrobat reader (下载 /soft/4/136/2006/Soft_29430.html ),直接另存为rtf 文件(识别整个文件),或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到word 等中。
2)文件不能直接识别的(以图片形式保存的PDF 文件):安装office2003(下载/soft/188/215/2006/Soft_28356.html ),并装上office 工具Microsoft Office Document Imaging (完全安装此工具),然后在打印机里面会增加Microsoft Office Document Image Writer 打印机,然后将PDF 文件打印到此打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI 文件,并且自动用Microsoft Office Document Image 打开此文件,然后选择“工具”菜单下的“使用ocr 识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”,最后将把整个PDF 文件识别输出到word 文件中。
注意:Microsoft Office Document Image 可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到word ,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit 软件将图形打开,然后复制到word 中。
(所有的识别软件都不能很好的处理图形的识别问题,Microsoft Office Document Image 的这种处理方法已经是非常好的解决这个问题了。
)3)加密的Pdf 文件:先下载解密软件(下载/soft/4/85/2006/Soft_29750.html ),解密后在参看1),2)4)繁体pdf 文件:用2)的方法识别到word 后,用word 中的“工具”--“语言”---“中文繁简转换”2、caj 文件的识别:1)局部文字识别:直接使用caj 浏览器(下载地址 /soft/4/136/2006/Soft_29737.html )的ocr 2)全文件识别:打印到Microsoft Office Document Image Writer 打印机,后面和上面的2)操作一样3)博硕论文全文下载:在线阅读博硕论文,待可以看到最后一页后,不要关闭caj 浏览器,到caj 安装目录下cache 中找到一个较大的文件,拷贝到其他位置即可。
然后使用2)全部转化为word 。
3、超星文件的识别:1)局部文字识别:直接使用超星浏览器(下载地址/soft/31/91/2006/Soft_27810.html )的ocr热点推荐★◎★史上最全的电脑常... 短线——最新、最绝的一招 大脑十大奇妙事传说中的上海第一美女(... 捷径:三个月掌握三年的经验 别盲目创业:看看你是不... 中国女性之美,经典图帖 买基金要走出三个误区-... 纽约摄影学院中国学员班... 一名董事长给大学生的1... 不要因为工作不好而辞职 钱穆 中国知识分子 22个健康好习惯,助你... 真正的贼眉鼠眼---暴... 2006,他们随风而逝 情人的季节 玫瑰的淑女... 品茗夜读 - 幽谷一泓... 1996到2006:中... 追 梦世界十大不可思议的地方Google 提供的广告 免费下载相框 简历下载 简历模板下载 视频播放器下载2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样,要注意的是,超星打印功能有点区别,因为超星是目录和全文分开的,所以打印时,需要分别把目录和正文识别到word中,在合并到一起。
打印时要填入打印页码从1到最后一页,不要选择打印全部。
此外在打印选项中,还要将页面比例设成真实大小,而不是整宽。
注意:识别速度比其他格式要慢很多,请保持耐心,但是最后当你看到轻松的生成全本书的word版本时,你会欣喜若狂的,呵呵。
我的试验结果是一本280页的书,识别需要几分钟的时间。
3)超星相对比较麻烦一些,如果还有问题,可以先把超星打印成完整的pdf文件,然后在用1、的方法转成word4、其他情况下的识别:使用snagit软件(下载 /soft/31/46/2006/Soft_29690.html)将任何形式的文字可以变成图片,例如使用snagit将屏幕拷贝成图片,然后右键点击图片文件,用microsoft Office Document Image打开图形,其他和2)一样。
注意:其他的各种识别软件请不要在用,因为要么只能识别中文,要么只能识别英文,要么不能识别整个文件,要么不能识别屏幕拷贝图像,要么识别误差很大,要么不能识别表格,要么需要注册,要么识别速度很慢,要么使用不便(和word结合不紧),这些软件包括:紫光ocr,万方pdfocr,尚书,汉王,ScanSoft PDF Converter,pdf2word,以及各种被推荐的软件等等,我都装过,现在都像LJ一样删除了。
只要安装了acrobat 专业版,snagit,office2003,现在你可以完美的做任何事,最重要的是这几个软件很好得到。
针对一些问题的补充:经过一些试验,发现microsoft Office Document Image 存在一些不稳定的问题,例如在用caj打印到Microsoft Office Document Image Writer打印机时,发现用caj5.5版本比较快,(caj5.5不能加升级补丁),而caj5.0有时出现假死机。
另外页面显示大时,转化的识别率较高。
如果页数多的文件,包括超星,如果有问题,可以分多次转化。
再次补充:1、由于虚拟打印到Microsoft Office Document Image Writer 比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60M,因此会严重影响机器的运行速度和C盘空间以及内存空间,建议配置好的机器一次转化不要超过200页,配置差的不要超过100页,同时打印时在右下角系统栏中会出现打印机图,你可以双击,看到打印任务的进度,以免以为死机了。
另外转化完成后请删除c:\windows\temp目录下的虚拟打印文件,否则你的c盘很快会被用光。
2、建议如果发生打印到Microsoft Office Document Image Writer很慢或者假死的情况,可以先打印到snagit虚拟打印机,会自动生成tiff文件,速度比Microsoft Office Document Image Writer快,然后在snagit中,选择打印机为Microsoft Office Document Image Writer打印机,(相当于再打印到Microsoft Office Document Image Writer打印机),然后选择snagit---outputs下的printer,然后选择snagit----file----finish output,即可生成msi文件,其他一样。
转化完成后请删除c:\windows\systems32\snagit临时文件。
欢迎浏览kingguy 个人图书馆中收藏的文章,想收藏这篇好文章吗?赶快吧,1分钟拥有自己的个人图书馆!上一篇:A4、A5、A6、B5这些纸张是怎样由来的?下一篇:正月为什么不剃头我也要收藏复制网址发给朋友 (kingguy的分类目录 [百科知识])相关文章Office组件轻松把PDF文件转成Word文档2007-03-16 w3322laile123 [资源]不需要软件即可使pdf文本转换为word的方式2005-08-15 rainsunny 关于 Microsoft Office Document Ima...2010-01-13 blnwOFFICE2003中实现PDF转WORD的简单方法2005-12-16 w3322laile123Google 提供的广告主题阅读当爸爸妈妈老了的时候(... 绝版二十四孝图可怜鸟兽父母心谁娶这种妻子谁就不是人! 三袋米的故事(感人故事) 哑巴父亲的爱请大家爱你的父母 看一... 孝敬父母者必看(强荐) 儿呀,娘想做你家的一条... 喊一声妈妈 我泪流满面最安全的姿势——让人不... 劝孝歌Antenna HouseXSL Formatter XML to PDF - Windows, Linux & Unix 用office 2003提取图片中的文字- 华军软件园- 资...2005-08-25 桥东居士ScanSoft PDF Converter for Micro...2009-04-13 枫叶118介绍pdf 转换word 的几种方法 -- Office 学院2007-01-19 tinaroad怎么才能把PDF 中的扫描成的书中的文字转化成WORD 格式?_百度...2007-03-20 w3322laile123查看更多文章>>百度推广软件图形打印机发表评论 游客请 登录 后再发表评论!您还没有 注册 ?30秒快速拥有您的“个人图书馆”!发送评论时内容自动复制到剪切板gf e d c b 发送(本文为 360doc 用户收藏,不代表 360doc 观点)360doc 简介 服务条款 设360doc 为首页 留言交流 联系我们 客服QQ:524562434 Copyright © 2010 360doc 个人图书馆------您的知识管理平台。