当前位置:
文档之家› 档案数字化过程中OCR技术的应用
档案数字化过程中OCR技术的应用
您 的 好 帮 手 —— 档 案 界 网 站
档案管理
1/2011
总第188期
39
业务研究
白二值模式扫描的图像,其识别速度和正确率比灰度、 24位真彩(C24)模式扫描的图像都要高,这是因为, 文本通常只用到黑R中的应用也比较广泛。对于一些纸 张发黄或文字字迹较淡的档案,要对扫描后的图像进行 处理,第一步可将色彩模式设置为灰度,将图像划分为 不同的灰度级别,然后,通过特定算法将某个灰度值以 下的像素点都认定为白色,其他为黑色,从而达到黑白 分明。一些纸张较薄甚至有点透明的档案,OCR会受到 背面文字的干扰而识别率降低,如果扫描时,在纸张背 面垫一张黑纸,并使用灰度扫描,效果会好很多。
[1]
虽然,一张图像真正用于软件识别的时间不
到一秒,但前期和后期的加工处理不可小视,尤其是前 两个环节的操作,往往决定了OCR软件的识别率,乃至 整个OCR工作的效率。而后期人工校正环节,则是保证
38
档案管理
1/2011
总第188期
业务研究
一种方法是先将档案卷内目录扫描、OCR处理,再复制 粘贴条目,或通过特定的程序自动采集条目信息。 [3] 但 由于很多卷内目录是手写的,OCR无法识别,只得依靠 手工录入。相信随着未来技术的发展,OCR在这方面的 应用一定能够有所突破。 此外,系统还可以对OCR后的档案全文进行词频统 计、内容分析,从而自动提取关键词、主题词等标志 符,一定程度上,实现了档案内容的自动标引。 1.2 实现真正的全文检索。档案工作中所说的全文检索 实际包括两种类型:一种是仅对档案目录数据库进行检 索,找到相关条目后再打开相应的档案全文。目前,档 案馆大多采用这种检索方式,且尚有很多档案没有电子 全文。另一种是真正的全文检索,即直接对档案全文进 行检索,而且是对档案全文进行逐字检索。很明显,后 一种检索方式的查全率比前者要高出很多,使用户能从 浩如烟海的档案馆藏中找到更多所需的信息,更深入地 开发利用档案信息资源。 而要实现真正的全文检索,自然离不开OCR技术, 因为,只有将扫描图像中的文字变成文本格式,才有可 能对其中的文字进行逐字检索。 1.3 支持双层PDF技术。所谓“双层PDF”,就是一个 PDF文件中的每一页都包含两层,上层是扫描所得到原 始图像,下层是OCR识别的文字结果。这种技术在数字 图书馆领域已得到广泛应用,我们在CNKI等数据库中检 索到的PDF格式的电子文献大多采用了双层PDF技术。 由于采用双层PDF技术既能较好地保证档案的原真 性,在用户需要时,又能对档案中的文字进行选择、复 制、搜索等处理,因此,必将在今后的档案数字化工作 中越来越受到青睐。而这一技术的运用,必须首先以 OCR技术为支撑。 1.4 拓宽档案用户利用面。以往的档案用户大多是基 于档案的凭证价值而对其加以利用,如政府查阅某份文 件,居民查阅房产证、结婚证、学籍卡等,这些利用需 求对档案的原真性要求较高,很多情况下,还是需要纸 质档案才能发挥作用。但档案用户的利用面绝不应该仅 限于此,档案除了拥有凭证价值,还与图书、情报一样 具有情报价值、参考价值。如利用档案进行学术研究 时,用户就更加注重档案的知识性、信息性,但如果档 案是纸质的,要利用其中的内容就必须亲自去档案馆, 通过印刷或手工摘录所需信息,非常不便,以至于有些 用户转而通过网站或数字图书馆查阅所需信息。 将纸质档案数字化,并采用OCR识别,能够使档案 信息资源实现全文检索、网络传输,方便用户异地检 索、复制引用,从而深化用户对档案内容的查询与利 用,拓宽其利用面,使档案也能像图书、情报一样,成 为人们日常生活中获取信息、利用信息、增加学识的手 段,使档案多方面地服务于公众。
信息时代,档案数字化已成为档案工作的重中之 重,纸质档案扫描工作在各地如火如荼地进行。然而, 扫描所产生的电子档案实际上只是以图像形式存在的文 件,而非真正意义上的文本文件,也就是说,计算机只 认识档案的外表,却不认识其内在文字,用户通过计算 机看到档案的原貌,却不能对其中的内容进行引用、检 索等操作,这无疑,对将来的电子档案利用工作造成了 很大不便。考虑到档案用户的利用需求,若要得到文本 形态的电子档案,使档案数字化工作更加有效、更加彻 底,就要应用OCR技术。
[7]
字也会出错,相反变了色的文字并不一定是错的。因 此,工作人员在校对时应仔细,最好能通读一遍,尤其 注意字母和数字等较易出错的地方,尽量不放过任何错 误。 当然,人工校对是建立在OCR识别率本身就已很高 的基础上的,它只是一个提高OCR识别率的补充环节。 否则,过多的人工校对只会降低档案数字化工作的效 率,使OCR变得与手工录入无异。 综上所述,OCR在纸质档案数字化过程中有其独特 的应用,如何提高OCR识别率,并将该技术运用于档案 管理最需要的地方,是值得我们考虑的问题。只有将 OCR技术运用得恰到好处,才不至于浪费人力物力,才 能使档案信息资源的利用价值达到最大化,更好地服务 于民。
通过亮度和对比度的调节,可使图像变得更加黑白 分明,从而有利于OCR识别率的提高。 2.3 对图像进行纠偏、去污处理。图像中文字的偏 斜,会极大地降低OCR识别率,笔者曾经做过实验,一 张只是略微有点歪的图像,其识别率比纠偏之后至少低 了10%。而图像中的污点,也很有可能被OCR错误识别 为文字。因此,在OCR识别前,图像必须经过纠偏、去 污处理,以提高识别率。通常,档案扫描工作流程中必 须具备图像纠偏、去污这一环节,而无论其是否要进行 OCR。 2.4 仔细进行人工校对。无论电脑有多聪明,始终比 不过人脑,因此,人工校对是提高OCR识别率的最后一 关,也是最直接的环节。 通常,OCR软件识别完后会将原文用两行显示,一 行是图像,另一行是识别结果。一些OCR软件(如汉王 OCR)会将不确定的文字用另一种颜色显示出来,便于 用户发现错误。但实验表明,很多情况下没有变色的文
2
提高档案数字化过程中的OCR识别率
OCR识别率是整个OCR工作的中心问题,有专家认
为,OCR识别率低于90%,采用OCR技术便毫无意义,因 为后期需要进行大量的人工校正工作,从而抵消了OCR 所 带 来 的 效 率 。 [4]对 于 档 案 数 字 化 这 样 浩 大 的 工 程 来 说,提高OCR识别率意味着成倍减少花在OCR工作上的人 力物力和时间精力,从而提高整个档案数字化工作的效 率,极大地降低档案数字化的成本。由于手写体档案的 识别率普遍较低,不宜进行OCR识别,因此,本文所述 OCR的对象仅指印刷体档案。要提高OCR识别率,关键应 注意以下几点: 2.1 选择较好的OCR软件。目前,市场上比较流行的 OCR软件很多,主要有清华紫光、清华文通、汉王、中 晶尚书、丹青、蒙恬等品牌。其中,有些可以从网上下 载免费版本,如尚书七号OCR等,但功能很少,识别率 很低,只有在图像质量非常高的情况下,才能达到较高 的识别率,稍有差池便错误百出,毕竟“一分价钱一分 货”。还有的是扫描仪自带的OEM软件,如丹青、蒙恬 等,这样的软件往往功能较少,识别率较专业的OCR软 件要低。 所以,对于档案数字化过程中的批量OCR处理工 作,若要用得省心、放心,必须购买和使用专业的OCR 软件,建议使用汉王或清华文通等专业OCR软件,虽然 要花点钱,但物有所值。 2.2 设置合适的扫描参数。档案数字化若要进行OCR处 理,在前期扫描的时候,就应设置适合OCR识别的扫描 参数,如果已经扫描完毕再说要进行OCR处理,就应采 用相关图像处理软件(如Photoshop等)先对图像的参 数进行修改再OCR。合适的扫描参数能使图像质量更贴 近于OCR识别的要求,OCR识别率自然会有很大程度的提 高。 2.2.1 分辨率的设定。分辨率太小,每英寸图像上像素 点太少,OCR软件无法获得足够图像信息,识别率当然 就不会高。但是,并不是分辨率越高,OCR识别率也越 高。分辨率太高,特别是在使用一些存在轻微扫描失真 的扫描仪时,由于纸张本身着墨不均匀,反而会把一些 本应连着的笔画识别成几段,造成识别错误,不仅不能 提高识别率,还会使图像文件变得很大,不利于存储、 处理和传输。 《纸质档案数字化技术规范》规定:需要进行 OCR汉字识别的档案,扫描分辨率建议选择大于或等于 200dpi。 [5] 但是在实际工作中,200dpi还是有点小, 经验表明,300dpi在OCR识别中最为合适,有的扫描 软件有一项“OCR扫描”,直接将扫描分辨率锁定为 300dpi。 [6] 2.2.2 色彩模式的选择。如果要进行OCR识别,采用黑
OCR工作质量的最直接环节。 OCR技术相对于传统的手工录入方式来说,具有 强大的优势。首先,OCR文字识别的速度远快于手工录 入。根据国际通行的打字速度评级标准,即使是专业 人员,每分钟也仅能输入150~240个字,而采用OCR技 术,即使算上前后期的处理环节所花时间,其速度也绝 对比前者快好多倍。其次,OCR文字识别的质量远高于 手工录入。虽然,由于各种因素影响,OCR技术的识别 率很难达到100%,但比起大批量手工录入,其出错率要 小得多。最后,OCR还节省了大量人力资源,优化了资 源配置,使人员分配于更加有意义的工作。 对于档案数字化工作来说,OCR技术除了具有以上 几个普遍的优势之外,还有其独特的用武之地: 1.1 创新著录标引方式。创建档案目录数据库是一项较 基础的档案数字化工作,目前,大多数档案馆在进行这 项工作,很多档案馆已建成较为完备的目录库。然而, 各档案部门的档案条目基本都是通过手工录入的,既费 时又费力,还很容易出错。比如一些档案,标题很长, 一个题名就占了好几行。 OCR技术提供了一种新的著录方式,使档案条目通 过计算机录入成为可能。工作人员可以直接从OCR后的 全文中找到著录项(如题名、文号、责任者等),复制 粘贴到目录数据库的相应字段中去。 [2] 但这么做,必须 先扫描档案全文、OCR,然后再输条目,颠覆了档案数 字化工作的一般工作流程,因此,可行性并不强。还有
而采用24位真彩(C24)模式扫描的图像,由于 颜色干扰信息太多,识别率往往不太理想,若要进行 OCR,最好先转化为黑白二值或灰度模式,再加以识 别。 2.2.3 亮度和对比度的调节。档案由于年代久远,很多 会底色发黄、字迹变淡,扫描时设置灰度模式,并不能 完全改善图像质量,若要进一步提高OCR识别率,需改 变更多参数,即调节亮度和对比度,且应先调亮度再调 对比度。 亮度的设定以观察扫描后的图像中汉字的笔画较 细但又不断开为原则。 [8] 对于文字字迹较浅、笔画较细 的档案,可适当降低亮度;文字字体较小、笔画较粗的 档案,可适当增加亮度。对于底色较深的档案,如前文 所提灰度模式扫描的图像,可通过图像处理软件增加亮 度,使图像背景变成白色,同时,去除了一些原有的污 点。但调节亮度的同时,必然会使图像中的文字一起变 淡。这时,便要增加图像对比度,使文字的颜色变深。