当前位置:文档之家› 档案数字化加工方案计划

档案数字化加工方案计划

(三)数字化加工部分 (2)6.1.需求分析与总结 (2)6.2.参考的国家标准及技术规范 (2)6.3.数字化加工实施细则 (3)6.9.1.本项的扫描加工流程 (3)6.9.2.生产流程有以下几个主要的步骤组成: (4)6.9.3.档案整理 (5)6.9.4.著录标引 (6)6.9.5.纸件扫描 (7)6.9.6.图像处理 (8)6.9.7.质量检验 (10)6.9.8.档案还原装订 (10)6.9.9.数据存储与备份 (12)6.9.10.档案电子数据与XXXXXX烟草档案系统的无缝挂接 (12)6.4.项目所采用的OCR处理技术介绍 (12)6.10.1.OCR(光学字符识别)技术 (12)6.10.2.所采用的OCR及双层PDF生产流程 (13)6.10.3.生产流程逻辑示意图 (14)6.5.XXXXXX档案数字化服务特点 (15)6.11.1.自动化程度高 (15)6.11.2.标准化程度高 (15)6.11.3.严格的质量控制 (15)6.11.4.文档安全性高 (15)6.11.5.标准的格式 (15)6.11.6.方便存储与管理 (16)(三)数字化加工部分6.1.需求分析与总结此次项目是将中国烟草总公司XXXXXX省公司及所属11个市烟草公司的约183万页纸质档案进行数字化加工并将成品数据挂接到档案管理系统中,纸质档案的折分整理、扫描与图像处理、数据的挂接与光盘备份都将严格按照国家档案局相关标准及XXXXXX省档案局相关规定,结合XXXXXX烟草档案现状定制加工技术规范与生产加工流程。

据上述现状,具体人员安排,项目实施周期,采用标准及实施细则如下。

6.2. 参考的国家标准及技术规范《纸质档案数字化技术规范》(DA/T 31—2005)《连续色调静态图像的数字压缩及编码》(GB/T 17235.1-1998)《电子文件归档与管理规范》(GB/T 18894-2002)《中央档案馆接收档案的标准》《XXXXXX省档案接收和收集管理相关规定《归档文件整理规则》(DA/T22-2000)《档案著录规则》(DA/T 18-1999)《无酸档案卷皮卷盒用纸及纸板》(DA/T 24-2000)《档案修裱技术规范》(DA/T 25-2000)《XXXXXXXXXXXX档案数字化技术规范》《XXXXXX烟草档案数字化技术规范》6.3.数字化加工实施细则6.9.1. 本项的扫描加工流程6.9.2. 生产流程有以下几个主要的步骤组成:纸质档案的整理从档案室进行档案提卷,并记录提卷的内容,接着拆卷,并进行去污、平整化,并依据档案纸张的大小和厚薄分类。

档案的整理工作主要是为了以后档案的扫描做准备。

6.9.2.1.扫描及图像处理根据不同档案纸张的大小和厚薄,选择不同的扫描仪,较为规整的选择快速扫描仪,较薄、较厚和不规整的用平板扫描仪,这样既能达到保护档案(高速扫描仪会发生卷纸,损坏档案)的目的,也能提高档案数字化加工的速度。

查重查漏在扫描的过程中,难免会发生重复扫描和漏扫的现象,人工的再次校对能够发现档案数字化过程中出现的情况,并即使纠正。

数据项录入依据档案著录规范或者依据客户档案的实际著录项,录入标题、责任者、归档时间、档号等各种信息。

6.9.2.2.质量检测对扫描图像和著录的标引数据进行检验,图像主要是检验其扫描和净化处理质量,数据项的质量检测主要是检测其录入正确率。

6.9.2.3.档案还原完成档案数字化后,要把原先的档案原件还原成原样。

6.9.3. 档案整理6.9.3.1.档案交接档案按年度、案卷提档,提档时数字化实施方的提卷人员对每卷的所有页面进行统一的编号,全卷所有文件页号编写完成后,再依据XXXXXX烟草的要求抽出不需要扫描的文件页,然后再次按序编写需要扫描的文件页号,页号编写完成后,按实际文件页数填写详细的纸质档案交按清单,并由双方主管人员签字。

6.9.3.2.档案拆分档案拆分前要对档案进行统一的编号,编制总页号后,要从中选中需要扫描的页面。

再一次编制所需扫描的页号,两个页号需用铅笔的颜色或位置区分,以确保档案还原时能够清楚区别和核时页数。

6.9.3.3.目录数据准备按照《档案著录规则》(DA/T18)等的要求,规范档案中的目录内容。

包括确定档案目录的著录项、字段长度和内容要求。

如有错误或不规范的案卷题名、文件名、责任者、起止页号和页数等,应进行修改。

6.9.3.4.拆除装订在不去除装订物情况下,影响扫描工作进行的档案,应拆除装订物。

拆除装订物时应注意保护档案不受损害。

6.9.3.5.区分扫描件和非扫描件按要求把同一案卷中的扫描件和非扫描件区分开。

普发性文件区分的原则是:无关和重份的文件要剔除,有正式件的文件可以不扫描原稿。

6.9.3.6.页面修整破损严重、无法直接进行扫描的档案,应先进行技术修复,折皱不平影响扫描质量的原件应先进行相应处理(压平或熨平等)后再进行扫描。

6.9.3.7.档案整理登记制作并填写纸质档案数字化加工过程交接登记表单,详细记录档案整理后每份文件的起始页号和页数。

6.9.4. 著录标引6.9.4.1.标引著录标引著录为了方便查阅与管理,打印制作档案目录及档案封面,对文字录入的准确性要求较高,但要录的文本域并不是完全统一的在某一页面上,一些文本域要在多个文件中选择,所以录入时需要相关学部专家进行指导,确保文本域录入的准确率。

对所需录入的文本进行标引、或对不同类别的档案录入特征制作相应的《文字录入工作说明书》,供录入员和校对人员参考。

6.9.4.2.录入方式由于文本类型不一,有印刷体、手写体、有表格内的也有表格外的文本信息,所以采用手工录入和OCR(光学字符识别)软件相结合的方式录入。

即手写体或不清晰的印刷体采用手工录入,较规整的印刷体采用OCR技术的录入方式。

6.9.4.3.校对方式校对以软件校对和打印输出对比校对相结合的方式,即对手工录入和OCR 自动录入的文本打印输出进行对比校对的一校、二校、抽查校对,确保索引信息达到出版质量万分之一以下。

6.9.5. 纸件扫描原件的扫描与存储格式完全按照国家档案管理的统一标准和XXXXXX烟草的相关要求扫描。

扫描人员按照《扫描与处理工作说明书》的要求,填写移交清单(此移交清单是档案拆分人员和扫描人员共同填写)并签字领取并进行纸件扫描。

扫描图像使用先进的图像扫描处理软件(快图像系统),扫描人员可根据原稿质量,对系统进行定义,如自动倾斜校正、自动去污、自动分文件等批处理功能。

在由系统自动处理功能的同时,扫描人员根据原件的实际情况做相应的调整,如超大页面的处理、纸张颜色深浅及薄厚的处理、扫描时可根据不同原件的情况,调整图像的分辨率、阀值、明亮度以及扫描方式和扫描速度,确保在扫描图像质量清晰的情况下,使原件完好无损。

图像的分辨率正常情况下为300dpi,如遇字间距和行行距过密、原件本身是复印件等字迹不清楚的情况,可适当增加扫描的分辨率但要保正图像清晰的同时,又不影响远程查询和游览的速度。

6.9.5.1.扫描方式根据档案幅面的大小(A4、A3、A0等)选择相应规格的扫描仪或专业扫描仪(如工程图纸可采用0号图纸扫描仪)进行扫描。

大幅面档案可采用大幅面数码平台,或者缩微拍摄后的胶片数字化转换设备等进行扫描,也可以采用小幅面扫描后的图像拼接方式处理。

纸张状况较差,以及过薄、过软或超厚的档案,应采用平板扫描方式;纸张状况好的档案可采用高速扫描方式以提高工作效率。

6.9.5.2.扫描色彩模式扫描色彩模式一般有黑白二值、灰度、彩色等。

通常采用黑白二值。

页面为黑白两色,并且字迹清晰、不带插图的档案.可采用黑白二值模式进行扫描。

页面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,可以采用灰度模式扫描。

页面中有红头、印章或插有黑白照片、彩色照片、彩色插图的档案,可视需要采用彩色模式进行扫描。

6.9.5.3.扫描分辨率扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。

采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率一般均选择大于或等于200dpi。

特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率。

需要进行OCR汉字识别的档案,扫描分辨率建议选择大于或等于300dpi。

6.9.5.4.扫描登记认真填写纸质档案数字化转换过程交接登记表单,登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一致,不一致时应注明具体原因和处理方法。

6.9.6. 图像处理XXXXXXXXXXXX档案数字化工厂采用自动化处理和人工处理相结合的方式,确保图像质量的完美。

通过校对系统对图像进行校对,确保图像顺序正确、去斑点、校验。

,在校对时发现不合格图像及时返回前一工序进行改正。

6.9.6.1.污渍、黑边、偏斜处理数字化加工系统会根据原件质量的好坏对污渍的情况进行自动轻度、中度、高度去污,对纸质变质或扫描时的黑边完全自动清除、自动进行偏斜校正处理。

系统支持局部去污、并能对不能够自动处理的页面进行单页多次修正。

图像处理人员在发现扫描不合格的文件,进行登记后交扫描人员处理,双方签字确认后的表单留存备查。

使因扫描造成的不合格图像机时返回上一生产流程。

6.9.6.2.全文字面的扫描密度图像处理人员在进行处理前,扫描人员会根据不同原件的情况,提高图像扫描的分辨率、阀值、明亮度以及扫描方式,如遇字间距和行行距过密、原件本身是复印件等字迹不清楚的情况,对手写过密的要对图像进行细致的修正,确保各书写工具写出的不同颜色、深浅的文字及图像信息清晰可辩。

6.9.6.3.粘帖页与表格对粘帖页面的处理先用XXXXXX数字化加工软件系统进行自动处理,在扫描的时消除粘帖重叠的曲线,不能自动处理的放大后人工处理。

对字迹与表格线颜色深浅不一在扫描时进行细微调整后,图像处理时再进行局部调整。

以确保数字档案的可阅读性。

6.9.6.4.一般性文本流程图提高图像扫描的分辨率,调整阀值、明亮度以及扫描方式,采用局部处理技术对图像进行修正。

以确保数字档案游览时辨认流程图的流程线。

6.9.6.5.插图页面处理档案中有插图的要在扫描时对提高分辨率及相应调整,图文混排的页面不做拆分,在保持原始页面信息的同时使图像清晰可辩。

6.9.6.6.照片页的处理根据黑白或彩色图像对页面进行调整,对特殊照片的处理,必要时采用专业的图像处理软件进行处理,确保照片的清晰度。

6.9.6.7.存储格式与页面空间分辨率:200dpi图像格式:TIFF、JPG储存空间:B5或A4,20-30KB/页6.9.7. 质量检验对扫描处理完成后的图像页进行检验,对档案拆分、扫描、修正、去污、文本流程图的处理、插图、照片的处理以及文本和图像页的匹配进行检验等质量进行全面检验。

相关主题