一、项目实施案(一)项目实施的依据1、《人民国档案法》2、《机关文件材料归档围和文书档案保管期限规定》(档案局第8号令)3、档案局《CAD电子文件光盘存储、归档与档案管理要求》GB/T17678.1—19994、《归档文件整理规则》》(DA/T 22—2015)5、《档案著录规则》(DA/T18-1999)。
6、《纸制档案数字化技术规》(DAT-31-2017)7、《电子文件归档与管理规》GB/T18894—2002(二)项目实施前准备1、人员准备(1)甲人员职务:现场交接管理人员职责:①负责与乙的档案提卷和还卷等交接工作,协同甲人员作好交接清单记录并签字。
②负责监督乙规化加工。
③随时把握乙加工进度并进行协调。
④及时关注并抽查乙加工质量。
⑤代表甲与乙进行及时的沟通及问题协调,确保项目顺利完工。
(2)乙人员2.1 管理人员:主要为熟悉现场加工管理,熟悉数字化整体作业流程,具有较强组织能力和现场管理及沟通能力的乙负责人。
2.2 工程技术人员:主要为熟悉计算机软、硬件技术,了解档案数据库标准和系统开发。
了解档案管理等相关专业知识的乙技术支持工程师。
2.3 数据采集作业员:主要为了解档案数据库数据标准和计算机软件应用等相关知识的乙数字化制作工作人员2、项目设备设施准备(1)主要加工设备及其技术参数数字化加工过程中使用的数字化加工管理软件,是档案数字化加工的主要应用工具,也是确保档案数字化加工工作效率和成果质量的关键技术。
档案数字化加工软件必须具有扫描、图像处理、著录、校对、质检、自动挂接、查询检索、数据转换、数据上传、数据统计、打印传输等功能,能够满足档案数字化加工全流程各业务环节的需要,以及对加工数据进行质量检查和验收的需要。
(3)其他辅助加工设备除上述主要加工设备外,在档案数字化加工现场,还需要配备以下辅助设备:办公桌椅、档案存储柜、储物柜、装订机、电熨斗、切纸机、抽湿机、碎纸机以及纸、档案卷皮、档案盒、装订线、胶水等消耗材料。
具体参照招标文件要求或合同约定配置。
3、场地部署准备(1)各单位应配备专用的数字化加工场地,并进行合理布局,形成档案存放、数字化前处理、档案著录、档案扫描、图像处理、质量检查等工作区域。
一般设在档案部门独立、可封闭的建筑。
(2)数字化加工场地应符合防盗、防火、防尘、防水、防潮、防高温、防日光及紫外线照射、防有害生物、防污染等安全管理要求。
场地应配备可覆盖全部场地的报警、防火等应急设施设备。
(3)数字化加工场地应配备满足安全管理需要的视频监控设备,确保档案暂存处、数字化加工工位、服务器、数据导出端及门窗等无监控死角;视频监控数据自产生之日起保存不少于6个月,涉密档案数字化加工监控录像要保存到项目完工数据移交1个月后;档案部门应定期对视频监控数据进行回放检查,在删除视频监控数据之前,要留存视频回放安全检查记录。
(4)数字化加工场地应配备符合标准并满足工作需要的档案装具,用于分别存放待数字化处理和已数字化处理的档案。
(5)各单位和数字化服务机构应合理规划、配备和管理档案数字化设施设备,确保设施设备安全、先进,能够满足数字化工作的需要。
(6)数字化加工场地须封断所有档案数字化加工设备的无线网络功能以及非必要的各终端接口,各单位和数字化服务机构应定期进行相关检测。
如有必要,应由县档案局构建数字化加工专用局域网和视频监控专用网。
(三)项目加工案档案数字化是指用计算机技术将模拟信号转换为数字信号的处理过程。
纸质档案数字化就是采用专业的扫描仪、高拍仪和数码相机等数码设备对纸质档案进行数字化加工,将其转化为存储在磁带、磁盘、光盘等载体上并能被计算机识别的数字图像或数字文本的处理过程。
纸质档案数字化的基本原则是使档案信息资源能准确、便、快捷地提供利用,使可以公开的档案信息资源得到共享,以满足社会或行业对档案利用的需求。
档案数字化加工主要流程包括:提卷-拆卷-档案著录-扫描-图像处理-OCR-校对-版式还原-转双层PDF-终验-挂接。
1、入库提卷、拆卷(1)从档案室移交档案,格执行原始档案的交接手续,使用双项目负责人确认的档案交接清单(完成清点登记)。
(2)档案整理:编写页码、核对纸质档案页码、对可拆钉的文件做拆钉处理以适应扫描的要求、对需要修复的档案进行归并整理(如果发现破损重,无法直接进行扫描的档案,应先进行技术修复、折皱不平影响扫描质量的原件应先进行相应处理后再进行扫描,发现破损重的档案须立即报知项目相关负责人)制作卷目录,扫描文件抽取。
(3)按照扫描处理量明确交接期和档案交接量(双项目负责人签字,以保在施工过程中档案不损失、不丢失。
)(4)装订案卷应保证装订牢固,案卷整齐,卷材料不松动,脱落,保持与原案卷一致。
图二:2、标引著录按要求将文件所需信息录入到软件数据库里,标引著录按照档案局有关标准结合用户档案著录的具体要求进行。
(1)录入式采用手工录入的式(2)校对式校对以软件校对和打印输出、对比校对相结合,错误率在万分之二以下。
案卷目录和卷目录按照档案的原始数据录入。
卷案目录和卷目录的样式经用户同意可做相应调整。
对档案目录数据修改和补充的数据,须填写更改资料、更改资料放入原案卷,卷目录及其他不全的需补充完整。
3、档案扫描(1)扫描式:根据档案幅面的大小选择相应规格的扫描仪或专业扫描仪进行扫描。
大幅面档案可采用加长式扫描或者图像拼接处理式处理,同一页面有两个以上文件,需分别扫描。
(2)扫描色彩模式:采用彩色模式进行扫描,主要采用平板扫描式。
(3)扫描分辨率:不低于300dpi,对材料中有多色、红头、印章、插有照片图片、清晰度较差等无法辨识清晰的页面,要提高分辨率,要求扫描后的图像清晰,不失真、完整、不影响利用效果。
(4)图像文件的大小:黑扫描图像应与原纸质档案保持一致。
扫描时做到不缺页、不重页、单页图像容完整。
(5)如遇字间距和行间距过密、原件本身是复印件等字迹不清楚的情况,可适当增加扫描的分辨率,但要保证图像清晰的同时,又不影响远程查询和浏览的速度。
(6)清晰度:扫描图像字迹清晰、颜色恰当,不宜过浅或过深,并且不得出现字迹笔画残缺或字迹笔画叠合而影响阅读的情况,即使原档案存在锈斑变质、颜色过浅或深浅不一致,也保证扫描图像可读,扫描留下的墨迹宽度不得超过0.5厘米,并且指印和黑线不能覆盖或影响正文容。
(7)根据档案实体情况,在档案电子文件中相对应目录设置“复制件”、“原件不清”标志。
目录以原有档案目录为准,在实际处理过程中著有未归类的新目录。
可根据情况修改目录,增加或调整标准目录,对档案原目录数据修改或补充的数据,需填写更改资料,更改资料放入原案卷,能实现一条目录对应多个图像和一个图像对应多条目录的编目。
(8)图像容:8.1实时在屏幕上监控扫描全过程,遇有漏扫、重,图像黑边、偏斜、折角、不清晰等情况,则进行重扫或补扫。
8.2检查扫描件是否合乎要求,扫描图像必须与原图页面一一对应,不得出现颠倒、缺页、重页或错页情况,不能有遗漏、重复,扫错的现象8.3扫描的页面容居中显示,不可出现明显偏左或偏右的现象,正文容、页眉、页脚、反面印章、附件、手写注释等信息完整;图像容与书本面完全对应,不得出现书页容残缺或将旁边页面信息扫入本页的现象。
(对图像黑边、偏斜、折角、不清晰等情况进行处理,以达到用户需求)8.4纸较差档案扫描案:由于进行数字化的档案会有部分为历史档案,纸质量比较差,对于这部分纸质量较差的历史档案扫描,我们本着以下原则:8.4.1保证档案安全。
纸较差的档案多为破损档案,对于破损档案更应该在生产流程中加以特殊对待,不能造成二次破坏。
保证档案的安全是第一要务。
因此,在处理纸较差的档案时,不允使用蘸水防滑等有破坏档案可能性的操作法。
8.4.2保证扫描质量。
历史档案之所以进行档案数字化,其中最主要的目的之一就是抢救这部分历史档案,今后在应用这部分档案时,尽量避免人为翻阅历史档案而给档案造成二次伤害,而应使用电子系统,使用扫描件。
这样档案扫描的质量要尽可能的清晰、干净,尽可能的恢复历史原貌,这对扫描质量的要求很高。
8.4.3高效高质的完成任务。
(9)扫描登记:认真填写纸质档案数字化转换过程交接登记表单,登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一致,不一致时应注明具体原因和处理法。
4、图像处理(1)逐检查图像质量(包括黑边、折角、图像偏斜度、清晰度、失真度等进行检查,发现不符合图像质量要求时,应重新进行图像处理),档案顺序(页号)是否正确,有无漏扫、重等情况(发现文件漏扫时,应及时补扫并正确插入图像。
发现扫描图像的排列顺序与档案原件不一致时,应及时进行调整。
)(2)纠偏:图像整体倾斜不得超过1度,不得出现图像的一部分倾斜或扭曲而影响阅读的现象。
如果档案页面存在部分倾斜的,以页面中标题纠正为准。
(3)去污:所有扫描留下的黑线、指印、阴影或污点都必须清除干净(在放大50%的情况下)由于印刷质量或纸质量等造成的页面上有零星的污点和反面倒映文字污点比较多,如果在页面视图下看不清楚,或该污点嵌在文本行中无法清除,可以不清除,但应尽量保证图像可读。
(4)全文页面及局部文字的加深和变浅的处理:原始档案的清晰度较低时,可提高图像的清晰度,修正原资料中存在的字间距和行间距过密,文字较深或较浅,字迹不清楚的缺陷,确保文字及图像信息清晰可辨。
(5)图像拼接:对大幅面档案进行分区扫描形式的多幅图像,应进行拼接处理,合并为一个完整的图像,以保证档案数字化图像的整体性和数字化档案的准确可读。
(6)照片页处理:必要时采用专业的图像处理软件进行处理,确保照片的清晰度。
(7)图像存储:采用JPEG格式进行不加密存储。
扫描文件存储命名必须与条目档案号一一对应。
五、全文识别(OCR)及生成双层pdf、版式还原及格式转换将扫描处理完成后的文档利用专业的识别软件进行全文OCR,如甲对识别成功率有格要求的,还需另外进行人工校对,校对结束后将版式还原及转换成双层PDF文件格式。
根据用户对识别率的要求,可选择性进行人工校对。
进行人工校对和不进行校对的优缺点对比: 1.不进行人工校对:其原理是在单层PDF的基础上利用计算机软件进行全文OCR识别后生成双层PDF文件。
从而激活了图片中所反映的文字,而达到提取文字和利用原文所包含的文字进行检索的目的。
但是不进行人工校对和版式还原,识别的准确率取决于原始资源的情况及保存现状。
优点:效率高、成本低、能利用原文检索浏览速度快。
缺点:识别准确率取决于原件的质量,所以准确率不稳定。
适应围:①、原件版面干净及保存完好的资源。
(准确率可达95%以上)②、原文中只含部份核心检索容的资源。
(如学籍档案,检索的重点只是围绕学生的身份信息)2.进行人工校对:其原理是在OCR的基础上,为了确保识别的准确率而增加了人工校对和版式还原的工序。