档案数字化技术规范1 适用范围为统一集团公司纸质、照片、音频、视频档案数字化的主要技术要求,推动档案现代化和数字档案馆的建设,特制定本规范。
本规范适用于各单位档案的数字化处理及数字化成果的管理。
2 总则2.1 基本原则2.1.1 同步检查档案实体质量,确保数字化成果的真实、完整。
2.1.2 采用先进的数字技术,确保数字化成果的长期有效、数据兼容和安全迁移。
2.1.3 采取有效的保护措施,确保档案实体及数字化成果的安全。
2.1.4 确保档案实体与数字化成果间的有机联系。
2.2 过程管理要求2.2.1制定档案数字化的总体方案、技术路线与工作方法,确保档案数字化工作标准化、规范化和流程化。
2.2.2档案数字化的基本环节主要包括:档案整理、档案扫描(转换)、数据处理、数据存储、数据质检、数据挂接、数据验收、数据备份、成果管理等。
2.2.3建立档案数字化各环节的安全保密机制和工作制度,确保档案数字化工作的安全与高效。
2.2.4档案数字化的各个环节均应进行详细的登记,并及时整理、汇总,装订成册,在数字化工作完成的同时建立起完整、规范的记录。
2.3 数据挂接2.3.1档案数字化转换过程中形成的图像、音频、视频数据,经质量验收合格后,加载到档案数据库服务器。
通过编制的程序或借助相应的软件,实现档案数据库条目与相关联的数字图像、音频、视频批量的快速挂接。
2.3.2认真填写档案数字化挂接检查情况登记表单,记录数据关联后的页(张、盘)数,核对每一份文件关联后的页(张、盘)数与档案整理、扫描(转换)时填写的页(张、盘)数是否一致,不一致时应注明具体原因和处理办法。
2.4 数据验收2.4.1 图像、音频、视频数据验收以一个全宗或多个目录为单位,随机抽查5%的档案条目数据对应的图像、音频、视频数据。
图像、音频、视频应符合本规范中所规定的分辨率、采样频率、数码率、文件格式及色彩模式。
图像、音频、视频文件的命名必须与条目数据题名相一致。
图像、音频、视频的转换完整性要求达到100%,图像偏斜度、清晰度、整洁度,音频、视频的清晰度等技术指标,要求抽检合格率达到95%以上(含95%)。
合格率=抽检合格文件数/抽检文件总数×100%。
2.4.2 验收审核验收“通过”的结论,必须经分管领导审核、签字后方有效。
2.4.3 验收登记认真填写数字化验收登记表单。
2.5 数据备份2.5.1 备份范围经验收合格的完整数据应及时进行备份。
2.5.2 备份方式为保证数据的安全,除将数据上传至集团公司档案管理系统服务器外,还应采用在线(磁盘)、离线(DVD刻录盘)相结合的方式实现多套备份,并注意异地保存。
2.5.3 数据检验检验内容包括备份数据能否打开、数据信息是否完整、文件数量是否准确等。
2.5.4 备份标签数据备份后应在相应的备份介质上做好标签,以便查找和管理。
2.5.5 备份登记填写纸质档案数字化备份管理登记表单。
2.6 数字化成果管理2.6.1应加强对数字化成果的管理,确保其安全、完整和长期可用。
2.6.2数字化成果提供网上检索利用时,应有制作单位的电子标识(水印),并根据具体情况决定是否采用微软DRM保护的文件格式。
3 纸质档案数字化操作规程3.1 术语解释3.1.1 数字化用计算机技术将模拟信号转换为数字信号的处理过程。
3.1.2 纸质档案数字化采用扫描仪或数码相机等数码设备对纸质档案进行数字化加工,将其转化为存储在磁盘、光盘等载体上并能被计算机识别的数字图像或数字文本的处理过程。
3.1.3 数字图像表示实物图像的整数阵列。
一个二维或更高维的采样并量化的函数,由相同维数的连续图像产生。
3.1.4 黑白二值图像只有黑白两级灰度的数字图像。
它对应于黑白两种状态的文字稿、线条图等。
3.1.5 连续色调静态图像以多于两级灰度的不同浓淡层次或以不同颜色通道组合成的静态数字图像。
3.1.6 分辨率单位长度内图像包含的点数或像素数,一般用每英寸点数(DPI)表示。
3.1.7 失真度对档案进行数字化转换后,数字图像与档案原件在色彩、几何等方面的偏离程度。
3.1.8 可懂度数字图像向人或机器提供信息的能力。
3.1.9 图像压缩消除图像冗余或对图像近似的任一种过程,其目的是对图像以更紧凑的形式表示。
纸质档案数字化过程中,较常见的有TIFF(G4)、TIFF(LZW)、JPEG等压缩格式。
3.1.10 DRMDRM是Digital Rights Management的简称,即数字版权保护或数字版权管理。
微软的DRM分为两类,一类是多媒体保护,加密电影、音乐、音视频、流媒体文件,如WMV,WMA,ASF,WMS等格式文件。
另外一类是加密文档,如DOC、XLS、PPT、XPS、JPG、TIF、BMP等格式文件。
其他格式文件,比如:RM、RMVB、AVI、WAV、MP3、MPG、PDF等均可以转换成微软DRM支持的格式后进行加密保护。
3.1.11 PDFPDF是Portable Document Format的简称,它是Adobe公司开发的电子文件格式,其优点在于跨平台、能保留文件原有格式、开放标准。
3.1.12 双层PDF一种具有多层结构的PDF格式文件,其每一页都包含两层,下层是从纸质文件扫描出来的原始图像,上层是用OCR软件对扫描图像进行识别后产生的文字结果,但字体效果设置成透明。
这样用户在阅读PDF文件时看到的是扫描图像,可以100%保留原始版面效果,在需要的时候,又可以通过透明的文字信息支持选择、复制、检索等功能。
3.1.13 XPSXPS 是 XML Paper Specification 的简称,它是微软公司开发的一种文档保存与查看的规范。
使用者不需拥有制造该文件的软件就可以浏览或打印该文件。
作为微软DRM支持的格式,可以提供版权保护。
3.2 档案整理3.2.1 前期整理合理确定档案数字化的范围,区分扫描件与非扫描件。
对档案进行适当整理,并视需要做出标识。
根据拟数字化档案的数量情况,估算数字化后所需要的存储空间。
3.2.2 目录建库已经建立档案数据库,并且使用条形码设备和软件的单位,可以在档案实体上粘贴条形码,使条形码能够正确反映档案数据条目与实体的对应关系,确保档案数字化、数据挂接时的质量和效率。
没有建立档案数据库的单位,可以按照集团公司档案管理著录规则的要求,确定档案著录项并进行著录。
所选定的数据格式,应能直接或间接地通过DBF 文件格式或XML文档,与集团公司档案管理系统进行数据交换。
3.2.3 拆除装订物去除影响扫描工作的装订物,保证扫描的顺序,确保数字化后正确归卷并不损坏档案。
3.2.4 档案修复破损严重、无法直接进行扫描的档案,应先进行技术修复。
折皱不平影响扫描质量的原件应先进行相应处理(压平或熨平等)后再进行扫描。
3.2.5 建立作业单制作并填写数字化加工作业单,全程监控扫描过程,并记录整理数字化过程中各种相关情况。
3.2.6 装订图像质检完成后,拆除过装订物的档案应该按档案原貌及保管的要求重新装订,做到安全、准确、无遗漏。
3.3 技术要求3.3.1 档案扫描3.3.1.1 扫描方式根据档案幅面的大小(A4、A3、A0等)和纸张质量选择相应规格的扫描仪进行扫描。
数量较少的大幅面档案,可采用小幅面扫描后的图像拼接方式处理;如果数量较多则使用宽幅工程扫描仪进行扫描。
纸张状况较差,以及过薄、过软或超厚的档案,或者不宜拆装的档案,应采用平板扫描方式。
纸张状况好并且可以拆装的档案,可采用高速扫描方式以提高工作效率。
3.3.1.2 扫描色彩模式扫描色彩模式一般有黑白二值、灰度、彩色等,通常采用黑白二值。
页面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,可以采用灰度模式扫描。
页面中插有黑白照片、彩色照片、彩色插图、印章等带色彩标志的档案,可视需要采用彩色模式进行扫描。
底图可视需要采用灰度或彩色模式进行扫描。
如需要进行OCR识别的,应采用黑白二值扫描。
3.3.1.3 扫描分辨率采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率应≥200DPI。
特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率。
如需要进行OCR识别的,扫描分辨率应≥300DPI。
3.3.1.4 扫描登记认真填写档案扫描情况登记表单,登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一致,不一致时应注明具体原因和处理方法。
3.3.2 图像处理3.3.2.1 对扫描图像偏斜度、清晰度、失真度、完整情况等进行检查,发现问题及时处理或重新扫描。
3.3.2.2 发现文件漏扫、扫描图像排列顺序有误时,应及时补扫并正确插入图像,调整排列顺序。
3.3.2.3 对出现偏斜的图像应进行纠偏处理,以达到视觉上基本不感觉偏斜为准。
对方向不正确的图像应进行旋转还原,以符合阅读习惯。
3.3.2.4 对扫描图像中影响图像质量的杂质(黑点、黑线)、多余边框等,进行去污和裁边处理。
处理过程中应遵循在不影响可懂度的前提下展现档案原貌的原则。
3.3.2.5对大幅面档案分区扫描形成的多幅图像,进行拼接处理,合并为一个完整的图像。
3.3.2.6认真填写图像处理情况表单,记录质检结果和处理意见。
3.3.3 图像存储3.3.3.1 长期保存格式采用黑白二值模式扫描的图像文件,使用TIFF(G4)格式存储。
采用灰度模式和彩色模式扫描的文件,使用JPEG格式存储。
如需要进行OCR识别的,识别后可存储为双层PDF格式。
3.3.3.2 网络利用格式不需要进行DRM保护的扫描图像,可直接以TIFF、JPEG、PDF格式在网上提供利用。
需要进行DRM保护的扫描图像,可由集团公司档案管理系统批量转换为XPS 格式后再行发布。
3.3.3.3 存储方式和命名规则按“档号”建立文件夹方式存储。
以档案数据库中每份文件的档号,命名该份文件的图像存储文件夹;以每份文件的题名,命名该图像存储文件夹下所保存的扫描图像文件。
通过档号的一致性和唯一性,建立起档案数据库条目与图像存储文件夹一一对应的关联关系,从而确保扫描图像文件挂接的正确。
4 照片档案数字化技术规范4.1 照片整理参照纸质档案数字化操作规程。
4.2 照片扫描4.2.1 扫描要求扫描照片、底片能够按原件1:1比例还原,并能忠实反映照片、底片原貌(清晰度、色彩、黑白对比度等)。
4.2.2 扫描色彩模式采用灰度和彩色两种模式扫描。
黑白照片采用灰度模式扫描,彩色照片采用彩色模式扫描。
4.2.3 扫描分辨率对于所扫描的照片,以常见5英寸照片大小(3.5×5英寸)为参照,扫描分辨率≥300DPI;对于所扫描底片以还原5英寸照片为参照,扫描分辨率≥1500DPI;对于其他太大或太小的照片,扫描分辨率可作相应的调整,照片幅面≥10英寸时,可以适当降低分辨率但不能低于200DPI;对于一些涉及重要历史事件和人物的照片,其扫描分辨率可在此基础上适当增加。