通用档案电子化综合管理解决方案一、前言随着计算机技术的迅速发展和广泛应用,社会各行业的档案资料从原有单一的纸质档案发展为包括纸张、电子文件、声、像、视频等各种类型的多媒体档案。
对档案资料进行数字化综合处理、电子文件网络化归档、文档密级管理、授权管理及网上安全查询利用是档案管理发展的必然趋势。
我公司总结了多年以来在工商、医疗、档案馆等行业的档案管理系统开发经验,不断求实创新,同时深入分析并概括总结了各行业档案管理工作的异同,严格遵循国家档案局档案工作标准,面向社会各界档案管理部门推出了专业完善的《电子档案综合管理解决方案》。
本文将从文档数字化开始,内容涵盖电子档案的存储、归档、检索等方面,为用户提供专业完善的一体化解决方案。
二、文档数字化2.1纸质档案资料数字化纸质档案数字化,就是将纸质档案(含照片)资料通过扫描、OCR识别、排序标引转化为基于文字和图像信息的数字档案,并备份到光盘或磁盘设备中,用于长期保存。
◆文档扫描采用标准的TWAIN、ISIS编程接口,直接控制各类扫描仪,自动实现图像压缩;支持平板和连续两种扫描方式,能够扫描A3、A4等多种幅面的档案。
支持黑白二值、灰度和彩色等多种图像格式,有盖章、照片的页面采用灰度或彩色图像处理。
分辨率可灵活设置,一般为200DPI以上。
◆图像压缩每卷档案作为一个图像文件,采用TIFF多页存储格式,能将任意多页的黑白二值、灰度、彩色、各种不同幅面图像压缩到一个图像文件中。
◆黑白图像采用TIFFCCITT_GROUP4或国际最新标准JBIG格式。
灰度、彩色图像采用JPEG(YUV4:4:4)或国际最新标准JPEG2000格式。
200DPI,A4幅面,黑白二值图像压缩效果:TIFF。
CCITT_GROUP4,平均每页大小为20K左右;JBIG平均每页10K左右。
对于灰度和彩色图像,JPEG2000格式的压缩率比JPEG高30%左右。
◆智能OCR识别对于较为规范的印刷体及表格类型的原文材料,可通过在排序索引处理过程之前进行自动的OCR标引识别和OCR全文识别。
具体特点:识别字体多:识别宋体、仿宋、楷体、黑体、魏碑、隶书、圆体、行楷、行书等近百种字体。
识别功能强大:支持印刷文稿、纯英文、中英文混排、较工整的手写文稿等多种类型。
对印刷材料的识别率达98%以上。
识别速度快:在普通配置的计算机上印刷体汉字达120字/秒以上。
◆全程条码管理数据加工服务的全过程,采用条形码技术进行跟踪管理。
通过采用条码可以实现下述自动化处理:在档案整理工序中加贴表示不同意义的条码,可以实现案卷号、档案分类等关键索引的自动识别。
档案移交过程中,可利用条码自动进行档案的逐卷核对;档案入库时,通过条码扫描枪或无线数据采集器进行条码扫描,可实现库房档案的精确定位。
在档案的借阅管理工作中,可应用条码进行自动化的出入库管理。
2.2多媒体原文资料数字化◆多媒体资料数字化流程多媒体档案数字化处理,也就是将多媒体音像档案资料通过转换设备行转换、识别,生成相应格式的电子文件,并建立标引信息。
◆多媒体资料压缩存储对于非压缩的资料格式统一压采用国际标准压缩算法(如ZIP)进行压缩,以加快客户端下载速度。
三、电子文件的网络化归档在电子档案综合管理系统中通过与现有的办公自动化系统衔接和网上归档两种方式实现了电子文件的网络化、自动化归档。
文件提取:通过与办公自动化系统(OA)建立归档接口,实现办公文档实时、后台批处理等多种方式的自动归档。
系统支持多种办公软件;归档身份鉴别:对于上传的电子文件,系统将进行上传用户身份鉴别。
系统采用指纹识别和数字签名技术,保证的归档材料来源的可靠性。
文件上载:通过网络进行文件上传,是网络化归档的另一种方式。
上传方式可采用FTP、FTPS、HTTP、HTTPS等;归档审核:上传或从业务系统提取的归档文件存于临时文件服务器,档案管理人员可通过软件对电子文件进行鉴定和检查。
归档确认:经管理人员审核通过后,向归档人员发送归档结果通知信息,由归档人员确认。
四、海量数据存储4.1电子文件的数据存储方式文件存储方式文件存储方式是将电子档案以文件形式存储于文件服务器上,索引信息存入数据库中。
该种存储方式降低了数据库的庞大性,提高了数据库的查询效率;有利于电子档案数据的交换和标准化管理;此种方式需通过软件实现文件和数据库的一致性备份。
数据库存储方式数据库存储方式是指将电子档案数据直接存储到数据库的Blob字段中。
数据库存储方简便了数据的备份,但占用数据库容量较为庞大,增加了数据库的管理维护难度,影响查询效率。
4.2数据存储与备份数据存储系统支持磁盘阵列、光盘库、硬盘等存储介质,推荐采用磁盘阵列(RAID5)存储电子档案。
磁盘阵列具有存取速度快、数据冗余校验、故障恢复、支持热插拔等多种先进特性。
数据备份支持可擦写光盘(MO、DVD-R、CD-R)、光盘、光盘库、磁带库、USB硬盘等多种存储介质,提供手工备份或系统自动备份方式。
同时支持自定义备份策略,进行完全备份、增量备份或差分备份。
五、检索方式分类检索根据档案的分类标引信息进行档案检索,支持模糊查询和精确查询。
主题词检索根据用户输入的主题词,在多种档案资源库(包括文本、图像、声音、影像等)中进行相关档案内容的检索。
在该种检索方式下同时支持模糊查询和精确查询。
全文检索根据用户输入的检索关键字,对文本、Word、Excel、PDF等电子文件进行精确或模糊检索。
Word、Excel:采用Office软件的自动化服务(OLE自动化),可在文件中进行指定关键字的检索。
PDF:通过调用Acrobat产品提供的PDF文档API进行PDF全文检索。
六、查询利用系统可提供了三种档案查询方式:内部查询:为方便内部业务人员的档案查询,系统提供了B/S模式的内部档案查询机制。
同时,可为其它业务系统提供档案查询的标准化接口,能将查询模块灵活嵌入业务系统,实现业务系统在线调阅相关电子化档案原文信息。
对外接待查询:向社会各界人员提供开放式的接待查询服务。
主要包括查询登记,预交费,触摸查询,续交费,结算,领取打印材料等过程,综合运用IC卡识别技术,实现了查询全程“一卡通”服务,收费模式可灵活设置。
WEB查询:安全网关模式的WEB查询系统,提供面向Internet的档案信息服务。
采用单向网络连接机制,配合硬件防火墙,可以有效避免网络上的黑客和病毒攻击。
七、核心安全机制7.1安全网关防护体系安全网关软件与单向连接的硬件防火墙共同构成了安全网关防护体系。
防火墙以内的档案服务器可以访问防火墙外部的安全网关,而外部的任何计算机都无法穿透防火墙直接访问内部的档案服务器。
这种单向安全网关机制有效地防止了防火墙以外各种病毒与黑客程序对档案服务器的主动试探与入侵。
7.2HTTPS技术WEB查询系统采用HTTPS(SecureHypertextTransferProtocol)安全超文本传输协议,保证了客户端与服务器的信息交互的安全性。
7.3身份认证基于CA证书的身份认证功能。
基于国际标准的应用层安全协议:DCE/Kerberos,提供双向身份认证功能。
实现了“IP+MAC+动态授权凭证”绑定身份验证,指纹鉴别技术。
7.4访问控制用户角色定义访问权限定义密级定义资源控制粒度粗粒度:档案分类、卷内文件目录。
细粒度:页面密级和页内区域密级。
组合式授权精粒度资源访问授权细粒度资源访问授权角色分配冲突拒绝式访问策略7.5网上数据加密传输系统中的身份信息和关键标引信息采用对称或非对称的加密算法进行加密。
常用的加密算法包括:DES、SHA、MD5等。
对于大量的电子文件,采用更高速的随机组态式加密算法:根据随机产生的多级密钥,对原文信息进行随机组态:分块、重组和高速数据变换。
确保了电子文件传输的安全性和下载速度。
直接通过TCP/IP协议控制传输与下载,避免了FTP、HTTP等黑客程序攻击;数据直接存于内存中,不产生临时磁盘文件,提高了传输速度,加强了档案传输过程中的保密性。
7.6数据完整性保护利用加密及数字签名技术,确保数据在传输过程中未被破坏和篡改。
八、系统接口与业务系统的衔接通过档案管理业务接口,实现基于OA系统等业务系统和电子档案系统间的双向调用。
与B/S架构业务系统的衔接采用Internet最新数据交换标准XML/SOAP作为与B/S业务系统的接口。
可方便地与基于或J2EE的WEB系统进行衔接。
与C/S架构业务系统的衔接电子档案综合管理系统将档案查询软件封装成可重用组件(ActiveX控件、COM+组件或JavaBean),作为档案查询接口模块,由C/S架构的其它业务处理系统直接调用。
九、系统平台系统架构采用先进的B/A/SN层结构设计,为系统安全、稳定运行搭建了稳固的平台。
系统同时支持和J2EE两大标准分布式体系结构。
软件平台服务端操作系统:Windows2000Server/Server2003、数据库平台:MSSQLServer、Oracle应用服务器:BEAWebLogic、IBMWebSphere(J2EE架构)、Framework(.NET架构)WEB服务器:Apache+T omcat(J2EE架构)、IIS(.NET架构)客户端操作系统:Windows9X/2000/XP浏览器:IE6.0以上版本十、技术标准数据库访问标准JDBC(J2EE架构);ODBC、OLEProvider(.NET架构)组件标准EJB(J2EE架构);MicrosoftCOM+(.NET架构)网络连接基于国际标准的TCP/IP协议扩展与升级OOAD建模标准UML(UnifiedModelingLanguage)。
软件进程规范CMM/CMMI三级。