综合档案管理系统-标准解决方案1.0一、适用范围1.1 用户特征1、普通意义上的政府、事业、企业用户,档案的管理没有明显的行业特征,或可以经过简单的设置满足管理上的个性;2、只负责管理本单位的档案,不负责其它相关单位或下属单位档案的保管和利用;3、虽然有庞大的分支机构存在,但初期建设只到总部。
1.2 档案管理机构的组成档案管理机构以档案室、档案科、档案处等形式存在,集中管理本单位产生的各类档案信息。
二、信息管理的种类主要包括文书档案、科技档案、工程档案、基建档案、会计档案、声像档案、照片档案、实物档案、合同档案、设备档案等以及图书、期刊、情报等资料。
三、方案组成标准解决方案以“飞扬综合档案管理系统(单全宗)版本”为基础档案管理平台,在此平台的基础上结合全文检索、OCR、流媒体服务、图像处理、信息加密、信息发布等众多先进技术组合而成的应用解决方案。
3.1 档案收集平台伴随着信息化建设的加快,各单位逐渐建立起OA、MIS、ERP、PDM等信息系统,这些信息系统产生的大量有价值的信息都需要归档。
这就要求飞扬综合档案管理系统应能够和众多业务系统建立有效的交互,保证归档信息按照档案的要求及时、规范的转入到档案系统里。
通过多年的技术积累,飞扬综合档案管理系统已经和众多涉及不同平台的业务系统建立了有效的交互,保证数据顺畅归档。
3.2 档案管理平台3.2.1 业务管理平台系统提供档案的收集整编、数据录入、报表输出、查阅、借阅、统计、年报、编研、鉴定销毁、保管、库房管理、检索查询等完整功能,在此可以实现档案业务的高效、自动管理。
3.2.2 安全防护平台信息安全是档案信息利用的基础,系统提供权限管理、数据加密、数据备份及恢复、日志管理、数据回收站、光盘制作等完整的安全防护体系,确保信息资源能够安全存储并安全访问。
3.2.3 系统自定义平台飞扬综合档案管理系统的开发完全基于档案管理平台理念设计,系统的各个管理和应用体系均提供模板自定义技术。
用户可以在原有模板基础上局部调整,也可以创建全新的模板,模板的自定义工作无须编程就可以实现。
模板自定义技术给用户提供了广阔的个性空间,用户可以快速的部署适合自身特点的档案系统,并且能够在自身需求、管理模式上发生变化时随需应变,具体包括:1、自定义档案管理类型及层次2、自定义文件管理类型及层次3、自定义其它管理模板类型及层次,比如利用、统计、编研、销毁、库房模板4、自定义数据库结构5、自定义录入字段及界面布局6、自定义档号自动生成规则7、自定义报表输出规则8、自定义数据排序规则9、自定义归档流水号规则10、自定义关联录入规则11、自定义WEB发布页面12、自定义条形码生成规则13、自定义字段值重复检测规则14、文件归档、鉴定设置15、归档整理规则设置系统支持对各类文件信息的归档整理、这些信息包括公文、从OA、PDM等业务系统采集的预归档信息等;系统支持多点立卷,即可以由各个业务职能处室通过本系统独立进行立卷归档;系统支持改革后的文书档案整理规则;文件信息和档案信息的归档对应关系可以自定义。
16、文件自动分类、鉴定系统提供保管期限、分类表维护功能。
在此模块中对文件设置分类、并定义好保管期限、归属的“目录号”设定好归档范围关键词,在归档时系统会智能解析文件标题,自动分类、鉴定并形成分类号、保管期限,自动分类技术和立卷归档以及档案模板中字段值设置等功能结合起来,使智能、快速归档成为可能。
3.2.4 多格式文件浏览平台飞扬综合档案管理系统支持多种图形、图像文件格式的管理和浏览,无需安装相应的应用程序即可通过飞扬浏览器打开原文进行浏览,并且浏览器和用户权限进行了集成,可以防止非法用户的浏览、下载、打印。
3.3 档案利用平台3.3.1 档案查询系统档案的收集、管理不是最终目的,档案的收集、管理应服务于利用,系统提供基于普通检索、跨库检索、全文检索、二次检索等功能的查询系统,通过权限控制、在线申请等手段,保证普通用户能及时、快速、准确的查找自己所需的档案信息,为日常业务工作提供支持与指导。
3.3.2 档案门户网站随着网络信息技术的普及,网站因其图文并茂逐渐成为获取信息的重要基地,档案信息化建设后形成的大量信息也需要有一个集中展示的平台。
仅仅提供查询、打印、下载、预约利用并不能完全展示档案信息化的建设成果,这时就需要建立一个专业的电子档案网站,该网站除了上述基本的查询利用功能以外,还需要开发一些新的功能,档案室所有信息通过该网站发布,员工可以通过网站了解单位档案管理的各项规章制度、通知、查看大事记、查询档案,浏览档案原文等。
该网站既可以独立使用,也可以嵌入到单位的办公自动化系统里。
可以在档案查询系统的基础上,结合用户的需求建立专业的综合档案信息网站,使之成为单位档案信息的门户。
用户可以在此网站设置不同的栏目频道,并可实现对发布信息的维护更新;同时该网站更是档案信息的发布及查询平台,查询用户可以根据自身的权限检索、浏览档案信息,并可以在此提出利用申请及预约。
3.4 相关技术集成为提高档案管理系统的应用效果,飞扬综合档案管理系统和其它相关成熟的技术和应用进行了集成,这主要包括全文检索、OCR以及流媒体服务等。
通过集成,可以实现对档案内容的高效检索、扫描文件信息的自动提取及查询、以及音视频档案的网络点播等功能。
3.4.1 全文检索技术1、面临的问题随着档案信息化建设的不断深入,产生了大量的不同类型的电子文档,这些信息包括数据库、文本文件、图形、图像等,资料多半已不再只以结构性资料来存取,反而较偏向以半结构化或非结构化资料的存取方式,传统的数据库查找的处理效能日益锐减,存在较大不足,具体表现在:(1)非结构化信息的检索问题系统内产生的大量电子文件的内容大多数为非结构化信息,比如HTML文档、文本文档等,档案管理系统主要对文档的描述信息(目录)进行检索,找出对应的电子文件,但不能对电子文件的正文内容进行检索。
(2)无法对异质信息进行整合用户需要将各种不同来源的信息(WEB、DB、非结构化和半机构化文档以及各应用系统中)整合成一个单一的信息平台,以统一的入口跨信息源搜索信息。
(3)查找的效率存在巨大缺陷传统的数据库查找缺少必要的语义分析,与查找内容符合的信息就能够查找出来,而没有进一步的判断,比如我们查找“民法”,但数据库查找会将“人民法院”也同时显示出来,数据库查找机制会导致查找出大量的无用信息,同时对海量数据进行数据库查找时效率呈现几何级下降。
2、全文检索功能的操作全文检索技术的出现大大改变了我们传统的信息查找模式,通过全文检索组件,实现对结构化、半结构化、非结构化信息的统一整合,形成完整的索引数据库,配合语义分析、智能分类、多国语义支持等技术实现对异质信息的快速检索。
(1)创建全文索引库系统可以对扫描完成的图像文件(TIF格式)、各类电子文本(HTML、TXT、OFFICE格式文件)自动进行全文识别并和相应的档案保存描述性PDI(分类和目录)一起建立起相应的全文索引库。
(2)搜索引擎用户可以在WEB查询系统中通过输入关键词,对档案数据库中的正文进行检索,在检索过程中可以设置检索范围,并且可以在检索结果中再进行分层检索,检索出来的档案信息可以根据权限进行再编辑,大大提高了文件检索的查全率、查准率。
3、全文检索功能的特点(1)可以实现对关系型数据库、Html、Text、Office等来源的信息进行搜寻;(2)内建「智能型快速响应模式」(Smart cache)机制,可以提供同一种查询条件之重复使用率,提高系统资源的效益。
Cache储存目录记录了Cache档案所要放置的地址,经查询过的资料或画面,第二次再进入时,可重复使用第一次查询结果;(3)提供中文字、词查询及英文词组检索: 提供中文字词索引查询功能,透过智能型自动断词技术以达到词索引的效果,解决输入“合资” 会找到“整合信息”等搜寻不精确的问题。
支持/多字段/多条件检索,来取得数据库资料,并可跨资料表、跨信息字段进行索引建置与搜寻。
提供词索引/搜寻功能,滤除搜寻结果噪声;(4)检索字串首先通过自动断词,将其断词结果进行组合检索;(5)近似概念词库检索;(6)增量索引:可以避免数据源有一点增加也需要重建索引的情况;(7)支持内存索引:这样的搜索比基于文件的I/O有数量级的速度提升;(8)索引自动优化:在收集结果的过程中将匹配度低的结果自动过滤掉;(9)并发访问:能支持多用户的使用;(10)智能型自然语言断词,词索引:为提高查询检索的准确度,系统采用自然语言断词机制和灵活的词索引开关,用户可根据需要选择词索引或字索引。
中文句子将被自动分析与断词,并建立词索引。
3.4.2 OCR及信息提取技术OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。
它是一种快捷、省力、高效的文字输入方法。
OCR技术在飞扬综合档案管理系统里主要有三个应用:1、内容批量识别档案数字化后形成的大量图像文件是不可能被直接编辑的,也是不可能直接被检索的,OCR在飞扬综合档案管理系统的一个重要的应用就是实现对图像文件的自动识别,识别后形成文本文件,可以用来再编辑或形成全文索引库。
2、信息自动提取利用OCR技术,还可以实现档案目录的快速著录。
对于版式固定的文件,系统支持建立自动提取模板,可以事先对一类文件版面进行分析,选择自动识别的范围,然后设定自动写入的数据库字段,那么在对扫描文件识别时,可以实现对这一版面目录信息的自动提取,用户只需对识别的内容进行检查、校对即可。
用户还可以在数据录入时,用鼠标选取图像的内容,然后在相应的字段处单击,即可自动将图像上的信息识别并写入到相应数据库字段里。
3、在线识别用户可在任意客户端浏览扫描文件时,只要有在线识别的权限,就可以选中需要识别的区域,系统会自动将识别的内容生成一个文本文件,供用户再利用。
3.4.3图像扫描处理技术纸质档案的数字化工作是档案信息化建设工程的一个重要工作,大量的纸质档案只有数字化后才能实现网络共享访问,纸质档案数字化的主要途径是通过扫描仪进行数字化加工并转储为图像。
扫描图像的质量对随后的浏览效果、文本识别及提取的精度有很大影响,因此是非常重要的基础工作,为快速对扫描图像进行处理,特提供本组件,主要功能如下:1、图像扫描可预先对扫描文件的图像格式、类型、分辨率、纸张大小、扫描速度等进行设定,然后对纸质档案进行扫描,系统支持平板扫描、快速扫描;2、自动纠偏扫描后形成的文件如果倾斜,可以利用此功能对图像进行纠偏处理,也可以在初始化扫描时进行设置,系统可以边扫描边自动纠偏;3、去黑边、去污点、去污渍扫描后形成的文件可能会存在黑边、零散的小黑点、大块的污渍等情况,用户可以根据不同的情况自动去除黑边、污点、污渍,并且可以对处理的阀值(自动处理的强度)进行设置;4、拼接、拆分文档可以选择将多个单页文件组合成一个文件,也可将组合成的文件再进行拆分成多个单页文件。