当前位置:文档之家› 全文检索需求及选型

全文检索需求及选型

全文检索需求
档案管理系统
需求整理
1、一个文档有多个附件;
2、文档支持格式:pdf,CEB,txt,html,office(world、excel)、wps 文档,tf、tff;
Ceb格式,目前在档案系统已经存在一个对应的txt文件;
现在有两种方案来处理ceb格式:一是把档案系统中的ceb对应的txt文件,迁移过来;二是ceb文件重新转换一次。

3、权限管理,权限有个人、角色、部门分类;
4、检索的内容包括,结构化数据和非结构化数据;可以支持定制查询;可以分多个字段查询(比如:档案类型、查询年份)
5、准确显示摘要和高亮显示;
6、矩阵分析(智能分析相似文档,数据挖掘的一部分);
档案的现在方案
a)使用lucene2.x 版本;
b)系统是二级部署;
c)每个网点比如福建,按地市创建索引文件。

每个地市的索引文
件的大小在800M左右,这样单个档案系统的一个网点的索引
总大小应该在10G左右(目前的大小)。

d)每个地市只可以单独查询,目前没有实现合并查询。

e)新建索引和增量索引是分开处理的。

f)权限控制,目前是用户在请求单个文档的时候才验证权限;在
索引和检索两个层次上没有做控制。

其他特点
知识管理系统
需求整理
1、目前是一个文档对应一个附件,但以后有可能支持多个附件;
文档支持格式:知识管理中各种文档都会存在,尽量支持大部分数据格式。

2、支持的格式可以灵活扩展。

3、权限管理,权限有个人、角色、组织、部门等层次;
4、检索的内容包括,结构化数据和非结构化数据;可以支持定制查询;
5、准确显示摘要和高亮显示;
6、智能分析(相似文档,数据挖掘的一部分);
目前知识关系系统的方案
A)采用Autonomy;
B)系统式一级部署,索引总部建一个统一的索引;
C)支持分布式部署,包括索引文件相同的重复部署,和内容不相同的分布式部分。

D)权限控制:有权查看每份文档的用户名,都创建到索引中。

目前的缺点
A)有权限查询的时候会比较慢;
B)人为控制查询结果比较困难;
C)配置繁琐。

关联问题
1、检查出来的结果在线阅读时,存在多分文档的时候,怎么展示。

选型对比
Lucence Autonomy 对比分析备注。

相关主题