当前位置:文档之家› TRS全文检索系统文档

TRS全文检索系统文档

1.1.1 全文检索系统结构根据全文检索技术和实现方法,结合需求,检索系统由以下三个部分组成:TRS全文数据库系统(TRS Database Server)TRS 全文检索网关(TRS Gateway)TRS信息发布应用服务器系统(TRS WAS)TRS全文数据库系统(TRS Database Server)采用TRS具有国际领先水平的信息检索和中文自然语言处理研究成果,具有傲视群雄的检索效果和查询性能,核心功能是对结构化和非结构化信息提供全文检索功能。

主要特点包括:●异构海量数据统一管理,非结构化和结构化数据联合检索●Native XML内核,实现全息检索●智能辅助检索,支持知识挖掘●精确计算,检索速度和准确性共达最优●动态索引实时更新,面向事务处理●支持Unicode编码,提供多语种查询引擎●多级机制保障,信息采集和检索高度安全●集群检索,保证高可靠性,随需轻松扩展规模TRS全文数据库系统(TRS Database Server)通过TRS全文检索网关,可以实现对关系数据库中文本对象字段的全文检索。

TRS内容分发服务器系统提供将数据库中的信息动态发布到Web服务器上,以为平台用户检索使用。

全文检索系统架构图如下所示:TRS信息发布应用服务器系统全文检索系统架构图1.1.2 全文检索网关TRS 全文检索系统采用开放的三层体系架构设计,整个系统基于主流的操作系统。

数据层主要为关系型数据库和TRS全文数据库,关系型数据库主要进行存储和管理,而全文数据库实现检索,利用TRS Gateway可以将关系型数据库的数据在TRS全文数据库中建立全文索引,以实现结构化和非结构化数据的全文检索。

TRS全文数据库是TRS 公司自主研发的具有知识产权的产品,为了能够更好的提供全文检索和智能检索等应用功能,它其中包括多种词典支持:分词词典、主题词典、停用词典等。

应用层主要依据TRS全文数据库提供的全文检索功能实现平台所需的检索需求,并为表现层提供检索服务。

这层可以根据具体需求利用TRS提供的丰富开发接口实现全文检索应用。

表现层主要为平台管理人员和最终用户提供数据库检索和网页检索等。

北京市技术标准在线服务平台的大部分业务应用都是基于关系数据库,关系数据库(RDBMS)擅长于结构化数据的事务处理和关系运算,但是对长文本以及非结构化大对象文本缺乏有效的检索手段,而TRS全文数据库对非结构化文本对象具有出色的管理和检索功能。

为了实现对关系数据库中信息的高效全面检索,针对这部分数据,需要将其进行统一采集和统一的检索服务。

这种方式的采集不需人工干预,完全采用自动化采集方式。

为了真正、全面的实现结构化和非结构化信息的全文检索,在全文检索设计中,采用TRS全文检索网关(TRS Gateway)实现关系型数据库数据全文检索功能。

TRS全文检索网关(TRS Gateway)是由北京拓尔思信息技术有限公司和五大关系型数据库厂商Oracle、Sybase、IBM、Informix、Microsoft鼎力合作,共同推出的实现TRS数据与主流关系型数据库SQL Server、Oracle、Sybase、DB2、Informix数据之间进行数据迁移的工具。

该工具实现了RDBMS与TRS全文数据库之间数据共享,使用户在享有RDBMS卓越的数据处理功能的同时,拥有TRS 优秀的全文检索功能。

系统特点:TRS Gateway采用可视化的管理与配置工具使系统简单易用,轻松实现信息管理。

用户只需要按步跟随“任务创建向导”的提示就可以创建更新任务,智能化定时运行工具,全面实现工作的无人监管:应用向导配置连接关系数据库及TRS数据库可设置的定时执行任务:对创建好的任务,用户可以设置其自动定时执行。

如:用户可以设置一个增量更新任务每隔30分钟执行一次,意即每隔30分钟将用户对RDBMS数据库表中数据的修改向TRS全文数据库中进行一次索引的更新。

高度自动化的定时执行功能使用户不必手动进行数据索引的更新操作,只需启动TRS*Agent即可自动定时执行。

实时查看和修改任务的各种属性:对任何一个创建好的任务,用户可以查看其属性,并可修改属性。

应用向导配置源表和目标表以及字段对应关系关系数据库与TRS全文数据库之间的数据更新方式支持:●完全更新执行任务时,先将指定的目标数据库表中的内容清空,然后将源数据库表中所有符合条件的数据迁移到目标数据库中。

适用第一次迁移数据。

⏹数据追加执行任务时,直接将源数据库表中所有符合条件的数据迁移到目标数据库中,并不将目标数据库表中的内容清空。

适用一段时间向目标数据库追加一批数据时。

⏹增量更新执行任务时,将所有源数据库表中符合条件的更新了的数据(指进行了删除、添加或修改的数据)迁移到目标数据库中。

可以通过设定定时方式由系统自动执行,适用每天有数据更新情况。

1.1.3TRS Web Application Server(TRS W AS)主要由管理控制台及应用端两部分组成,它主要有以下特点:●完全基于Web的管理方式管理控制台完全基于Web方式,使管理更加的灵活,真正实现了远程管理。

应用端部分同样是完全基于Web方式实现。

这种架构可以灵活的满足用户的需求,特别是ASP供应商。

●跨平台的支持由于TRS W AS4.0完全采用了基于Java的技术实现,也就完全继承了Java跨平台的特性,一套代码可以在多个平台上运行,省除了跨操作系统平台可能带来的代码移植问题。

●灵活性及安全性的提高TRS WAS4.0的开发是完全基于TRS TagLib基础上的。

在开发的过程中,遵循了业务逻辑与显示风格控制分开显示的原则(CVM方式),将所有的业务逻辑封装在Servlet中,完成请求的处理后,将请求转发到包含了TRS TagLib的JSP模板页面中,由此页面完成最终内容的格式化显示。

这种开发方式最大的优点就是灵活性。

在页面表现方面,最终页面的表现控制由TRS TagLib完成,表现为在JSP页面中插入TRS置标,修改起来十分的方便,并且业务代码不包含在其中,只需要美工人员就可以很好的完成,大大的减少了维护工作量;而当业务逻辑发生改变时,只需要对涉及到的Servlet进行逻辑代码的修改,完全屏蔽了显示层,工作量也大幅度的减少,保证了项目快速灵活的实施。

●支持对TRS数据库记录的增、删、改操作TRS W AS4.0实现了在Web上对TRS数据库中记录信息的增、删、改功能。

目前修改TRS数据库记录只适用于非二进制字段,增加及删除则没有这方面的限制。

●支持记录间相关性的连接,实现相关新闻的功能TRS WAS4.0实现了相关新闻的功能,通过相关字段,实现了在细览记录时获得与此记录相关联的记录,并显示这些关联记录的连接。

●支持对记录被阅读次数的记录,实现热门新闻的功能实现了对记录阅读次数的记录功能,当记录被细览一次时,自动将其的阅读次数字段加1,通过对阅读次数字段的排序,可以实现当前最热门记录的功能。

●提供TRS TagLib二次开发接口,保证项目快速灵活的实现提供一套TRS TagLib置标,以此为开发接口,可以很迅速灵活的开发其他应用程序,在开发过程中,显示部分由嵌入了TRS TagLib的JSP模板文件来完成,而业务逻辑部分可以单独进行开发,这样既减少了开发的复杂程度,保证任务的顺利完成,又同时确保了客户各种灵活性的需求得到了保证,最终的开发及维护工作量都将得到很好的控制。

1.1.4 TRS全文检索系统特点TRS全文检索以TRS全文数据库系统(TRS Database Server)为核心,提供功能全面、智能、高性能的全文检索服务保证。

在当今信息爆炸时代,正确的决策依赖于及时、准确和有效的信息,TRS全文数据库系统突破了传统全文检索和网页搜索引擎的种种局限,是真正基于知识的智能内容检索系统。

TRS全文数据库系统主要特点如下:●大型数据的存储和管理功能支持中文(简、繁体)、英文和中英文混合数据;支持多种索引策略,包括按词、按字、按用户自定义关键词等索引策略,能够根据文档对象的结构属性建立不同的索引结构以实现面向不同结构文档的检索要求;同时支持结构化数据和非结构化数据,支持多种数据类型(如日期、字符串、短语、文档和二进制多媒体类型);支持常用格式文件的入库和检索,如TEXT、HTML、RTF、MS Office、PDF、S2/PS2/PS、MARC、ISO2709等);支持多媒体数据的管理;支持多种形式的数据存放方式,如集中存放、分散存放或URL方式存放,并且数据还可以存放在其他数据库或应用系统中;高效的数据和索引压缩,实现了低空间膨胀率(-0.2~~1.0);支持字段的唯一(Unique)特性;支持数据库纪录的增删改操作;不同操作系统平台之间,库结构自由拷贝,方便管理员操作;管理员可设置“定时优化”的时间,降低系统管理的成本;修改记录时,保存记录号的移动轨迹,能够使用移动前的记录号读取记录,确保数据维护的正确和安全;可以方便地对各种词典进行管理和维护;在32位系统中使用64位文件系统以支持超大规模的数据库;方便的数据备份和恢复功能;多种格式的数据导出功能,可以导出XML,TRS等数据类型文件。

●体系结构分布式体系结构,可以建立多个TRS Database Server的集群结构,并在应用层实现透明访问;支持数据库一对多的单向镜像;多线程设计,支持SMP体系结构,支持大量并发用户访问;支持三层结构(Data Server、Application Server和Web Server)应用,每一层均可扩展。

●跨平台支持支持多种硬件平台:如大型机/小型机/服务器/PC机;支持多种操作系统:如64位和32位的Unix、Linux 、Windows NT/2000;客户机可以运行在 Windows 9X、Windows NT、Windows 2000、主流Web浏览器上;应用层接口和系统支持EJB,采用Java技术开发,同一套代码可以运行在异构的设备和操作系统环境中。

●对标准化和开放性的支持同时支持Client/Server结构和Web Browser/Web Server结构;支持ANSI 主题词典结构标准;支持ISO2709、XML数据格式的输入、输出;支持Apache Server、Netscape Enterprise Server和Microsoft IIS 等主流Web服务器;支持J2EE/EJB,Web应用服务器支持主流中间件产品,如IBM Websphere、BEA Weblogic、Oracle Application Server、Tomcat等;支持Netscape Navigator 和 Microsoft Internet Explorer等主流浏览器;支持和主流的五大关系型数据库管理系统无缝集成,提供分布式和跨平台的灵活配置方案,支持对关系型数据库的文本数据和大对象类型数据的检索能力;支持多语种:简体(GBK、GB2312、GB18030)、繁体(BIG5)、西文(ASCII)、国际统一码(Unicode);●实时性支持系统能支持对数据的增量更新,支持实时的数据添加、修改和删除。

相关主题