共享型专业教学资源库应用系统设计研究-以内蒙古建筑职业技术学院国家示范性院校建设立项子项目为例1、建设背景随着信息技术的发展,大型综合性、多学科商业数据库以及各类“数字图书馆”打破了信息传递在时间、空间方面的束缚,凭借互联网技术,读者可对所需信息进行即时的检索、下载和利用。
教育部实施“国家示范性高等职业院校建设计划”也要求加强重点专业领域建设工作,形成以重点专业建设为龙头、相关专业为支撑的重点建设专业群,提高示范院校对经济社会发展的服务能力。
因此,将各个专业建设的专业教学元素作为教学资源库的基本单位,建设共享型专业教学资源库成为示范性职业院校示范项目之一。
而资源库应用系统的开发对于资源的有效上传和共享起着关键作用。
2、应用系统底层结构设计清华同方KBase全文数据库管理系统(简称KBase)是以管理海量的文本、网页、档案、文献、办公文档等非结构化数据为主,具备中文智能信息处理能力的国产数据库管理系统。
KBase具有优异的全文检索性能和强大的海量非结构化数据存储管理能力,拥有超过500万词汇量的、大百科式的概念关系词典,具备业界领先的中文智能信息处理能力。
KBase 解决了非结构化信息处理的基本问题,可用于任何处理非结构化信息的行业应用,如数字图书馆、数字档案馆、电子政务、企业搜索、知识管理、内容管理、情报分析、互联网不良信息监控、信息资源开发利用、门户建设等等。
在网络教学资源库应用系统底层结构设计时,我们使用拥有自主知识产权的kbase非结构化数据库系统作为底层。
3、功能需求根据教学资源库建设需求,我们的系统主要设计功能为:数据库管理系统、内容管理系统、内容发布系统、信息采集系统、元数据加工系统、数据转换系统、数据迁移系统、资源提交系统。
功能主要特点如下:(1)内容管理与发布系统:支持INTERNET内容发布的自动化管理;支持单站同构多库的内容管理与发布;提供全文检索等多种检索途径,支持导航检索;支持用户内容订制;提供多种发布模板,支持自定义模板;支持多媒体发布;支持多层面数据安全控制。
(2)分类标引工具:实现元数据的标引和分类,支持所有文档类型的标引工作。
(3)电子图书制作工具:可自动将PDF/WORD等常见格式的电子文档转换成PDF格式;支持图像扫描及处理,实现纸质资源的数字化加工。
3.1数据库基本平台功能设计选用清华同方的TPI 4.5建库与发布系统作为底层实现以下功能。
3.1.1数据制作发布系统资源建设都有属于自己有特色的一些数据需要建立特色数据库,例如内部资料、行政公文、人事档案、会议纪要、科研成果、设计文档等等。
这些经常需要更新的资源不能总是去外包制作,一方面成本太高,另一方面也不利于本单位技术人才的培养。
TPI提供了功能丰富的数据库管理工具,并提供完善的各种功能向导,使“自建数据库”的工作变得更加容易上手。
TPI数据库管理工具还提供了大量针对不同类别资源的数据库模版,供用户直接使用,用户也可以对模版中的字段进行增删改,以适应自身的需要。
TPI数据库管理工具还提供了“多导航”的支持,多导航的好处在于用户可以根据自己的需要,在同一个库中以不同的分类需求快速定位信息,如“馆藏资源”库,我们既可以按照中图法对图书进行分类,也可以按照学科分类的方法来进行分类,这样就可以在“馆藏资源”库中建立“中图法”和“学科分类”两个分类,用户就可以根据自己的习惯更加方便的在两个分类中进行切换,更好的进行浏览和检索。
3.1.2 元数据标引分类检查数据标引完成电子书元数据录入、修改和入库。
数据标引工具支持Word文档、nh文件、html文件、kdh文件、txt文件等文件类型的标引工作。
采用可视化操作,直接从原文中选择需要的内容,操作简单、直观。
通过TCP/IP与FTS服务器相联接,实现分布式的并行数据加工。
元数据标引的主要功能包括:登录服务器、查看记录、数据标引和设置选项。
登录服务器数据标引工具通过TCP/IP协议连接到检索服务器,并对分配的任务进行操作,这样数据标引工具与检索服务器不必运行在同一台计算机上,可以进行远程标引工作,也可以多台机器同时运行,提高效率。
查看记录用户可以根据标引操作的完成情况来查看记录。
通过设置显示字段,可以在标题区和数据区显示记录的各字段信息。
同时,也可以设置标题区中每页显示的记录数以及进行记录之间的翻页和跳转。
数据标引有两种标引工作方式:通过原文进行标引:对原文类型为kdh文件、nh文件、pdf文件、txt文件、html文件和word文件的记录,标引工具提供了一种非常方便的标引方式,即通过在原文中选取相应文字进行标引。
编辑记录:对于不能通过原文进行标引的记录,可选择“标引记录\编辑记录”菜单,直接在“记录编辑”对话框中编辑字段。
设置选项下载原文设置和标引索引设置。
数据分类利用可视化的操作界面实现数据分类的过程。
数据分类工具提供标准的中图法分类体系,也允许用户自定义分类体系。
在用户选定分类体系基础上,系统自动生成相应的导航树,在此导航树的基础上,用户只需要将记录拖动到相应的结点,系统就可记录下本记录对应的分类号。
TPI的数据分类工具通过TCP/IP与FTS服务器相关联,实现分布式的并行数据加工。
数据分类的主要功能包括:登录服务器、查看记录、检索记录、分类记录、设置选项。
登录服务器数据分类工具通过TCP/IP协议连接到检索服务器,并对分配的任务进行操作,这样,数据分类工具与检索服务器不必运行在同一台计算机上,可以进行远程分类工作,也可以多台机器同时运行,提高效率。
查看记录用户可以根据分类操作的完成情况来查看记录。
通过设置显示字段,可以在标题区和数据区显示记录的各字段信息。
同时,也可以设置标题区中每页显示的记录数以及进行记录之间的翻页和跳转。
检索记录检索记录分专项检索和组合检索两种方式。
分类记录将记录拖动到导航树的相应结点。
设置选项下载原文设置和分类索引设置。
3.1.3数据迁移工具TPI支持大部分常见的数据库格式,从而使您可以将现有的不同格式的数据库中数据导入TPI数据库中,这样您就不用担心现有的数据如何使用一种工具就可管理和发布了,TPI对CNMARK、ODBC、EXCEL、DC、ACCESS、XML、TPI、CALIS、自定义文本等格式都支持。
3.1.4 纸质资源数据化加工(电子书加工工具)Bookshop是清华同方知网(北京)技术有限公司自主研发的电子书加工工具。
通过该工具可以把书籍、报刊、公文等各类纸张文档,通过书页扫描、书页图像处理、目录树编改、书页压缩等过程简单快速地形成电子书籍。
Bookshop尤其支持各类纸张文档加工成电子书的全过程。
其中包括书页图像扫描及管理、书页图像处理、书页图像识别导入及编改、目录加工处理、书页图像及目录合并形成电子书。
为适应大规模图书加工业务,该工具对部分工艺还设计了批处理工作方式,用于电子书流水线加工。
Bookshop为书籍电子化提供了一种快捷、方便、高效的全面解决方案。
系统性能图像扫描:平均1秒/页(高速扫描仪),和扫描仪及扫描方式有关。
图像裁边:0.5秒/页。
倾斜校正:4.5秒/页手工校正:1秒/页手工修描:1秒/页加图章:0.9秒/页生成目录树:1.5秒/页生成电子书:0.25秒/页3.1.5 KBASE全文检索服务器清华同方KBase全文数据库管理系统(简称KBase)是以管理海量的文本、网页、档案、文献、办公文档等非结构化数据为主,具备中文智能信息处理能力的国产数据库管理系统。
KBase具有优异的全文检索性能和强大的海量非结构化数据存储管理能力,拥有超过400万词汇量的、大百科式的概念关系词典,具备业界领先的中文智能信息处理能力。
KBase是清华同方在承建中国国家知识基础设施(CNKI)这一国家级大规模信息化工程的过程中,依托清华大学科技和人才优势,厚积薄发自主研发而成的。
KBase作为CNKI工程的运营支撑平台,管理着目前全球最大的中文知识信息资源数据库,每天提供千万人次的信息检索服务。
同时,KBase 已成功应用于包括欧美发达国家在内的全球5000多家机构用户,其优异的性能和稳定性,受到用户的一致好评。
KBase 解决了非结构化信息处理的基本问题,可用于任何处理非结构化信息的行业应用,如数字图书馆、数字档案馆、电子政务、企业搜索、知识管理、内容管理、情报分析、互联网不良信息监控、信息资源开发利用、门户建设等等。
6、主要特点6.1高效、准确的全文检索KBase全文检索速度高达500G/S,处于业界领先地位。
同时,KBase基于先进的高维索引技术在国际上首次将相似检索功能真正做到了实用化水平: 速度高达百万级文献量毫秒级响应。
KBase集成先进的全切分切词算法,很好地解决了歧义切分问题,可将“原子结合成分子”正确地切分成“原子/结合/成/分子”而不是“原子/结合/成分/子”,从而使KBase与同类产品相比具有更高的查准率、查全率。
6.2海量非结构化数据管理KBase具有强大的海量非结构化数据存储管理能力,单表管理的记录数可达40亿,单表管理的数据容量可达TB级(分区表可达PB级)。
KBase 同时支持多机群集,实现数据的分布式存储。
KBase 作为CNKI工程的运营支撑平台,目前管理着全球最大的中文知识信息资源数据库,每天提供千万人次的信息检索服务,其优异的性能和稳定性,受到广大CNKI用户的广泛赞誉。
6.3功能强大的关系数据库全文检索网关KBase提供了对Oracle、DB2、SQL Server、Sybase、Informix 等主流关系数据库管理系统(统称RDBMS)的全文检索网关,实现了RDMS和KBase 服务器之间的数据共享和实时同步,使用户在享有RDBMS卓越的数据处理功能的同时,拥有KBase优秀的全文检索功能。
基于KBase 关系数据库全文检索网关,可以整合多种异构数据源,实现企业级信息资源的统一搜索。
6.4大规模并发处理能力KBase支持多服务器群集,可将多个独立的KBase服务器虚拟整合成一个整体,实现高效的分布式计算,大大提高系统的并发处理能力。
6.5先进的中文智能信息处理能力KBase拥有超过400万词汇量的、大百科式的概念关系词典,集成Smart TextMiner文本挖掘引擎和NLP自然语言处理引擎,可提供自动分类、自动聚类、关键词自动标引、自动文摘、信息过滤、关联规则挖掘等多种实用功能。
6.6 易用的检索语言KBase充分考虑用户使用习惯,提供类似SQL的查询语言—KSQL,设计更加人性化。
6.7 完整的应用开发接口KBase提供.Net组件、COM组件、Java组件、ODBC、ADO等数据库访问接口,并且针对有较高底层开发要求的用户提供完整的二次开发接口。