论非结构化数据库的应用
谭鑫(1101400114)随着网络技术和网络应用技术的飞快发展,完全基于Internet应用的非结构化数据库将成为继层次数据库、关系数据库之后的又一重点、热点技术。
关系型数据库由于其严格的表格结构使其对图像、音频、视频等数据的处理存在着缺陷。
这种无法用数字或统一的结构表示的信息,即通常意义上的多媒体信息统称为非结构化数据。
随着网络技术的不断发展,在数据库应用领域中,非结构化数据的数据量日趋增大,非结构化数据库管理系统便应运而生。
非结构化数据库,即其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库。
在其底层存储机制的变革基础上,采用先进的倒排档索引技术,从而实现了对于海量文献信息的快速全文检索的功能,并同时支持多种字段限定检索。
对于多媒体信息的存储和管理,非结构化数据库系统采用外部文件方式,摈弃了传统关系型数据库采用二进制字段存储的方式,实现了对于图形、声音等多媒体信息的高效管理。
其高效性在图书馆信息资源中具体表现在:
(1)非结构化数据库系统实现了对于变长字段、重复字段和子字段的定义、存储和管理,并且记录的数目、长度,字段数目与长度以及字段可重复次数均可不受限制,允许数据项具有多值性和可包含子字段,充分满足了图书馆建立文献数据库的特殊管理要求。
(2)图书馆资源载体类型较多,有纸制的载体,也有磁、光、电介质的载体。
馆藏电子信息资源不仅包括TxT、DOC、EXCEL、PPT、PDF等流行的数据文件类型,而且还存有大量的图像、音频、视频等数据信息。
图书馆资源既包括本地资源,又存在异地资源,既有国内资源,又存在国外资源,不同国别,不同地域的文献资料在数据著录格式上存在着差别。
非结构化数据库采用面向对象技术不仅支持国际标准和国内标准格式,而且支持最新的SGML和XML格式,覆盖了多类型文档应用领域内几乎所有的文献数据类型。
具有可扩展性,可以与其他元数据单元连接使用,不仅适合中文全文检索系统平台的应用,同时也符合国际数字图书馆标准化的发展趋势,便于与国际交流与接轨,这对于图书馆数据库标准化和数据交换与共享,起着极其重要的作用。
(3)在网络应用中,如何从浩瀚的信息海洋中查找到所需的信息,如何保证所查询信息的全面性和准确性,也是一个我们面临的问题。
非结构化网络数据库系统通过其独特的索引技术和基于布尔检索表达式的查询检索算法,解决了基于字段级和数据库级的全文检索问题,用户可以针对数据库中特定的字段也可针对整个数据库进行全文检索,从而从数据库中检索出感兴趣的内容。
非结构化数据库内嵌全文检索引擎,采用倒排档索引技术,不仅能够对整个字段进行查询,而且可以提供子字段、关键词、自由词、标引词、位置词和全文任意词的单项及组配检索。
而且速度也非常快,一般不受文献量的影响,满足海量数据检索的需要。
同时,非结构化数据库支持外挂文件的全文检索,其独特的外部文件支持能力使图书馆能轻松实现二次文献挂接全文的功能。
(4)非结构化数据库采用自然语言处理和人工智能技术,提供基于内容的检索和ANY词检索方式,并在检索中实现对于特定类目相关词的利用,大大提高了系统的查全率。
同时非结构化数据库支持的禁用词,可以过滤掉一些没有检索意义的英文虚词,以提高查准率。
作为网络应用,由于需要面对大量的用户群和
大量的瞬时并发数据库查询检索,其数据库查询和检索效率就是一个极其关键的问题。
非结构化网络数据库系统主要通过重复字段和子字段来保证数据库查询和检索的效率,实现了数据库的一条记录中一维表和二维表嵌套,从而避免了关系数据库在大数据量时由于表连接查询而导致的查询检索性能的急剧降低。
(5)非结构化数据库提供了后控制词表检索系统。
后控制词表系统对于后控制词表采取数据库管理方式,与全文检索的检索式构造相连接。
对每一个检索词提供关系词,用户可根据具体检索需求选取关系词,并将之增加到检索表达式中,从而实现检索表达式的优化,提高全文检索的效率,降低用户负担。
由于系统采用了先进的模板技术,系统从数据库中提取数据按照模板格式自动动态生成或更新网页,因此大大减轻了图书馆管理人员的负担。
对于发布上网的数据库资源,系统提供了完善的检索功能。
它不仅支持一般的全文检索,而且支持基于网络的后控制词表管理与检索方式,从而极大地方便了读者对文献信息资源的深层挖掘和利用,为读者提供完善的服务。
根据数字图书馆面临的版权和信息安全问题,图书馆文献信息资源发布与检索系统还提供了基于角色的用户权限管理、基于策略的计费管理和完善安全认证管理以及图形界面维护管理机制。
非结构化数据库高效的数据管理能力和全文检索能力,使非结构化数据库在图书馆信息检索和文献资料数字化进程中,具有了十分重要的意义。