SQL Server2008中全文检索的实现
1 引言
随着计算机的普及和网络技术的发展,我厂的生产管理、数据查询、公文流转等大都实现了计算机管理,方便了信息交流与共享,提高了生产效率。
但是,目前针对散落在个人、单位电脑中的WORD文档、电子表格以及多媒体汇报(PPT)文档等还没有一套完整的管理系统,既造成了存储资源的浪费,又不利于资源的共享。
因此,需要一个文档信息管理系统,把这些分散的文档集中存储到数据库中,为用户提供一个统一的、可以多方式检索的平台,方便用户进行科学、高效地获取信息。
而对存储在数据库中的大量非结构化的文档数据进行查询时,通过普通的SQL语句是无法实现的(不能使用LIKE谓词来查询格式化的二进制数据);即使是非二进制的普通类型字段查询,对数百万行文本数据执行的LIKE 查询可能需要花费几分钟时间才能返回结果;但对同样的数据,全文索引查询只需要几秒或更少的时间。
因此要实现一个能够快速实现检索的文档管理平台,有必要应用全文检索技术。
2 全文索引简介
全文索引是以文本数据为主要处理对象,提供根据数据资料的内容来实现的信息检索。
全文搜索通常用于基于Web的应用程序、文档管理系统以及自定义应用程序,以便对存储在数据库中的数据提供文本搜索功能。
Microsoft公司开发的SQL Server 2008是一款面向高端的数据库系统,它继承了SQL SERVER以前版本的一些强大的优势,界面更加友好。
它的全文索引功能配置简单、使用方便,为索引和查询数据库中存储的结构
化和非结构化文本数据提供了可靠、快速而灵活的方法。
3 全文索引实现过程
下面以多媒体信息管理平台为例,详细介绍一下全文索引的实现方法。
第一步,登陆SQL Server 2008服务器
第二步,在SQL Server中建立一个使用全文索引的数据库dmtpt,要选中使用全文索引选项。
在该数据库中建立一个存储文档文件的表
main_files。
第三步,在main_files表上点击右键,选择“定义全文索引”,进入全文索引向导对话框。
第四步,选择将要对其进行全文索引的列。
第五步,选择数据发生变化时,全文索引的更新方式。
这里选择自动,以保证更改的数据随时会被检索到。
第六步,全文目录的作用是存储全文索引,要创建全文索引必须先创
建全文目录。
第七步,定义填充计划可以添加或修改确定何时填充或重新填充全文目录的计划。
第八步,完成全文索引向导。
以上是建立全文索引的全过程。
完成建立后,使用全文索引语句,即可以对其进行全文检索。
4 全文索引语句CONTAINS和FREETEXT的使用
SQL Server 2008提供的全文索引语句主要有CONTAINS和FREETEXT。
CONTAINS语句的功能是在表的所有列或指定列中搜索:词或短语、词或短
语的前缀、另一个词附近的词、由另一个词的词尾变化生成的词(例如,词drive是drives、drove、driving和driven词尾变化的词干、比另一个词具有更高加权的词。
CONTAINS语句的语法格式为:
CONTAINS({column | *}), )
其中,column是搜索列,使用“*”时说明对表中所有全文索引列进行搜索。
Contains_search_ condition 说明CONTAINS语句的搜索内容,其语法格式为:
{||||}[{{AND|AND NOT|OR}}] [...n]
下面就simple_term和prefix_term参数做简要说明:
simple_term是CONTAINS语句所搜索的单字或短语,当搜索的是一个短语时,必须使用双引号作为定界符。
其格式为:
{‘word’|“ phrase”}
prefix_term说明CONTAINS语句所搜索的字或短语前缀,其格式为: {“word*” | “phrase*”}
FREETEXT语句的功能是在一个表的所有列或指定列中搜索一个自由文本格式的字符串,并返回与该字符串匹配的数据行。
所以,FREETEXT语句所执行的功能又称做自由式全文查询。
使用 FREETEXT 谓词可以输入单词或短语的任意集合,甚至一个完整的句子。
全文查询引擎将检查该文本,标识出所有重要的单词和名词短语,并用这些条件在内部构造一个查询。
FREETEXT语句的语法格式为:FREETEXT({column |
* },‘freetext_string’)
其中,column是被搜索列,使用“*”时说明对表中的所有全文索引列进行搜索。
Freetext_string参数指出所搜索的自由文本格式字符串。
CONTAINS、FREETEXT作为谓词可直接用在WHERE子句的条件中,两者的区别在于CONTAINS对所查询的所有词语执行完全匹配查询而FREETEXT 则执行词根查询(如搜索“root beer”时,系统将返回至少与“ root”和“beer”这些词语之一匹配的所有行)。
以下是在2008中,对用main_files 表的image字段file_body进行全文检索的实现。
查询语句为select file_id,file_name,file_type from main_files where contains(file_body, ‘总结’)
5 结语
相对于“google”、“百度”这些价格昂贵、架构复杂的搜索引擎来讲,本文介绍的全文索引功能要简单,但是实现方便、成本低廉,并且完全可以满足企业级的需求。
另外,本文只介绍了在SQL Server2008中如何实现全文索引,在其他数据库引擎中同样可以实现,如ORACLE,用户可根据需要自行选择。
希望以上资料对你有所帮助,附励志名言3条:
1、宁可辛苦一阵子,不要苦一辈子。
2、为成功找方法,不为失败找借口。
3、蔚蓝的天空虽然美丽,经常风云莫测的人却是起落无从。
但他往往会成为风云人物,因为他经得起大风大浪的考验。