当前位置：文档之家› 基于文本挖掘的本体自动构建系统架构解析

基于文本挖掘的本体自动构建系统架构解析

・０１１・
建技术，对解决本体构建问题具有很大的借Байду номын сангаас意义。
知识挖掘，包括文本自动摘要、本聚类、文关联规则抽
取和语义关系挖掘等。由于知识挖掘得到的结果可能
ｌ文本挖掘
文本挖掘（ｅｔｎｇ是指为了发现知识，大ＴｘＭｉｎ）ｉ从
基金项目：国家国际科技合作计划项目（０９Ｆ１１０）２０ＤＡ３１
作者简介：中玉（９１）男，薛１８一，河南开封人，硕士，程师，ｒ从ｍ文本
挖掘、体和信息检索研究。本
第１期
薛中玉等：基于文本挖掘的本体自动构建系统架构解析
第２卷１
第１期
计算机技术与发展
ＣＯＭＰＵ、ＣＨＮＯＬｑＥＲＴＥ．ＵＧＹＡＮＤＤＥＶＭＥＮＴＥｔＯＰ
Ｖｏ．Ｎｏ１２１．１
２１０１年１月
Ｊｎ２１ａ．０１
基于文本挖掘的本体自动构建系统架构解析
间，但现阶段本体主要采用人工构建方法，投入资源大、设周期长，质量无法保障，些成为制约本体应用的主要瓶建且这颈。文中提出了一种基于文本挖掘的本体自动构建系统和方法，详细介绍了用户层、统工具层和数据资源层中各模块系的功能和实现方法，体分析了系统数据处理的整个流程。该系统和方法对于解决本体构建问题具有借鉴意义。具关键词：文本挖掘；本体构建；系统架构中图分类号：Ｐ１Ｔ３文献标识码：Ａ文章编号：６３６９（０１Ｏ一１ｏｏ１７ — ２Ｘ２１）１Ｏ０ — ４
薛中玉李春梅黄道雄，，
（．１北京中机科海科技发展有限公司，北京１０４；００８２机械工业仪器仪表综合技术经济研究所，．北京１０５）００５
摘要：本体可以为人与计算机之间的沟通和交流提供语义支撑，人工智能、识工程等众多领域有着广泛的应用空在知
ｏｙｃｎｔｃｉｎｇｏｓｒｔ．ｕｏＫｅｒｓ：ｅｔｍｉｉｇ；ｎｏｏｙｃｎｔｃｉｎ；ｙｔｍｒｈｔｃｕｅｙｗｏｄｔｘｎｎｏｔｌｇｏｓｒｔｏｓｓｅａｃｉｔｒｕｅ
Ｏ引言
ＡｂｔａｔＯｎｏｏｙｉｂｅｔｆｅｅｎｔｕｐｒｏｕｎ－ｏｕｅｎｅａｔｎＳｈｔｉｃｎｂｏｎｄｐｌａｏｓｉｈｓｒｃ：ｔｌｇｓａｌＯｏｆｒａｓｍａｉｓｐｏｔｒｈｍａｃｍｐｔｒｉｔｒｃｏＯｔａｔａｅｆｕｄｗｉｅａｐｉｔｎｎｔｅｃｆｉｃｉｉｌｓｏｒｆｉｌｉｔｌｇｎｅ，ｋｏｅｇｎｉｅｒｎｄＳｎｆｅｄｆａｔｃａｎｅｌｅｃｉｉｉｎｗｌｄｅｅｇｎｅｇａＯｏ．ＨｏｖｒｔｒｓｎｎｏｏｙｃｎｔｕｔｎｍａｎｙＵｅｅｍａｕｌａ — ｉｎｗｅｅ，ａｅｅｔｏｔｌｇｏｓｒｃｏｉｌＳＳｔｎａｐｐｉｈ
ＳｓｅｃｔｃｕｒａｙｉｆＡｕｏａｉｎｓｒｔｏｙｔｍＡｒｈｉｅｔｅＡｎｌｓｓｏｔｍｔｃＣｏｔｕｃｉｎ
ＳｙｔｍｆＯｎｏｏｙＢａｅｎＴｅｔＭｉｎｇｓｅｏｔｌｇｓｄｏｘｎｉ
的概念和关系，为本体自动构建提供所需的素材。能够
通过开发的文本挖掘结果分析工具和本体自动构建工具，进而能够实现本体的自动构建。
所有的概念、知识和专家学者的思想，如果能够利用好这些信息中所包含的知识，完全可以构建非常完整、实
２系统架构
２１用户层．
用户层包括领域资料管理（具体分为本体名称、核心概念、主题词表和语料库等）规则模版管理、、核心概念管理、三元组管理和本体文件管理等接口模块，用于提供丰富的人机交互接口。各模块主要功能如
念间关系（ｅｔｎ）Ｒｌｉｓ和规则（ｕｓ构成。ａｏＲｌ）ｅ本体由其自身的特点，以将人们广泛认可的各可种类型知识转化为规范的、算机可以理解的形式，计为
“ 计算机与人之间正常沟通与交流” 提供语义支撑。
收稿日期：０００ — ７修回日期：０００ — ３２１－４２；２１— ７０
ｐｃｔｄｓｄａｔｇｆｉｈｒｏｓｕｔｎＣＳ．ｏｇｄｖｌｍｅｔｅｏ。ｄｕｓｒｕｉ．ＴｉｂｃｍｓｊｒｏｎｃｍａｈｗｉｉｖａｅｏｇｅｎｔｃｏＯｔ１ｎｅｅｏｎｐｒｄａｎｕｅｑａｔｈｓｅｏｅｍａｏｍｅｅｋｔｈａｎｈｃｒｉｐｉｎｌｙａｂＯ
工作量相当之大。鉴于本体构建工程的复杂性和智力
密集性等特点使得本体的构建往往投入资源大、建设周期长，质量无法保障，且这些成为影响本体应用和推广的主要瓶颈和难点… 。因此，解决本体构建阶段现有技术和方法的瓶颈和难点成为业内人士主要研究方向之一。文中提出了一种基于文本挖掘的本体自动构
“ 本体” Ｏｔｏｙ最初是哲学领域的术语，（ｎｌ）ｏｇ是关于事物存在及其本质规律的学说… 。２０世纪末，随着信息技术的发展，本体被引入人工智能、知识工程等领
域，用于构建大型集成的知识库系统，解决知识概念表
因此，本体在人工智能、知识工程、图书情报和搜索引
擎等众多领域都有广泛的应用空间。但是，目前真
正投人使用的本体还很少。其主要原因在于现有本体
的构建是以人手工为主，用Ｐｏ６６和０ — 利ｒｔｇｎ
ｔｄｔ等常见本体工具，ｏｉＥ技术的应用实施还很困难，由于该项工作是一项非常复杂、庞大的系统工程，将相关领域的概念和关系进行梳理，并用规范化的模式进
ｈｎｅｎｏｏｙａｐｉａｏｓｉｄｒｏｔｌｇｐｌｔｎ．Ｔｈｓｐｐｒｐｅｅｔｕｏｔｏｓｒｃｉｎｓｓｅｏｎｏｏｙａｄｍｅｈｄｂｓｄｏｅｔｍｉｉｇ，ｉｒｃｉｉａｅｒｓｎｓａａｔｍａｉｃｎｔｕｔｙｔｍｆｏｔｌｇｎｔｏａｅｎｔｘｎｎｎｃｏｎｔｏｄｃｓｉｄｔｌｔｅｆｎｔｏｓａｄｉｌｍｅｔｔｎｍｅｏｆｔｅｕｅａｅ，ｓｓｅｔｏｓｌｙｒａｄｄｔｅｏｒｅｌｙｎｔｅｓｓｅ，ａｄｕｅｎｅａｈｕｃｉｎｍｐｅｎａｏｔｄｏｓｒｌｙｒｙｔｍｏｌａｅａａｒｓｕｃａｅｉｈｙｔｍｉｎｉｈｈｎｒｎｎｌｚｓｔｅｗｈｌｙｔｍａｐｏｅｓｏａａｙｅｈｏｅｓｓｅｄｔｒｃｓｉｇｆｗ．Ｔｈｓｓｓｅａｄｍｅｏａｅｕｄｆｒｒｆｒｎｅｔｏｖｈｉｌｒｐｏｌｍｓｉｎｏ・ａｎｌｉｙｔｍｎｔｄＣｂｓｅｅｅｃｓｌｅｔｅｓｍｉａｒｂｅｎｏｔｌｈｎｅｏＯ
基于文本挖掘的本体自动构建系统架构如图１。
用的本体。但是，因为这些信息是由非结构化的自然
语言表示的，具有模糊性和歧义性，无法直接获取蕴含的概念和知识，需要运用文本挖掘技术对其进行分析
和处理。。。
该系统主要分为用户层、系统工具层和数据资源层等。
ＸＵＥｏｇ—ｙ，ｕＺｈｎｕＬＩＣｈｎ—ｍｅ。ＨＵＡＮＧａｉＤｏ—ｘｏｉｎｇ
，
（．ｅｉｇＺｏｇｋｈｉｅｈｏｏｙＤｖｌｍｅｔｔ，ｅｉ００８，ｈａ１ＢｉｎｈｎｊｅａＴｃｎｌｅｅｐｎｄＢｉｎ１０４Ｃｉ；ｊｉｇｏＬｊｇｎ２ＭａｈｎｒｄｓｙＩｓｕｎａｏｅｈｏｏｙａｄＥｏｏｎｔｕ，ｅｉｇ１０５，ｈａ）．ｃｉｅｙＩｕｔｎｔｍｅｔｉｎＴｃｎｌｇｎｃｎｍｙＩｓｔｔＢｉｎ００５Ｃｉｎｒｒｔｉｅｊｎ
下：
文本挖掘的过程一般包括文本数据预处理、文本
信息提取和索引、本知识挖掘及知识后处理等步文骤。数据预处理包括数据清洗（去噪、如去重）数、据选择（选择合适的、向特定领域的文本数据）面和文本切分（中文分词、如段落切分）。数据预处理后，等必须提取中文文本的特征信息，包括关键词提取、术语提取、基于模板的信息抽取和基于专业词典的概念转换等操作。经过中文文本特征提取操作后，中文文本数据转换为中文文本信息。在文本信息的基础上进行

e商务文档

基于文本挖掘的本体自动构建系统架构解析

相关文档推荐：