当前位置:
文档之家› 基于文本挖掘的本体自动构建系统架构解析
基于文本挖掘的本体自动构建系统架构解析
・0 1 1・
建技术 , 对解决本体构建 问题具有很大的借Байду номын сангаас意义 。
知识挖 掘 , 包括文本 自动摘 要 、 本聚类 、 文 关联 规则抽
取和语 义关 系挖掘等 。由于知识挖掘得到 的结果可能
l 文 本 挖 掘
文 本 挖 掘 ( et n g 是 指 为 了发 现 知 识 , 大 T x Mi n ) i 从
基金项 目: 国家国际科技合作计划项 目(0 9 F 1 10) 20D A3 1
作者简介 : 中玉( 9 1 ) 男 , 薛 18 一 , 河南开封人 , 硕士, 程师 , r 从m文本
挖 掘 、 体 和信 息 检 索 研 究 。 本
第1 期
薛 中玉等 : 基于文本挖掘 的本体 自动构建系统架构解析
第2卷 1
第1 期
计 算 机 技 术 与 发 展
COMPU 、 CHNOL qER TE . UGY AND DEV MENT Et OP
Vo . No 1 21 .1
21 0 1年 1 月
J n 2 1 a. 0 1
基 于 文 本 挖 掘 的 本 体 自动 构 建 系 统 架 构 解 析
间, 但现 阶段本体 主要 采用人 工构 建方法 , 投入 资 源大 、 设周 期 长 , 质量 无 法 保 障 , 些成 为制 约本 体 应 用 的 主要 瓶 建 且 这 颈 。文 中提 出了一种基 于文本 挖掘 的本体 自动构 建系统 和方 法 , 详细 介 绍 了用 户层 、 统工 具层 和 数据 资源 层 中 各 模块 系 的功 能和实现 方法 , 体分析 了 系统数据 处理 的整个 流程 。该 系统和方 法对 于解 决 本体构建 问题具 有借鉴 意义 。 具 关键 词 : 文本 挖掘 ; 本体 构建 ; 系统 架构 中图分类号 :P 1 T 3 文献标识 码 : A 文章 编号 :63 6 9 (0 1O 一 1o o 17 — 2X 2 1) 1O0 — 4
薛中玉 李春梅 黄道雄 , ,
(. 1 北京 中机科 海科技 发展 有限公 司, 北京 104 ; 00 8 2 机 械 工业仪 器仪 表综 合技 术 经济研 究所 , . 北京 10 5 ) 00 5
摘 要: 本体 可以为人 与计算 机之 间 的沟通 和交 流提 供语 义 支撑 , 人 工智 能 、 识 工程 等众 多领 域有 着 广 泛 的应 用空 在 知
o y c n t c i n g o sr t . u o Ke r s:e tmi ig; n o o y c n t c i n;y t m r h t cu e y wo d t x n n o t l g o sr to s se a c i t r u e
O 引 言
Ab t a t Ono o y i b e t fe e nt u p r o u n - o u e n e a t n S h ti c n b o n d p l a o s i h s r c : t l g s a l O o f ra s ma i s p o t rh ma c mp tr i t rc o O t a t a e f u d wi e a p i t n n t e c f i ci i l s o r f i li tl g n e,k o e g n i e rn d S n fed fat c a n el e c i i i n wl d e e g n e g a O o .Ho v r t r s n n o o y c n tu t n ma n y U e e ma u la — i n we e ,a e e to t l g o sr c o i l S S t n a p p i h
S se c tcur ay i fAu o a i nsr to y tm Ar hie t e An l sso t m tc Co tucin
Sy t m fO n o o y Ba e n Te t M i ng s e o t l g s d o x ni
的概念和关 系 , 为本体 自动构 建提供所需 的素材 。 能够
通过开发的文本挖掘 结果 分析工具和本体 自动构建工 具, 进而能够实现本 体的 自动构建。
所有的概念 、 知识和专家学者 的思想 , 如果能够利用好 这些信息 中所包含 的知识 , 完全可 以构建非常完整 、 实
2 系统 架 构
2 1 用 户层 .
用户层包 括 领域 资 料管 理 ( 具体 分 为本体 名称 、 核心概念 、 主题 词表 和语 料 库等 ) 规 则模 版管 理 、 、 核 心概念管理、 三元组 管理 和本体文件管理等接 口模块 , 用于提供 丰富 的人 机交 互 接 口。各 模块 主要 功 能如
念 间关系 ( e t n ) R li s 和规则 ( u s构成 。 ao Rl ) e 本体 由其 自身的特点 , 以将 人们广 泛认可 的各 可 种类型知识转化为规范的、 算机可以理解 的形式 , 计 为
“ 计算机 与人 之间正 常 沟通 与 交 流” 提供 语义 支 撑。
收 稿 日期 :0 0 0 — 7 修 回 日期 :0 0 0 — 3 21-4 2 ; 2 1— 7 0
p c t dsdatg f ihr o s ut nC S.o gdv l met e o 。 du sr u i .T ib cm s jr o nc mahwi i v a eo g e nt co Ot 1n eeo n pr d a nueqa t hs eo e mao meekt h a n h c r i p i n l y a b O
工作量相当之大 。鉴于本 体构建工程 的复杂性和智力
密集性等特点使得本体 的构建往 往投入 资源 大、 建设 周期长 , 质量无法保障 , 且 这些成为影响本体应用和推 广的主要瓶颈和难点… 。因此 , 解决本体 构建 阶段现 有技术和方法 的瓶颈和难点成 为业 内人士主要研究方 向之一。文中提 出了一种基于文本挖掘的本体 自动构
“ 本体” O t oy 最初是哲 学领域 的术语 , (nl ) og 是关 于事物存在及其本质规律 的学说… 。2 0世纪末 , 随着 信息技术的发展 , 本体被引入 人工智 能、 知识工程等领
域, 用于构建大型集成的知识 库系统 , 解决知识概念表
因此 , 本体 在人工智能 、 知识工程 、 图书情 报和搜 索引
擎等众多领域都有广泛 的应用 空间 。但 是 , 目前真
正投人使 用的本体还很少。其 主要原 因在于现有本体
的构 建 是 以 人 手 工 为 主 , 用 Po66 和 0 — 利 rt g n
t dt 等常见本 体工具 , o i E 技术的应用实 施还很 困难 , 由于该项工作是一项非常复杂、 庞大 的系统工程 , 将相 关领域的概念和关 系进行梳理 , 并用 规范 化 的模 式进
h n e n o o y a p ia o s i d ro t l g p l t n .Th s p p r p e e t u o t o sr ci n s se o n o o y a d me h d b s d o e tmi i g,i r ci i a e r s ns a a t mai c n tu t y tm fo tl g n t o a e n tx n n n c o nt o d c s i d t lt e f n to s a d i l me t t n me o ft e u e a e ,s se t o s ly r a d d t e o r e ly n t e s se ,a d u e n e a h u ci n mp e n a o t d o s rly r y t m o l a e aa r s u c a e i h y t m i n i h h n r n n l z s t e wh l y tm a p o e s o a a y e h o e s se d t r c s i g f w.Th ss se a d me o a e u d f rr f r n e t o v h i l rp o lm si n o ・ a n l i y t m n t d C b s ee e c s l e t esmia r b e n o t l h n e o O
基于文本 挖掘 的本 体 自动构 建 系统架 构如 图 1 。
用 的本体 。但是 , 因为这些信 息是 由非结 构化 的 自然
语言表示 的, 具有模糊性 和歧义性 , 无法直接获取蕴含 的概念和知识 , 需要 运用文本 挖掘技 术对其 进行 分析
和 处 理 。 。 。
该系统主要分为用户层 、 系统工具层和数据资源层等 。
XUE o g—y , u Zh n u LICh n—me 。 HU AN G a i D o—x o ing
,
( . e igZ o g khi ehooyD vl met t, e i 00 8 , h a 1 B in h nj ea T cn l ee p n d B in 104 C i ; j i g o L jg n 2 Mahnr d syIsu na o eh ooyadE o o ntu ,e ig10 5 , h a) . cieyI ut nt metinT cn lg n c nmyIstt B in 00 5 C i n r r t ie j n
下:
文本挖掘 的过程 一般包 括文本 数据预 处理 、 文本
信息提取 和 索 引 、 本 知识 挖 掘 及 知识 后 处 理 等 步 文 骤 。数据预处理包括数据清 洗 ( 去噪 、 如 去重 ) 数 、 据选择 ( 选择合适 的、 向特定 领域 的文 本数据 ) 面 和文 本切分 ( 中文 分词 、 如 段落 切分 ) 。数 据 预处理 后 , 等 必须提取 中文文本 的特征信息 , 包括关键词提取 、 术语 提取 、 基于模板 的信息 抽取和基 于专业 词典 的概 念转 换等操作 。经过 中文 文本特 征提取操 作后 , 中文 文本 数据转换 为 中文文本信息 。在文本信息的基 础上进行