当前位置:文档之家› 知网学习阶段总结--高梦娇

知网学习阶段总结--高梦娇

这段时间主要做的是对知网(Hownet)的全面了解,以及对本体建设工具protégé的简单应用。

通过对知网和WordNet的了解,我发现知网和WordNet的建设方式是截然不同的。

知网对每个概念的定义是通过这个概念使用时的具体的语义环境来加以限制的。

通过限制概念使用时所需要的其他语义来定义每个概念。

而WordNet则是通过对词语的解释,以及概念的上下位关系,同义反义关系等关系来定义每个词语。

学会使用protégé,可以用他来建设自己的词汇本体的时候,我觉得可以结合知网和WordNet,对每个概念的定义中,既要体现它的各种关系词,同时还要用每个概念使用时的具体的语义环境对概念加以限定。

下一步的任务就是进一步学习protégé,掌握它的具体功能,争取尽快建立一种新的结合了知网思想和WordNet思想的词汇本体。

主要参考资料是知网中文版官方网站/html/c_index.html,另外还有一些文章包括《知网简介》,《知网的理论发现》,《KDML-知网知识系统描述语言》,《建设中文词汇语义资源中的一些问题和我们的对策》,《一个基于概念的中文文本分类模型》,《基于知网的词汇语义相似度计算》,《WordNet与hownet之关系比较》等。

下面是我对知网和protégé应用的具体总结。

一.对知网的全面了解的总结1.关于知网的基本介绍知网是一种词汇本体。

知网(英文名称为Hownet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

义原是知网的最基本的构成单位,同时也是知网中不能分割的最小单位。

知网知识描述语言(KDML)是用来描述知网系统中所有概念的特定语言。

知网中每一个概念都是通过KDML,利用义原进行逐一的、孤立的定义的。

例如:以概念“打”的定义为例:W_C=打//中文词语G_C=V //中文词语词性E_C=~酱油,~张票,~饭,去~瓶酒,醋~来了//中文词语例子W_E=buy //英文词语G_E=V // 英文词语词性E_E= //英文词语例子DEF=buy|买// 概念定义2.知网义原的选取首先,知网中义原的选择和取舍是基于主观选择的。

义原是从4000个汉字的义项(一个词往往具有几个意义,每一个意义就是一个义项)中抽取,经过人工的观察,挑选,合并同类项最终得到的。

知网中的义原一共有2199个。

选取出来的义原又被分为实体类(如“human|人”),事件类(如“lose|失去”),属性类(如“form|形状”),属性值类(如“fragrant|香”)。

这部分知识可以通过《知网简介》和《知网的理论发现》进行进一步了解。

3.知网知识描述语言(KDML)KDML语言规则中详细规定了事件类、实体类、属性类、属性值类概念的描述方法,同时还规定了几种特定的标识符(如“,”“;”“=”)、几种特殊的指示符号(如“~”“?”“$”)和各种动态角色(如“agent”“host of”)的使用方法。

以概念“被告人”的定义为例:W_C=被告人G_C=NW_E=accusedG_E=NDEF={human|人:{accuse|控告:patient={~}},domain={police|警}}在这个概念的定义中,human|人、accuse|控告和police|警都是知网系统中的义原。

Patient、domain则是知网系统中的语义关系。

第一个“:”后面的内容是对human|人的具体解释。

被告人是被控告的人,即accuse|控告的patient(被动者)。

同时被告人是由警察押送的,因此他的domain(施动者)是police|警。

具体参见《KDML-知网知识系统描述语言》。

4.知网的最新进展知网从2000年开始创立到现在,经过了两次大的改版,现在已经作为中文信息处理搭建和研发的基础平台。

现在最显著的就是基于知网研发的概念相似度计算软件和概念相关场计算软件。

5.知网的应用方法举例(1)概念相似度的计算。

(2)中文文本的分类在《基于知网的词汇语义相似度计算》,《一个基于概念的中文文本分类模型》这两篇文章中详细的讲述了这两种应用算法。

6.知网的接口知网发行2000版的时候,接口是开放的。

但是现在发展到2008版,知网的接口应用部分需要购买才能使用了,大约要花费几万块。

具体参见/html/c_index.html。

7.知网与WordNet的关系总的来说,WordNet在一开始对概念定义的时候就采用了网状结构,对每个概念的定义中都同时标注了他的上下位关系词,同义词,反义词等。

而hownet对概念的定义则是完全孤立的,单纯的从概念的应用方法角度进行定义。

例如知网中对“Singer|歌手”的定义是:DEF={human|人:domain={entertainment|艺},{sing|唱:agent={~}}} 即歌手是属于艺术界的,唱的施事者。

而WordNet中对“Singer”的定义为:(1)singer, vocalist, vocalizer, vocaliser -- (a person who sings)在对Singer的定义中同时说明了他的同义词有vocalist, vocalizer和vocaliser。

另外,WordNet中还可以通过选择查看他的上下位关系词,而hownet则不提供这个功能。

WordNet 可以被认为是一种现象,这种现象表现了各个词汇所表达的概念之间的语义关系,而这种语义关系可以通过HowNet 中有关义原的关系得到解释。

换一种说法,WordNet中所描写的各种语义关系能够通过HowNet 中的义原得到验证、推导。

二.对Protégé的初步熟悉和简单使用1.Protégé的基本介绍Protégé 是由斯坦福大学的Stanford Medical Informatics开发的一个开放源码的本体编辑器, 它是用Java 编写的。

Protégé 界面风格与普通Windows 应用程序风格一致,用户比较容易学习使用。

本体结构以树形的层次目录结构显示,用户可以通过点击相应的项目来增加或编辑类、子类、属性、实例等,使用户在概念层次上设计领域模型,所以本体工程师不需要了解具体的本体表示语言。

Protégé软件主要用于语义网中本体的构建,是语义网中本体构建的核心开发工具。

他也是目前最广泛的本体论编辑器之一。

由于它屏蔽了具体的本体描述语言,用户只需在概念层次上进行领域本体模型的构建。

另外,用Protégé进行自己的本体建设之后,还可以对文件输出格式进行定制,可以选择将Protégé的内部表示转换成XML、RDF(S)、、OIL 、DAML 、DAML + OIL 、OWL 等系列语言的文本表示。

2.对Protégé的使用举例我主要利用知网中对概念的定义方法,在Protégé中得到了一个简单的网状关系图,以后待用。

成果图如下:具体绘制步骤如下:首先要说明一下所以步骤都是在protégé3.4.4中得到的。

(1)建立新的项目。

打开protégé界面如下图所示,选择New Project。

(2)出现Create New Project对话框后,选择OWL Flies后,点击Finish,而不选Next。

(2)建立类。

protégé的主页面中会出现,OWL Classes(OWL类),Properties(属性), Individuals(个体),Forms(表单)这几个标签。

我们选择OWL Classes来编辑。

在Asserted Hierarchy(添加阶层)中,会有所有类的超类owl:Thing。

然后点击AssertedHierarchy旁边的(Create subclass)按钮,或者在OWL:Thing,点击右键选择Create subclass就会出现protégé自动定义名为Class_1的类。

然后在右边的CLASS EDITOR(类编辑器)的Name选项中,输入event来替换自动定义的名字。

(建议使用英文,因为下面会用到OWLViz来生成关系图,中文的话会容易出现问题。

) 然后得到下图:同样的,依次在OWL:Thing下添加subclass(子类)分别命名为:entity,attribute,secondary feature。

(3)建立子类。

依照(2)的方法,在event类下添加子类,分别命名为sing,teach。

在entity类下添加子类human,再在human下添加子类分别命名为:teacher,Singer,engineer。

在attribute下添加子类,命名为occupation。

在secondary-feature 下添加子类field,再在field下添加子类industrial,entertainment,education。

得到下图:(4)建立属性。

选择Properties标签,新建一个ObjectProperty(注意不是DataProperty),Name改为agent。

同理,建立objectproperty分别命名为domain,host of。

如下图所示:(5)回到OWL Classes界面为各类添加属性(property)。

以sing为例,要为sing类添加属性agent,首先选中sing类,然后在asserted conditions栏中选择(creat restriction)按钮,出现creat restriction对话框,在对话框中选择agent 属性,之后点击对话框下方工具栏中的按钮选择所归属的类,此处选择Singer类。

点击“OK”之后的界面如下图,此时asserted conditions栏中出现了对sing类的属性说明。

同理,分别建立teach的agent为teacher。

Engineer,teacher,Singer的host of属性值均为occupation,他们的domain属性值分别为industrial,education和entertainment。

(6)建立完成之后,点击工具栏中的project,选择configure出现下图所示的对话框在对话框中选中OWLVizTab,其他不变,点击“OK”。

这时页面中便会增加一个OWLViz标签。

选择OWLViz标签点击(show all classes)按钮,就会出下如下的关系图。

相关主题