当前位置：文档之家› 语义分析

语义分析

语义分析
1.语义分析？
机器机和人不一样的地方是人可以直接理解词的意思，文章的意思，机器机不能理解。

人看到苹果这两个字就知道指的是那个圆圆的，挺好吃的东西，搜索引擎却不能从感性上理解。

但搜索引擎可以掌握词之间的关系，这就牵扯到语义分析。

可参考：/dispbbs.asp?boardID=2&ID=74541
2.为什么要使用语义分析？
我国中文自然语言处理普遍采用西基于拉丁语系的“关键词”技术，以此来分析理解中文。

然而，中文本身的特点决定它与西语之间巨大的区别，所以从汉语信息处理的需要看，当前急迫需要突破的是语义问题。

可参考：
/dicksong2008/blog/item/88fb751e9ac9501a4134 17f4.html
2.1中文与西语不同决定我们无法采用西语的架构体系来处理中文，具体区别在于：
西语词间有间隔，汉语词间无间隔。

众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。

例如，英文句子I am a student，用中文则为：“我是一个学生”。

计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。

把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。

“我是一个学生”，分词的结果是：“我是一个学生”。

中文分词就成了计算机处理的难题。

汉语形态不发达，句尾没有形态标记。

英语动词、名词很清楚，加上词尾可以是副词；西语有时态，过去式、现在式等等非常清楚，中文则依靠词语或者依靠自己的判断来确定时态。

同音字多增加了机器识别的难度。

汉语语义灵活，由于形态不发达，所以语序无规律。

在一次学术会议上，一位著名的人工智能专家说：“按…主－谓－宾‟或…名－动－名‟这一规则，计算机可显出…牛吃草‟，也可显出…草吃牛‟。

从语法格式上看，…草吃牛‟也不错，但这句话是说不通的。

人依靠自己的经验可以判断，机器如何来判断呢？
2.2中文之纷繁复杂，构成了中文本身之优美、深邃。

我们至今津津乐道唐诗宋词
之意境深邃，遗憾那些古诗雅韵西语实难比拟。

然而，信息时代，要让计算机来理解中文，具有挑战性的技术却是要化繁为简，使之具备能够从多重选择中锁定目标的能力，实际上也就是消解“语言模糊”。

中文模糊主要表现为：
歧义识别
歧义是指同样的一句话，可能有两种或者更多的切分方法。

例如：表面的，因为“表面”
和“面的”都是词，那么这个短语就可以分成“表面的”和“表面的”。

再比如“和服”的“化妆和服装”可以分成“化妆和服装”或者“化妆和服装”。

由于没有人的知识去理解，计算机很难知道到底哪个方案正确。

新词识别
新词，专业术语称为未登录词。

也就是那些在字典中都没有收录过，但又确实能称为词的那些词。

最典型的是人名，人可以很容易理解句子“王军虎去广州了”中，“王军虎”
是个词，因为是一个人的名字，但要是让计算机去识别就困难了。

如果把“王军虎”做为一个词收录到字典中去，全世界有那么多名字，而且每时每刻都有新增的人名，收录这些人名本身就是一项巨大的工程。

即使这项工作可以完成，还是会存在问题，例如：在句子“王军虎头虎脑的”中，“王军虎” 还能不能算词？
新词中除了人名以外，还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题，而且这些又正好是人们经常使用的词，因此对于中文自然语言处理来说来说，分词系统中的新词识别十分重要。

消解模糊的能力成为中文自然语言处理的关键，以此获得对其准确性、智能性的评定。

3语义搜索的局限
完全采用语法和词汇原则来理解文字信息的语义搜索的一大局限，是不能处理例如双关语、多义词等模糊信息。

这是因为计算机本身缺乏理解能力，尤其是缺乏理解不确定性信息或模糊信息的能力，所以当计算机尝试通过解析整段话来提取含义时，就会颇为棘手。

一些高级的系统能够建立一套使机器解决不确定性所遵循的原则。

但是，其指令集极为烦杂而且难以维护，基本没有可操作性。

语义搜索方法可以处理少数简单的句子，但在采用包含大量概念的大型文件时，要从整段话、整篇文章中提取含义，其语言模式就只能望洋兴叹了。

由于语义分析是基于真/假决策树和规则结构进行推理的，一个不正确的决策或者一个未知的查询的出现，会导致整个分析全盘皆错。

语义分析都是基于特定语言及其语法结构的，一旦有新单词或者变更出现，则必须对系统进行调整，从而保证系统能够理解这些新单词或变更，对系统进行拓展是一项复杂的工程。

以Autonomy为代表的核心概念匹配技术并不单纯依赖于一种语言的语法结构，而是把文字当作语意的抽象符号或者另一种&类型的信息，采用可预测的统计词方式表示概念和功能，并通过有意义的概念词出现的上下文环境（而不是通过严格的语法定义）来形成对该概念词的理解，以此确定文档中每个主题的相关性及重要性。

Autonomy还能够不受语言语种限制，Autonomy的技术内核，是一个被称为IDOL的智能信息处理层。

IDOL由动态推理引擎(DRE)、分类服务器、用户服务器等模块组成，DRE 可实现概念识别、自动摘要、有效识别、自动超链接、自然语言检索等核心操作，分类服务器可实现自动聚类、自动分类、自动目录生成等功能操作，用户服务器则可以实现个人化信息创建、个性化信息提示、个性化信息训练、专家定位等个性化操作。

可以说，IDOL提供了一个对语言模式进行文字分析、进而推断出有序概念的智能内核。

Autonomy可参考：/view/1356381.htm
4Hnc(自然语言处理技术)另辟天地
中国科学院声学所的黄曾阳教授经8年艰苦探索，在吸收菲尔墨（fillmore）、山克（schank）等人的有益思想的基础上创立了hnc（hierarchical network concept，概念层次网络）理论。

hnc理论建立了一个模拟人类语言感知过程的理论模式。

具有扩散性的求异思维，鲜明的反思传统的特征，找到了一种描述自然语言感知过程的适当模式，是目前中文信息处理三大流派之一。

可参考：/media/ciw/830/a1401.htm。

e商务文档

语义分析

相关文档推荐：