语义分析
1.语义分析?
机器机和人不一样的地方是人可以直接理解词的意思,文章的意思,机器机不能理解。
人看到苹果这两个字就知道指的是那个圆圆的,挺好吃的东西,搜索引擎却不能从感性上理解。
但搜索引擎可以掌握词之间的关系,这就牵扯到语义分析。
可参考:/dispbbs.asp?boardID=2&ID=74541
2.为什么要使用语义分析?
我国中文自然语言处理普遍采用西基于拉丁语系的“关键词”技术,以此来分析理解中文。
然而,中文本身的特点决定它与西语之间巨大的区别,所以从汉语信息处理的需要看,当前急迫需要突破的是语义问题。
可参考:
/dicksong2008/blog/item/88fb751e9ac9501a4134 17f4.html
2.1中文与西语不同决定我们无法采用西语的架构体系来处理中文,具体区别在于:
西语词间有间隔,汉语词间无间隔。
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。
例如,英文句子I am a student,用中文则为:“我是一个学生”。
计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。
把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。
“我是一个学生”,分词的结果是:“我是一个学生”。
中文分词就成了计算机处理的难题。
汉语形态不发达,句尾没有形态标记。
英语动词、名词很清楚,加上词尾可以是副词;西语有时态,过去式、现在式等等非常清楚,中文则依靠词语或者依靠自己的判断来确定时态。
同音字多增加了机器识别的难度。
汉语语义灵活,由于形态不发达,所以语序无规律。
在一次学术会议上,一位著名的人工智能专家说:“按…主-谓-宾‟或…名-动-名‟这一规则,计算机可显出…牛吃草‟,也可显出…草吃牛‟。
从语法格式上看,…草吃牛‟也不错,但这句话是说不通的。
人依靠自己的经验可以判断,机器如何来判断呢?
2.2中文之纷繁复杂,构成了中文本身之优美、深邃。
我们至今津津乐道唐诗宋词
之意境深邃,遗憾那些古诗雅韵西语实难比拟。
然而,信息时代,要让计算机来理解中文,具有挑战性的技术却是要化繁为简,使之具备能够从多重选择中锁定目标的能力,实际上也就是消解“语言模糊”。
中文模糊主要表现为:
歧义识别
歧义是指同样的一句话,可能有两种或者更多的切分方法。
例如:表面的,因为“表面”
和“面的”都是词,那么这个短语就可以分成“表面的”和“表面的”。
再比如“和服”的“化妆和服装”可以分成“化妆和服装”或者“化妆和服装”。
由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
新词识别
新词,专业术语称为未登录词。
也就是那些在字典中都没有收录过,但又确实能称为词的那些词。
最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”
是个词,因为是一个人的名字,但要是让计算机去识别就困难了。
如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。
即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎” 还能不能算词?
新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于中文自然语言处理来说来说,分词系统中的新词识别十分重要。
消解模糊的能力成为中文自然语言处理的关键,以此获得对其准确性、智能性的评定。
3语义搜索的局限
完全采用语法和词汇原则来理解文字信息的语义搜索的一大局限,是不能处理例如双关语、多义词等模糊信息。
这是因为计算机本身缺乏理解能力,尤其是缺乏理解不确定性信息或模糊信息的能力,所以当计算机尝试通过解析整段话来提取含义时,就会颇为棘手。
一些高级的系统能够建立一套使机器解决不确定性所遵循的原则。
但是,其指令集极为烦杂而且难以维护,基本没有可操作性。
语义搜索方法可以处理少数简单的句子,但在采用包含大量概念的大型文件时,要从整段话、整篇文章中提取含义,其语言模式就只能望洋兴叹了。
由于语义分析是基于真/假决策树和规则结构进行推理的,一个不正确的决策或者一个未知的查询的出现,会导致整个分析全盘皆错。
语义分析都是基于特定语言及其语法结构的,一旦有新单词或者变更出现,则必须对系统进行调整,从而保证系统能够理解这些新单词或变更,对系统进行拓展是一项复杂的工程。
以Autonomy为代表的核心概念匹配技术并不单纯依赖于一种语言的语法结构,而是把文字当作语意的抽象符号或者另一种&类型的信息,采用可预测的统计词方式表示概念和功能,并通过有意义的概念词出现的上下文环境(而不是通过严格的语法定义)来形成对该概念词的理解,以此确定文档中每个主题的相关性及重要性。
Autonomy还能够不受语言语种限制,Autonomy的技术内核,是一个被称为IDOL的智能信息处理层。
IDOL由动态推理引擎(DRE)、分类服务器、用户服务器等模块组成,DRE 可实现概念识别、自动摘要、有效识别、自动超链接、自然语言检索等核心操作,分类服务器可实现自动聚类、自动分类、自动目录生成等功能操作,用户服务器则可以实现个人化信息创建、个性化信息提示、个性化信息训练、专家定位等个性化操作。
可以说,IDOL提供了一个对语言模式进行文字分析、进而推断出有序概念的智能内核。
Autonomy可参考:/view/1356381.htm
4Hnc(自然语言处理技术)另辟天地
中国科学院声学所的黄曾阳教授经8年艰苦探索,在吸收菲尔墨(fillmore)、山克(schank)等人的有益思想的基础上创立了hnc(hierarchical network concept,概念层次网络)理论。
hnc理论建立了一个模拟人类语言感知过程的理论模式。
具有扩散性的求异思维,鲜明的反思传统的特征,找到了一种描述自然语言感知过程的适当模式,是目前中文信息处理三大流派之一。
可参考:/media/ciw/830/a1401.htm。