言处理的专著并不多见,国内已有的几本专著(包括译著),除了2008年清华大学出版社出版的该书第一版和2010年中国科学技术大学出版的冯志伟教授的《自然语言处理的形式模型》以外,大多数是10年以前撰写的。
而《自然语言处理的形式模型》对统计方法的介绍较为简单。
随着大数据时代的到来,统计方法的发展日新月异,很多最新方法和新模型是这两本专著中未能包含的。
国外这一领域的主要专著是美国麻省理工学院出版社于1999年出版(2000年校正)
的克里斯托夫·曼宁斯(Christopher D. Manning) 和辛里奇·舒尔策(Hinrich Schütze)撰写的Foundations of Statistical Natural Language Process-
ing (2005年由苑春法等翻译成中文),以及2000年普伦蒂斯·霍尔出版社(Prentice Hall)出版的丹尼尔·朱拉斯凯(Daniel Jurafsky)和詹姆斯·马丁(James H. Martin)撰写的Speech and Language Processing:
An Introduction to Natural Language Processing, Com-
putational Linguistics, and Speech Recognition (2005年由冯志伟和孙乐翻译成中文。
2009年该书出版了第2版)。
一方面,这些外文专著出版的时间仍然较早,而另一方面,它们对很多中文信息处理的最新进展都没有涉及,更不涉及我国的少数民族语言信息处理技术,如维语人名识别、藏文分词等。
《统计自然语言处理(第2版)》恰好弥补了这些缺失。
(2)在写作方式上,作者首先从分析问题入手,介绍
大数据时代的自然语言处理
——评《统计自然语言处理(第2版)》
关键词:自然语言处理 统计方法 专著
赵东岩
北京大学
网络搜索、机器翻译、智能问答、信息安全等一系列与自然语言处理相关的应用需求,在大数据时代更为人们关注。
云计算、大数据、社会计算、数据挖掘等一批新术语也如雨后春笋般涌现,成为众多会议和论坛讨论的话题。
然而,当人们拂去表层繁花,拨开缭乱云雾,静下心来思考:大数据时代对自然语言处理技术的根本挑战是什么?近十年来统计自然语言处理研究有哪些实质性的进展?自然语言理解技术在网络信息处理、多语言机器翻译和人机交互中有哪些实际应用?对于这些问题,每一位专家都会从不同的视角给出答案。
中国科学院自动化研究所研究员宗成庆撰写的《统计自然语言处理(第2版)》,对自然语言处理的核心技术及其最新进展进行了全面、系统的阐述。
基于多年的深入研究与总结提炼、经过缜密思考和严谨论证,他给出了对上述问题较为深刻与独到的回答,为当前自然语言处理技术的深入研究和应用开发提供了翔实的资料。
《统计自然语言处理(第2版)》是清华大学出版社2013年8月出版的。
全书共16章,87万字。
综观全书,该书具有如下特点:(1)内容新颖,非常全面。
该书16章内容几乎涵盖了自然语言处理领域的每一个侧面,从词法到语义,从理论到应用,大多都是近年来该领域最新的研究成果和先进技术。
如此丰富的内容和新颖的技术,是在已有的自然语言处理专著中所没有的。
国内外有关自然语
国内外相关研究,给出各种方法的实验结果和对比评价,其中不乏作者自己团队的研究成果和体会。
这种思路恰好体现了从事科学研究的基本路线,对于引导刚刚进入该领域的青年学生逐步培养正确的分析问题、解决问题的思维方式尤其重要。
(3)该书不仅详细地介绍了统计自然语言处理的最新理论方法,而且对很多数据和开源工具都给出了详细的网址和来源,其中包括作者团队所开发的工具,既有利于初学者对比实验,又为开发者提供了新的捷径。
《统计自然语言处理(第2版)》的第1章为全书的绪论,对自然语言处理的基本概念、面临的问题、基本方法和研究现状给予了清楚的阐述。
第2章为数学和信息论等相关的预备知识。
第3 章为形式语言与自动机,对树、图等基本的数据结构和乔姆斯基四类文法及其各类自动机和它们在自然语言处理中的应用给予了清晰的阐述。
第4章语料库与语言知识库,较为全面地介绍了统计自然语言处理方法赖以实现的基础——数据与知识等。
第5章和第6章分别对统计自然语言处理的核心工具——语言模型和目前较为流行的概率图模型给予了简要清晰的介绍。
从第7章开始,则是对自然语言处理核心技术的介绍,包括:词法分析(汉语自动分词)与词性标注、句法分析、语义分析和篇章分析。
从词法到句法、语义,分析层次由浅入深;从句子到篇章,处理单元由局部到整体;从基本概念和问题的提出到基本方法和技术评价,阐述方式由表及里、点面结合,这种写作模式是该书作者的独具匠心之处。
第11章至第16章分别为:统计机器翻译、语音翻译、文本分类与情感分类、信息检索与问答系统、自动文摘与信息抽取、口语信息处理与人机对话系统,属于自然语言处理的具体应用,近年来备受关注。
其中第11章统计机器翻译介绍得较为详细,从统计机器翻译的基本原理,到各种翻译模型和解码器及其系统实现方法、系统融合方法、译文评测方法和关于评测方法的评测等,可谓一应俱全。
这一章是到目前为止对统计机器翻译技术最为全面的阐述,反映了当前统计机器翻译的最高技术水平。
值得称道的是,该书对整个自然语言处理领域的专用术语都给出了规范的英文注释,对于读者阅读和查找相关的英文文献或撰写英文论文提供了极大的便利。
全书1000余篇中英文参考文献全面勾勒出了统计自然语言处理领域的技术沿革和发展概况,书中对每一篇参考文献都给出了明确的标识,既便于读者了解相关工作之间的关系,又便于读者进一步阅读相关论著。
另外,全书绝大多数章节都有同行学者的参与,或提供素材,或校对部分内容,或与读者研讨相关概念,充分体现出作者一丝不苟、精益求精的严谨治学态度,令人钦佩!
《统计自然语言处理(第2版)》的出版是大数据时代喜添的新宠儿。
当人们将大数据时代的网络内容处理、多语言机器翻译和信息抽取等一系列技术落到实处、具体实施的时候,基于统计理论的自然语言处理方法将会以它独到的优势在实际应用中发挥作用。
该书既可以作为高等院校计算机、信息技术等相关专业的高年级本科生或研究生的教材或参考书,也可以为从事自然语言处理、数据挖掘和人工智能等研究的相关人员提供参考。
著者宗成庆长期从事自然语言处理和机器翻译等相关方向的研究和开发工作,一直活跃在教学和科研工作的第一线,取得了一系列研究成果,在国内外同行中有较大的影响。
他在中国科学院大学(原中国科学院研究生院)讲授“自然语言理解”课程长达10年,多次被评为优秀课程,并获得中国科学院大学“精品数字课程”建设项目的资助。
丰硕的研究成果和丰富的教学经验为这本书的写作奠定了坚实的基础,书中的点点滴滴无不透射出作者深厚的学术功底。
我们相信,这部凝聚着作者心血的学术巨著必将成为广大同行、学子们青睐的上乘之作,为推动我国自然语言处理和中文信息技术领域的研究工作发挥重要的作用。
■
赵东岩
CCF高级会员、CCF中文信息技术专委
会秘书长、本刊编委。
北京大学研究
员。
主要研究方向为文本挖掘、语义信
息处理、数字出版技术。
zhaodongyan@。