一、自然语言处理概述
自然语言处理是一个传统的研究领域,近年来也出现了很多创新的领域,比如计算机视觉交叉的应用以及跟机器人科学地交叉。
自然语言的理解和处理是人工智能领域的传统任务,是人工智能的终极目标之一,也依然是最困难的任务之一。
多年以来,“图灵测试”被广泛认为是标准的人工智能评测任务。
经历了长时间的一本正经的胡说八道的争议,目前人们普遍广泛接受的观点是:理解语言是迈向人工智能的关键一步。
(这可谓是一句废话)。
自然语言处理在工业界也有巨大的应用前景。
以Google,Facebook,Microsoft为代表的一些顶尖公司,以及子子孙孙无穷尽的创业公司以自然语言处理技术为核心,开展了大量有影响力,值得关注的工作。
这些研究工作中有一些开启了人工智能的新篇章,但有一些又宛如智障。
二、自然语言处理中的主要任务
1.词性标注与(中文)分词。
词性标注是自然语言处理中最基础的研究领域之一。
分词则是中文自然语言处理里的重要任务。
当前词性标注任务已经较为成熟,发展空间已经不是很大,而中文分词则基本不被外国高校所关注。
2.语法解析
语法解析长久以来是自然语言理解的核心方法,旨在通过解析语言的语法结构来理解语义。
语法解析的研究已持续数十年,做出突破难度较大,国内高校对于这一方向的努力一直不是很多。
如何科学地把语法解析结果应用在其它任务中,是当前NLP和计算语言学领域所有研究者共同感兴趣的话题。
这是一个意识形态问题,搞自然语言的学者很多觉得用到语言学的知识更能体现逼格。
但语言学结论近年来的确没有受到足够的重视。
3.语言模型
语言模型的基本任务是通过上文预测下文。
预测准确率越高,语言模型性能越好,标志着模型对于该语言的学习/拟合能力越强。
从应用的角度上说,有利于文本表示学习的性能。
Bengio老人家03年的神经语言模型现在基本上已经是必引用的文献了,虽然多数引用它的人可能也没仔细看过
4.信息检索
信息检索包括文本检索和多媒体检索,是搜索引擎的核心技术,也是自然语言处理领域的重要应用。
NLP领域关注的信息检索主要是通过短文本检索长文档的任务,也有通过文本检索图片的任务。
信息检索目前主要关注的问题是搜索结果的排序和个性化推荐。
5.信息抽取
信息抽取旨在从非结构化的文本数据中抽取结构化的目标信息。
这是一个热点的任务,但是当前模型大多只能进行单一任务的信息抽取,效果也不是特别好。
因此将来一段时间,信息抽取还会是一个热门话题。
该任务也是其它行业对人工智能最热切的期待之一。
行业外的人经常问自然语言处理能不能做这个做那个,大多数是在问能不能从非结构化的海量文本中提取特定的某些信息。
这也是所谓大数据公司或者大数据服务提供商的核心技术。
信息抽取和数据挖掘有很多交叉和重叠. 申请时如果是做这一方面,可以考虑同时申自然语言处理和数据挖掘。
反过来如果当前研究方向是数据挖掘,也可以考虑套磁自然语言处理领域对信息抽取感兴趣的老师。
6.语义表示
语义表示是当前诸多NLP任务的基础之一,目标是将字,词,句,文章的语义表示在合适的向量空间中,以此为基础提高各项任务中模型的性能。
随着机器学习的发展,语义表示已成为自然语言处理的一大核心。
尤其最近深度学习很火,这一领域也是火得不行。
7.文本分类
文本分类旨在将不同的文本进行分类,以进行进一步的处理。
例如百度曾通过文本分类结果作为广告推荐的依据。
目前大多数关于文本分类的研究主要目的是证明文本表示模型的优越性。
8.机器翻译
有关机器翻译这一任务的研究已延续数十年。
与词性标注,语法解析任务不同,机器翻译模型的性能依然不够强。
当前流行的方法是应用深度学习实现高性能的机器翻译。
这一任务依然任重道远。
学术界,工业界都相当关注。
9.对话系统
对话系统的目标是实现能和人类对话的机器人,这是一个难以实现,难以评测的任务。
近年来学术界和工业界对深度学习在对话系统中的应用很感兴趣。
该任务会一直是一个热门话题。
最近几年研究人员关于对话系统进行了深入的哲学探讨,大家都很期待做出靠谱的应用。
10.问答系统
问答系统可以说是一个简单版的对话系统,通常是在进行关于特定领域内知识的问答。
近年来也有人提出阅读理解式的问答(类似高考英语阅读理解),以及关于给定图像进行问答的任务。
问答系统比对话系统更容易实现和评测,但也存在问答系统面临的诸多问题。
11.情感计算
情感计算旨在分析社交网络发言、电商平台评论等文本的情感倾向,有较为广阔的应用前景,也受到了广泛关注。
目前的情感计算主要是建立在强大的语义表示模型上。
三、NLP领域的任务分为两个类别:
1.第一类是人工智能NLP。
包括词性标注,分词,语法解析,语言模型,信息检索,信息抽取,语义表示,文本分类。
这些任务发展较为成熟,各种相关工作的主要目的是提高当前模型的性能。
2.第二类是人工智障NLP。
包括机器翻译,对话系统,问答系统。
目前模型的性能尚不尽如人意,有些任务上甚至没有足够多的,真正有影响力的工作。
四、美国名校NLP领域教授及研究组的列表
MIT NLP Group: Regina Barzilay, TommiJaakkola
/
Harvard NLP Group: Alexandar Rush
/
Stanford NLP Group: Chris Manning, Dan Jurafsky, Percy Liang
/
Berkeley NLP Group: Dan Klein
/
CMU NLP: Tom Mitchell, etc
/~nasmith/nlp-cl.html
Columbia NLP: Micheal Collins, David Blei
/nlp/people.cgi
Cornell NLP Group: Lillian Lee
/
UIUC NLP Group:
/
UPenn NLP Group
/people.php
UMICH NLP: Dragomir R. Radev
/~radev/
Northwestern NLP Group: Knight Lab
/tag/natural-language-processing/。