当前位置：文档之家› 中文文本信息处理的原理与应用_概论

中文文本信息处理的原理与应用_概论

应用问题

自然语言处理学科
中文文本信息处理的原理与应用
基本概念（续1）

自然语言处理(Natural Language Processing)

利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类处理和加工的技术。人工智能研究的重要内容之一。
—— 摘自冯志伟《自然语言的计算机处理》

Systran系统() 口语翻译STL
STL
中文文本信息处理的原理与应用
应用领域（续1）

自动文摘(Automatic Summarization/Abstracting)

将原文档的主要内容或某方面的信息自动提取出来，并形成原文档的摘要或缩写。应用：电子图书管理、情报获取等举例：
OK
是。
I DON’T UNDERSTAND AND WHICH PYRAMID YOU MEAN 我不懂您指的是哪块棱锥。 By “IT”, I ASSUME YOU MEAN THE BLOCK WHICH IS TALLER THAN THE ONE I AM HOLDING. 关于“它”我想您指的是比我手里的这一块更高的长方形。 OK 是。 THE BLUE PYRAMID AND THE BLUE BLOCK. 蓝色棱锥和蓝色长方块。
They’re always bugging us about something or other. （他们总是用这样的或那样的事情来烦扰我们） CAN YOU THINK OF SPACIFIC EXAMPLE ? （你能举一个例子吗？）
中文文本信息处理的原理与应用
中文文本信息处理的原理与应用
中文文本信息处理的原理与应用
自然语言处理

基本概念发展历程应用领域发展趋势
中文文本信息处理的原理与应用
自然语言处理的新趋势

在COLING2002会议上，许多专家提出自然语言处理研究的发展方向：

基于规则和基于统计的研究方法的结合自然语言理解在语义网中广泛应用与生物信息学的结合逐渐形成国际标准
中文文本信息处理的原理与应用第一章概论
主要内容

自然语言处理
中文信息处理
国内外研究机构及学术会议
课程目的和课程安排
中文文本信息处理的原理与应用
自然语言处理

基本概念发展历程应用领域发展趋势
中文文本信息处理的原理与应用
基本概念

自然语言

指人类语言集团的本族语，如汉语、英语、日语等等。人类历史上以语言文字形式记载和流传的知识占知识总量的80％以上。如何让计算机实现人们希望的语言处理功能？如何让计算机实现海量语言信息的自动处理和有效利用？
中文文本信息处理的原理与应用
SHRDLU系统

SHRDLU系统是1972年T. Winogard设计的，是他在麻省理工学院的博士学位研究工作。SHRDLU 是一个在“积木世界”中进行对话的自然语言理解系统。具有智能地理解句子的功能，不仅包括语法，也包括单词的知识、句子的上下文以及他对于主题事务的理解。
LK自动文摘系统
中文文本信息处理的原理与应用
应用领域（续2）

信息检索(Information Retrieval)

也称情报检索，即利用计算机系统从大量文档中找到符合用户需要的相关信息。面向多语言的信息检索叫做跨语言信息检索 (Cross-language/Trans-lingual information retrieval)。举例：
中文文本信息处理的原理与应用
由搜索文字到搜索图文，甚至多媒体，语义本体是它的一种实现方式
中文文本信息处理的原理与应用
自然语言处理的新趋势（例）

人类基因组和MEDLINE正是全世界数据挖掘的两大焦点。
MEDLINE 医学文献信息
互相引用
人类基因组
——生物自然语言处理就是一个试图对基因序列和生物医学文献之间的联系进行系统探索的新兴研究领域。
ELIZA的一段脚本： /eliza/ Men are all alike。（男人都一样。） /neurotoys/eliza.php3 IN WHAT WAY ? （怎么一样法？） http://www-ai.ijs.si/eliza-cgi-bin/eliza_script

信息过滤(Informatio那些满足特定条件的文档信息。

应用：网络有害信息过滤、信息安全等。
中文文本信息处理的原理与应用
应用领域（续5）

问答系统(Question-answering System)

通过计算机系统对人提出的问题的理解，利用自动推理等手段，在有关知识资源中自动求解答案并做出相应的回答。问答技术有时与语音技术和多模态输入/输出技术，以及人机交互技术等相结合，构成人机对话系统(Man-computer Dialogue System)。应用：人机对话系统、信息检索等
中文文本信息处理的原理与应用
自然语言处理的发展历程
阶段 60年代特点关键词匹配针对特定格式系统采用句法，语义分析技术主要工作代表系统问答系统， SIR 基于规则的方机器翻译等法STUDENT ELIZA 问答系统， LUNAR 基于规则的方自动摘要等法SHRDLU MARGIE
中文文本信息处理的原理与应用

SYSTRAN系统
SYSTRAN 的翻译结果
维基百科上的英文表述
天氣預報是使用現代科學技術對未來某一地點地球大氣層的狀態進行預測。從史前人類就已經開始對天氣進行預測來相應地安排其工作與生活（比如農業生產、軍事行動等等）。今天的天氣預報主要是使用收集大量的數據（氣溫、濕度、風向和風速、氣壓等等），然後使用目前對大氣過程的認識（氣象學）來確定未來空氣變化。
中文文本信息处理的原理与应用
ELIZA的理解过程（续1）

对于不存在匹配模式的情况，ELIZA专门设计了一个（0）模式，它可以同任意的输入句子匹配，并产生某些模棱两可的响应。
“CAN YOU ELABORATE ON THAT?” （您是否能详细谈谈这个问题？） “THAT’S QUITE INTERSTING”（这很有趣。）这种方法的一个主要特点是它有可能遗漏句子中的某些重要信息，从而导致错误的分析和响应。例如对于输入句子： “My friend’s sister likes me.”（我朋友的姐姐喜欢我。） ELIZA可能回答：“TELL ME MORE ABOUT YOU FAMLILY”（多告诉我一些您家里的事情，好吗？）原因是ELIZA的输入模式完全忽略了输入句子中“my”和“sister”之间的词 “friend’s”，而且在这里“my”也不是“sister”的定语，所以系统的回答显得有点牛唇不对马嘴。这说明回避句法和语义分析的“理解”，往往不能真正胜任语言理解的任务。
中文文本信息处理的原理与应用
基本概念（续2）

自然语言处理组成

自然语言理解：计算机能理解自然语言文本的意义；
自然语言生成：计算机能以自然语言文本来表达给定的意图、思想等。

中文文本信息处理的原理与应用
基本概念（续3）

“理解”的标准

问答（question-answering）：机器能正确地回答输入文本中的有关问题；文摘生成（summarizing）：机器有能力产生输入文本的摘要；释义（paraphrase）：机器能用不同的词语和句型来复述其输入文本；翻译（translation）：机器具有把一种语言（源语）翻译成为另一种语言（目标语）的能力。图灵(Turing)设计的“模仿游戏”，即图灵测试(Turing test)
SHRDLU
中文文本信息处理的原理与应用
SHRDLU系统对话脚本
用户 SHRDLU
PICK UP A BIG BLOCK. 捡起一块大的长方块。
GRASP THE PYRAMID. 抓住那块棱锥。 FIND A BLOCK WHICH IS TALLER THAN THE ONE YOU ARE HOLDING AND PUT IT INTO THE BOX.找一块比您手里的那一块更高的长方块，并把它放入盒子中。 WHAT DOES THE BOX CONTAIN? 盒子里装的是什么？
中文文本信息处理的原理与应用
基本概念（续4）
中文文本信息处理的原理与应用
自然语言处理

基本概念发展历程应用领域发展趋势
中文文本信息处理的原理与应用
自然语言处理的发展历程

40年来大体上经历了三个时期

60年代以关键字匹配为主流的早期 70年代以语法－语义分析为主流的中期 80年代开始走向实用化和工程化的近期

也叫文本自动分类(Text Categorization/Classification)，即利用计算机系统对大量的文档按照一定的分类标准（如根据主题或内容划分等）实现自动归类。应用：图书管理、内容管理和信息监控等。举例：
复旦文本分类系统SVMCLS
中文文本信息处理的原理与应用
应用领域（续4）
维基百科上的中文表述
中文文本信息处理的原理与应用
自然语言处理

基本概念发展历程应用领域发展趋势
中文文本信息处理的原理与应用
应用领域

机器翻译(Machine Translation, MT)

e商务文档

中文文本信息处理的原理与应用_概论

相关文档推荐：