当前位置:
文档之家› 中文文本信息处理的原理与应用_概论
中文文本信息处理的原理与应用_概论
应用问题
自然语言处理学科
中文文本信息处理的原理与应用
基本概念(续1)
自然语言处理(Natural Language Processing)
利用计算机为工具对人类特有的书面形式和口 头形式的自然语言的信息进行各种类处理和加 工的技术。 人工智能研究的重要内容之一。
—— 摘自冯志伟《自然语言的计算机处理》
Systran系统() 口语翻译STL
STL
中文文本信息处理的原理与应用
应用领域(续1)
自动文摘(Automatic Summarization/Abstracting)
将原文档的主要内容或某方面的信息自动提取 出来,并形成原文档的摘要或缩写。 应用:电子图书管理、情报获取等 举例:
OK
是。
I DON’T UNDERSTAND AND WHICH PYRAMID YOU MEAN 我不懂 您指的是哪块棱锥。 By “IT”, I ASSUME YOU MEAN THE BLOCK WHICH IS TALLER THAN THE ONE I AM HOLDING. 关于“它”我想 您 指的是比我手里的这一块更高的长方 形。 OK 是。 THE BLUE PYRAMID AND THE BLUE BLOCK. 蓝色棱锥和蓝色长方块。
They’re always bugging us about something or other. (他们总是用这样的或那样的事情来烦扰我们) CAN YOU THINK OF SPACIFIC EXAMPLE ? (你能举一个例子吗?)
中文文本信息处理的原理与应用
中文文本信息处理的原理与应用
中文文本信息处理的原理与应用
自然语言处理
基本概念 发展历程 应用领域 发展趋势
中文文本信息处理的原理与应用
自然语言处理的新趋势
在COLING2002会议上,许多专家提出自 然语言处理研究的发展方向:
基于规则和基于统计的研究方法的结合 自然语言理解在语义网中广泛应用 与生物信息学的结合 逐渐形成国际标准
中文文本信息处理的原理与应用 第一章 概论
主要内容
自然语言处理
中文信息处理
国内外研究机构及学术会议
课程目的和课程安排
中文文本信息处理的原理与应用
自然语言处理
基本概念 发展历程 应用领域 发展趋势
中文文本信息处理的原理与应用
基本概念
自然语言
指人类语言集团的本族语,如汉语、英语、日 语等等。 人类历史上以语言文字形式记载和流传的知识 占知识总量的80%以上。 如何让计算机实现人们希望的语言处理功能? 如何让计算机实现海量语言信息的自动处理和 有效利用?
中文文本信息处理的原理与应用
SHRDLU系统
SHRDLU系统是1972年T. Winogard设计的,是他 在麻省理工学院的博士学位研究工作。SHRDLU 是一个在“积木世界”中进行对话的自然语言理 解系统。 具有智能地理解句子的功能,不仅包括语法,也 包括单词的知识、句子的上下文以及他对于主题 事务的理解。
LK自动文摘 系统
中文文本信息处理的原理与应用
应用领域(续2)
信息检索(Information Retrieval)
也称情报检索,即利用计算机系统从大量文档 中找到符合用户需要的相关信息。 面向多语言的信息检索叫做跨语言信息检索 (Cross-language/Trans-lingual information retrieval)。 举例:
中文文本信息处理的原理与应用
由搜索文字到搜 索图文,甚至多 媒体,语义本体 是它的一种实现 方式
中文文本信息处理的原理与应用
自然语言处理的新趋势(例)
人类基因组和MEDLINE正是全世界数据挖 掘的两大焦点。
MEDLINE 医学文献信息
互相引用
人类基因组
——生物自然语言处理就是一个试图对基因序列和生物 医学文献之间的联系进行系统探索的新兴研究领域。
ELIZA的一段脚本: /eliza/ Men are all alike。(男人都一样。) /neurotoys/eliza.php3 IN WHAT WAY ? (怎么一样法?) http://www-ai.ijs.si/eliza-cgi-bin/eliza_script
信息过滤(Informatio那些满足特定 条件的文档信息。
应用:网络有害信息过滤、信息安全等。
中文文本信息处理的原理与应用
应用领域(续5)
问答系统(Question-answering System)
通过计算机系统对人提出的问题的理解,利用 自动推理等手段,在有关知识资源中自动求解 答案并做出相应的回答。 问答技术有时与语音技术和多模态输入/输出技 术,以及人机交互技术等相结合,构成人机对 话系统(Man-computer Dialogue System)。 应用:人机对话系统、信息检索等
中文文本信息处理的原理与应用
自然语言处理的发展历程
阶段 60年代 特点 关键词匹配 针对特定格式系统 采用句法,语义分 析技术 主要工作 代表系统 问答系统, SIR 基于规则的方 机器翻译等 法STUDENT ELIZA 问答系统, LUNAR 基于规则的方 自动摘要等 法SHRDLU MARGIE
中文文本信息处理的原理与应用
SYSTRAN系统
SYSTRAN 的翻译结果
维基百科 上的英文 表述
天氣預報是使用現代科學技術對未來某一 地點地球大氣層的狀態進行預測。從史前 人類就已經開始對天氣進行預測來相應地 安排其工作與生活(比如農業生產、軍事 行動等等)。今天的天氣預報主要是使用 收集大量的數據(氣溫、濕度、風向和風 速、氣壓等等),然後使用目前對大氣過 程的認識(氣象學)來確定未來空氣變化。
中文文本信息处理的原理与应用
ELIZA的理解过程(续1)
对于不存在匹配模式的情况,ELIZA专门设计了一个 (0)模式,它可以同任意的输入句子匹配,并产生 某些模棱两可的响应。
“CAN YOU ELABORATE ON THAT?” (您是否能详细谈谈这个问题?) “THAT’S QUITE INTERSTING”(这很有趣。) 这种方法的一个主要特点是它有可能遗漏句子中的某些重要信息,从而导致错误 的分析和响应。例如对于输入句子: “My friend’s sister likes me.”(我朋友的姐姐喜欢我。) ELIZA可能回答:“TELL ME MORE ABOUT YOU FAMLILY”(多告诉我一 些您家里的事情,好吗?) 原因是ELIZA的输入模式完全忽略了输入句子中“my”和“sister”之间的词 “friend’s”,而且在这里“my”也不是“sister”的定语,所以系统的回答显得有 点牛唇不对马嘴。这说明回避句法和语义分析的“理解”,往往不能真正胜任语 言理解的任务。
中文文本信息处理的原理与应用
基本概念(续2)
自然语言处理组成
自然语言理解:计算机能理解自然语言文本的 意义;
自然语言生成:计算机能以自然语言文本来表 达给定的意图、思想等。
中文文本信息处理的原理与应用
基本概念(续3)
“理解”的标准
问答(question-answering):机器能正确地回答输 入文本中的有关问题; 文摘生成(summarizing):机器有能力产生输入文 本的摘要; 释义(paraphrase):机器能用不同的词语和句型来 复述其输入文本; 翻译(translation):机器具有把一种语言(源语) 翻译成为另一种语言(目标语)的能力。 图灵(Turing)设计的“模仿游戏”,即图灵 测试(Turing test)
SHRDLU
中文文本信息处理的原理与应用
SHRDLU系统对话脚本
用户 SHRDLU
PICK UP A BIG BLOCK. 捡起一块 大的长方块。
GRASP THE PYRAMID. 抓住那块 棱锥。 FIND A BLOCK WHICH IS TALLER THAN THE ONE YOU ARE HOLDING AND PUT IT INTO THE BOX.找一块比您手里的那一块更高 的长方块,并把它放入盒子中。 WHAT DOES THE BOX CONTAIN? 盒子里装的是什么?
中文文本信息处理的原理与应用
基本概念(续4)
中文文本信息处理的原理与应用
自然语言处理
基本概念 发展历程 应用领域 发展趋势
中文文本信息处理的原理与应用
自然语言处理的发展历程
40年来大体上经历了三个时期
60年代以关键字匹配为主流的早期 70年代以语法-语义分析为主流的中期 80年代开始走向实用化和工程化的近期
也叫文本自动分类(Text Categorization/Classification),即 利用计算机系统对大量的文档按照一定的分类标 准(如根据主题或内容划分等)实现自动归类。 应用:图书管理、内容管理和信息监控等。 举例:
复旦文本分类 系统SVMCLS
中文文本信息处理的原理与应用
应用领域(续4)
维基百科 上的中文 表述
中文文本信息处理的原理与应用
自然语言处理
基本概念 发展历程 应用领域 发展趋势
中文文本信息处理的原理与应用
应用领域
机器翻译(Machine Translation, MT)