欢迎使用本课件

23
第第第 第第第第第第 第 第 第 第 第 第 第 第 第 第 第 第 第 第 第 第 第 第 第第第第 : 第 : 第第第第第第第第第 第 : 第第第 第第第 : 第第第第第第第 第 : 第第第 第第第第 : 第第第

Upload: kohana

Post on 05-Jan-2016

37 views

Category:

Documents


4 download

DESCRIPTION

欢迎使用本课件. 教材简介 : 名 称 : 人工智能原理与应用 作 者 : 张仰森 出版社 : 高等教育出版社 章 节 : 共十章. 主讲教师 : 宗春梅. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

教材简介 :

名 称 :人工智能原理与应用

作 者 :张仰森

出版社 :高等教育出版社

章 节 :共十章

主讲教师 : 宗春梅

Page 2: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

在信息化社会中,语言信息处理的技术水平和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。在这样的社会需求下,自然语言理解作为语言传息处理技术的一个高层次的重要方向,一直是人工智能界所关注的核心课题之一。显然,如果计算机能够理解自然语言,人机间的信息交流能够以人们所熟悉的本族语言来进行,那将是计算技术的一项重大突破。另一方面,由于创造和使用自然语言是人类高度智能的表现,因此对自然语言理解的研究也有助于揭开人类智能的奥秘,深化我们对语言能力和思维本质的认识。所以说,这个研究方向在应用方面和理论方面都有重大意义。

Page 3: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.1 自然语言及其理解

1. 什么是自然语言 自然语言是指人类语言集团的本族语,如汉语、英语、日语等。自然语言是相对于人造语言而言的。人造语言是指世界语或计算机的各种程序设计语言。众所周知,语言是思维的载体,是人际交流的重要工具。在人类历史上以语言文字形式记载和流传的知识占到知识总量的 80 %以上。就计算机的应用而言,据统计用于数学计算的仅占 10 %,用于过程控制的不到 5 %,其余 85 %左右都是用于语言文字的信息处理。在信息化社会中,语言信息处理的技术水平和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。

7.1.1 自然语言及其构成

Page 4: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

2 、自然语言的构成(如下图)

7.1 自然语言及其理解 7.1.1 自然语言及其构成

Page 5: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.1 自然语言及其理解 7.1.2 自然语言理解的概念

7.1.3 自然语言理解的进展 7.1.4 自然语言过程的层次

自然语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:1. 问答 (quesVtioVn-aVnsweriVng) :机器能正确地回答输入文本中的有关问题 ;2. 文摘生成 (summariziVng) :机器有能力产生输入文本的摘要;3. 释义 (paraphrase) :机器能用不同的词语和句型来复述其输入文本;4. 翻译 (VtrahslaVtioVn) :机器具有把一种语言 ( 源语 ) 翻译成为另一种语言 ( 目标语 ) 的能力。

Page 6: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.2 词法分析

Page 7: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.2 词法分析

Page 8: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.3 句法分析

句法分析就是要对句子或短语的结构进行分析,以确定构成句子

的各个词、短语等之间的相互关系以及各自在句子中的作用等,并

将这些关系用层次结构加以表达。

Page 9: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.3 句法分析

1 、短语结构语法理论

一部短语结构语法 G可以用如下的四元组来定义:    G= (Vt , Vn , P, S)其中, Vt 是终结符的集合,终结符是指被定义的那个语言的词 ( 或符号 ) ;   Vn 是非终结符的集合,这些符号不能出现在最终生成的句子中,是专门用来描述语法的。显然, Vt 和 Vn 的并构成了符号集 V ,而且 Vt 和 Vn 不相交,因此有:     V= Vt∪Vn ,     Vt∩Vn=φ (φ表示空集 ) ;  S是起始符,它是集合 Vn 中的一个成员;  P是一个产生式规则集。每条产生式具有如下的形式:     a→b  其中 a∈V+, b∈V*,且 a≠b; V*表示由 V 中的符号所构成的全部符号串 ( 包括空符号串φ) 的集合, V+表示 V*中除φ之外的一切符号串的集合。

7.3.1 短语结构语法理论与乔姆斯基语法体系

Page 10: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.3 句法分析

2 、结束的短语结构语法理论 ---乔姆斯基语法体系

7.3.1 短语结构语法理论与乔姆斯基语法体系

乔姆斯基 (N.Chomsky)曾定义了以下四类语法 :

(1)无约束短语结构语法,如前所述,又叫做O型语法;

(2) 上下文有关语法 (context-sensitive grammars) ,又叫做 1 型语法;

(3) 上下文无关语法 (context-free grammars) ,又叫做 2 型语法;

(4) 正则语法 (regular grammars) ,又叫做 3 型语法。

Page 11: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.3 句法分析 7.3.1 短语结构语法理论与乔姆斯基语法体系

3 、句法分析树 在对一个句子进行分析的过程中,如果把分析句子各成分间关系的推倒过程用树形表示出来的话,那么,这种图称做句法分析树。 如下图为语句 The girl writes letter with a pencil 进行句法分析时建立的句法分析树。

Page 12: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.3 句法分析 7.3.2 递归转移网络与扩充转移网络 1 、有限状态转移网络 扩充转移网络的概念来源于有限状态转移网络。我们曾指出,有限状态转移网络只能用来生成或识别正则 (即 3 型 ) 语言。  一个有限状态转移网络由一组状态 (即结点 ) 和一组弧 ( 用来把一种状态连向另一种状态 ) 所组成:   (1) 其中的一个状态被指定为起始状态;   (2) 在每条弧上都标注着该语法的终结符 ( 包括词或词类 ) 。它表明必须在输入句子中找到这样一个词,才可以进行这条弧所规定的转移;   (3)状态集中有一个名为结束状态的子集。如果输入句子 ( 或短语 ) 的头从起始状态开始,经过一系列的转移,句尾恰好达到结束状态,我们就说这个句子 ( 或短语 )被这个转移网络所接受 ( 或识别 ) 。

Page 13: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.3 句法分析 7.3.2 递归转移网络与扩充转移网络 1 、有限状态转移网络

右上图表示以冠词 "the"开头的一类名词短语 NP的转移网络,它可以拥有零个或多个形容词;最后以一个名词结尾。

假如输入的短语是: "the pretty picture"。从起始状态NP开始,它只有一条标注着 "the"的外射弧,由于输入串中的第十个词能同它匹配;所以词 "the" 从输入串中被删除,过程则相应进入图中的,状态NP1 。此时输入串是 "pretty picture",由于第一个 "pretty"的词类是 ADJ,同标注 ADJ的弧匹配,于是 "pretty" 从输入串中被删除,但沿着ADJ弧转移的结果是再次回到这个 NP1状态 . 此时输入串只剩下最后一个词 "picture",由于它是一个名词 ,因此发生了沿N弧前进到结束状态的转移。这时,输入串已成为空串,所以分析成功。

Page 14: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.3 句法分析 7.3.2 递归转移网络与扩充转移网络 2 、递归转移网络

递归转移网络 (recursive transition networks ,简称RTN) 是对有限状态转移网络的一种扩展,在 RTN中每条弧的标注不仅可以是一个终结符 ( 词或词类 ) ,而且可以是一个用来指明另一个网络名字的非终结符。   例如,下面是一部上下文无关语法:     S ∷=NP V NP PP*    NP∷= T ADJ* N PP*     PP∷= P NP 其中 X*表示符号 X可以出现零次或多次。这三条语法规则可以用下页图所示的递归转移网络来表示。

Page 15: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.3 句法分析 7.3.2 递归转移网络与扩充转移网络 2 、递归转移网络

图中用来表示 S , NP 和: PP 等三条上下文无关语法规则的递归转移网络

Page 16: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.3 句法分析 7.3.2 递归转移网络与扩充转移网络 3 、扩充转移网络ATN在以下三方面对 RTN作了扩展和增强:   (1)添置了一组寄存器,用来存储分析过程中得到的中间结果 ( 如局部句法树 ) 和有关信息 ( 如名词短语的人称和数。某些成分的语义特征等 ) ;   (2) 每条弧上除了用句法范畴 ( 如词类和短语标记 ) 来标注以外,可以附加任意的测试,只有当弧上的这种溯试成功之后才能通过这条弧;   (3) 每条弧上还可以附加某些动作,当通过一条弧时,相应的动作便被依次执行,这些动作主要用来设置或修改寄存器的内容。设置哪些寄存器完全取决于句法分析的需要,并没有硬性的规定。 例如有关句型的信息:陈述句,疑问句,祈使句,可以存放在名为 TYPE的寄存器中;动词信息及其局部结构可存放在名为 V 的寄存器中;当然也可设置象主语、谓语、宾语一类的寄存器来存储各种句子成分的信息以及它们的局部结构。所有这些寄存器都可以看作是程序设计中变量,它们从属于被设置的那个 ATN子网络。对于 ATN的后继弧来说,这些寄存器的内容可以被访问,并且根据附加在后继弧上的动作可以被复制、修改或组合。

Page 17: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.3 句法分析 7.3.3 词汇功能语法

词汇功能语法( LFG)是由卡普兰和布鲁斯南 (Bresnan) 在 1

982 年提出的,它是一种功能语法,但是更加强调词汇的作用。 L

FG用一种结构来表达特征、功能、词汇和成分的顺序。

   LFG对句子的描述分为两部分:直接成分结构 (Constituent

Structure, 简称 C-Structure) 和功能结构 (Functional Structure,

简称 F-structure) , C-structure 是由上下文无关语法产生的表

层分析结果。在此基础上经一系列代数变换产生 F-structure 。 L

FG采用两种规则:加入下标的上下文无关语法规则和词汇规则。

Page 18: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.3 句法分析 7.3.3 词汇功能语法

2 、词汇功能语法对句子的分析过程

  用 LFG语法对句子进行分析的过程如下:

(1) 用上下文无关语法分析获得C-structure ,不考虑语法中的下

标;该C-structure 就是一棵直接成分树;

(2) 将各个非叶节点定义为变量,根据词汇规则和语法规则中的

下标,建立功能描述 ( 一组方程式 ) ;

(3) 对方程式作代数变换,求出各个变量,获得功能结构 F-struct

ure 。

Page 19: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.3 句法分析 7.3.4 自动句法分析算法

1 、自顶向下回朔算法

2 、自底向上并行算法

(具体内容请参照 P257---P262 )

Page 20: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.4 语义分析

语义分析和句法分析是自然语言理解系统的两个最基

本的功能模块。语义分析的任务是根据输入句子的句法

结构和句中每个实词的词义推导出能反映这个句子意义

(即句义 ) 的某种形式化表示。一般来说,只有在获得输

入语句可靠的语义表示之后,系统才能进一步完成问答、

释义、翻译和文摘生成等任务。

Page 21: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.4 语义分析

语义分析和句法分析是自然语言理解系统的两个最基本的功能模块。语义分析的任务是根据输入句子的句法结构和句中每个实词的词义推导出能反映这个句子意义(即句义 ) 的某种形式化表示。一般来说,只有在获得输入语句可靠的语义表示之后,系统才能进一步完成问答、释义、翻译和文摘生成等任务。1 、逻辑形式表达及语义解析2 、义素分析法

Page 22: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.5 大规模真实文本的处理

7.5.1 语料库语言学的崛起

7.5.2 语料库语言学的特点及研究对象

7.5.3 汉语语料库加工的基本方法

7.5.4 统计方法的应用及所面临的问题

Page 23: 欢迎使用本课件

第七章 自然语言理解

人 工 智 能 原 理 与 应 用 人 工 智 能 原 理 与 应 用

7.6 基于语料库的自然语言建模方法

7.6.1基于概率分布的语言建模

7.6.2基于上下文信息的语言建模

7.6.3基于组合思想的语言建模

7.6.4 语言建模相关问题

返回目录