第一章 多元正态分布

76
22/6/8 中中中中中中中 中中中中中中中中中中 西 1 第 第第第第第第 中中 中中 中中 中中 中中 §1.1 第第第第第第第第第 §1.2 第第第第第第第第 §1.3 第第第第第第 §1.4 第第第第第第第第第第第第 §1.5 第第第第第第第第第

Upload: burton-coffey

Post on 31-Dec-2015

132 views

Category:

Documents


13 download

DESCRIPTION

第一章 多元正态分布. §1.1 多元分布的基本概念. §1.2 统计距离和马氏距离. §1.3 多元正态分布. § 1 .4 均值向量和协方差阵的估计. § 1 .5 常用分布及抽样分布. 目录 上页 下页 返回 结束. 第一章 多元正态分布. 一元正态分布在统计学的理论和实际应用中都有着重要的地位。同样,在多变量统计学中,多元正态分布也占有相当重要的位置。原因是: 许多随机向量确实遵从正态分布,或近似遵从正态分布; 对于多元正态分布,已有一整套统计推断方法,并且得到了许多完整的结果。. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 1

第一章 多元正态分布

目录 上页 下页 返回 结束

§1.1 多元分布的基本概念

§1.2 统计距离和马氏距离

§1.3 多元正态分布

§1.4 均值向量和协方差阵的估计

§1.5 常用分布及抽样分布

Page 2: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 2

第一章 多元正态分布

• 一元正态分布在统计学的理论和实际应用中都有着重要的地位。同样,在多变量统计学中,多元正态分布也占有相当重要的位置。原因是:

• 许多随机向量确实遵从正态分布,或近似遵从正态分布;

• 对于多元正态分布,已有一整套统计推断方法,并且得到了许多完整的结果。

目录 上页 下页 返回 结束

Page 3: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 3

第一章 多元正态分布

多元正态分布是最常用的一种多元概率分布。除此之外,还有多元对数正态分布,多项式分布,多元超几何分布,多元 分布、多元 分布、多元指数分布等。本章从多维变量及多元分布的基本概念开始,着重介绍多元正态分布的定义及一些重要性质。

目录 上页 下页 返回 结束

Page 4: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 4

§1.1 多元分布的基本概念

目录 上页 下页 返回 结束

§1.1.1 随机向量

§1.1.2 分布函数与密度函数

§1.1.3 多元变量的独立性

§1.1.4 随机向量的数字特征

Page 5: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 5

§1.1.1 随机向量

表示对同一个体观测的 个变量。若观测了 个个体,则可得到如下表 1-1 的数据,称每一个个体的 个变量为一个样品,而全体 个样品形成一个样本。

p n

p n

假定所讨论的是多个变量的总体,所研究的数据是同时观测 个指标(即变量),又进行了 次观测得到的,把这 个指标表示为 常用向量

)',,,( 21 pXXX X

npXXX ,,, 21

pp

目录 上页 下页 返回 结束

Page 6: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 6

横看表 1-1 ,记 , 它表示第 个样品的观测值。竖看表 1-1, 第 列的元素

表示对 第个变量 的 n 次观测数值。下面为表 1-1jxj

)',,,( 21)( pxxx X n,2,1

,)',,,( 21 njjjj xxx X pj ,2,1

j

npx

…n

…2

…1

… 变量序号

11x

21x

1nx

12x

22x

2nx

px1

px2

npx

目录 上页 下页 返回 结束

§1.1.1 随机向量

Page 7: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 7

• 因此 , 样本资料矩阵可用矩阵语言表示为 :

/)(

/)2(

/)1(

21

21

22221

11211

),,,(

n

p

npnn

p

p

xxx

xxx

xxx

x

x

x

xxxX

定义 1.1 设 为 个随机变量,由它们组成的向量 称为随机向量。

pXXX ,,, 21

)',,,( 21 pXXX X

p

目录 上页 下页 返回 结束

§1.1.1 随机向量

若无特别说明,本书所称向量均指列向量

Page 8: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 8

定义 1.2 设 是一随机向量,它的多元分布函数是

)',,,( 21 pXXX X

1.1),,(),,,()( 1121 ppp xXxXPxxxFXF

式中, ,并记成 。 pp RxxxX ),,,( 21 FX ~

§1.1.2 分布函数与密度函数

描述随机变量的最基本工具是分布函数,类似地描述随机向量的最基本工具还是分布函数。

目录 上页 下页 返回 结束

多元分布函数的有关性质此处从略。

Page 9: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 9

§1.1.2 分布函数与密度函数

(1.2) ,),()( 11

1

p

x x

p dttdttfFp

x

pR1)( )(

0)( )(

xx

xx

dfii

Rfi p

目录 上页 下页 返回 结束

定义 1.3 :设 = , 若存在一个非负的函数 , 使得

)(~ XFX ),,,( 21 pxxxF f

对一切 成立,则称 (或 )有分布密度 并称 为连续型随机向量。f

pRx XFXX

一个 维变量的函数 能作为 中某个随机向量的分布密度,当且仅当

pRfp

Page 10: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 10

§1.1.3 多元变量的独立性

目录 上页 下页 返回 结束

对一切 成立。若 为 的联合分布函数, 分别为 和 的分布函数,则 与 独立当且仅当 ( 1.4 )

(1.3) )()(),( yxXyYxX YPPP

定义 1.4 :两个随机向量 和 称为是相互独立的,若

),( yxF

X Y

),( YX ),( YX)()( yHxG 和 X Y YX

)()(),( yHxGyxF

注意 : 在上述定义中, 和 的维数一般是不同的。YX

若 有密度 ,用 分别表示 和 的分布密度,则 和 独立当且仅当 (1.5)

),( YX ),( yxf )()( yhxg 和 XX

YY

)()(),( yhxgyxf

Page 11: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 11

§1.1.4 随机向量的数字特征

是一个 维向量,称为均值向量 . p

目录 上页 下页 返回 结束

)8.1()()()2(

7.1)()()1(

BXAEAXBE

XAEAXE

当 为常数矩阵时,由定义可立即推出如下性质:BA、

1 、随机向量 的均值 设 有 个分量。若 存在, 定义随机向量 的均值为

X)',,,( 21 pXXX X iiXE )(

,,2,1 pi Xp

)(

PP

) 6.1

)(

)(( 2

1

2

1

μX

XE

XE

XE

E

Page 12: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 12

(1.9) )(

)D(X ),( ),(

),( )( ),(

),( ),( )(

21

2212

1211

ij

PPP

P

P

XXCOVXXCOV

XXCOVXDXXCOV

XXCOVXXCOVXD

§1.1.4 随机向量的数字特征

)())((),( / XXXXXXXΣ DEEECOV

目录 上页 下页 返回 结束

2 、随机向量 自协方差阵X

称它为 维随机向量 的协方差阵,简称为 的协方差阵。称 为 的广义方差,它是协差阵的行列式之值。

p X X),cov( XX X

Page 13: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 13

目录 上页 下页 返回 结束

§1.1.4 随机向量的数字特征

3 、随机向量 X 和 Y 的协差阵

设 分别为 维和 维随机向量,它们之间的协方差阵定义为一个 矩阵,其元素是 ,即

)',,,()',,,( 2121 pn YYYYXXX 和X n ppn

),cov( ji YX

)10.1(,,1;,,1,)),(cov(),cov( pjniYXYX ji

是不相关的。和,称若 YXYX 0),cov( 当 A 、 B 为常数矩阵时,由定义可推出协差阵有如下性质:

'

''

),cov(),cov(

)()(

BYXABYAX

AAAXADAXD

Page 14: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 14

目录 上页 下页 返回 结束

§1.1.4 随机向量的数字特征

( 3 )设 X为 维随机向量,期望和协方差存在记 则

AμμAΣAXX' ')()( trE

n常数阵,为 nn,)(,)( AXDXE

对于任何随机向量 来说,其协差阵∑都是对称阵,同时总是非负定(也称半正定)的。大多数情形下是正定的。

)',,,( 21 pXXX X

Page 15: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 15

(1.11) ,,2,1,,)()(

),(

)()),((

pjiXDXD

XXCOVr

rXXcorr

ji

jiij

PPijji

R

目录 上页 下页 返回 结束

§1.1.4 随机向量的数字特征

4 、随机向量 X 的相关阵 若随机向量 的协差阵存在 , 且每个分量的方

差大于零,则 X 的相关阵定义为 :)',,,( 21 pXXX X

也称为分量 与 之间的(线性)相关系数。ijriX jX

Page 16: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 16

在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在使用某种统计分析方法之前,常需将每个指标“标准化”,即做如下变换

1/ 2

1 2

/

( ) 1, , (1.12)

(var )

( , , , )

( ) 0 ( ) ( )

.

1

1

j jj

j

p

X E XX j p

X

X X X

E D corr

n

X

X X X R

R X X

于是

即标准化数据的协差阵正好是原指标的相关阵

(1.13)

目录 上页 下页 返回 结束

§1.1.4 随机向量的数字特征

Page 17: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 17中国人民大学六西格玛质量管理研究中心

随机向量数字特征的例子

Page 18: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 18中国人民大学六西格玛质量管理研究中心

例 1-1

• 例 1-1 焊接技术培训班有 10 名学生:基础焊接技术( BWT ),焊接技术提高( AWT )和焊接车间实践( PWW )的成绩如表 1-1 所示(数据文件MV_ 焊接成绩 .BTW )。

Page 19: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 19中国人民大学六西格玛质量管理研究中心

例 1-1

• 请注意:样本资料阵在形式上与在 MINITAB 软件中的工作表是完全一致的,工作表的第 i 行表示第 i 个样品,工作表的第 j 列表示对第 j个变量的观测值,变量名称常列在表头

Page 20: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 20中国人民大学六西格玛质量管理研究中心

样本均值向

量的计算

Page 21: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 21中国人民大学六西格玛质量管理研究中心

样本协方差阵(也称为样本方差阵)的计算

Page 22: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 22中国人民大学六西格玛质量管理研究中心

样本协方差阵(也称为样本方差阵)的计算

• 由于样本协方差阵是对称的,会话区窗口结果中只显示了协方差阵的下三角部分,所以整个样本协方差阵全部写出则应是:

• 如果采用存储功能,则存储的样本协方差阵就是整个方阵而不是三角阵,这个矩阵对角线上的 3 个数74.6222、 70.2222、 34.9 ,分别是基础焊接技术( BWT ),焊接技术提高( AWT )和焊接车间实践( PWW )三门课成绩的样本方差。

• 样本离差阵等于样本协方差阵乘以 n−1 ,所以例 1-1 样本离差阵就是

Page 23: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 23中国人民大学六西格玛质量管理研究中心

样本相关阵 R计算:

Page 24: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 24中国人民大学六西格玛质量管理研究中心

样本相关阵 R计算:

由于样本相关阵是对称的,对角线上全是 1 ,会话区窗口结果中只显示了扣除对角线后的下三角部分,所以整个样本相关阵全部写出则应是:

如果采用存储功能,则存储的样本相关阵就是方阵而不是三角阵。

Page 25: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 25

§1.2 统计距离和马氏距离

目录 上页 下页 返回 结束

欧氏距离

马氏距离

Page 26: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 26

§1.2 统计距离和马氏距离

欧氏距离

在多指标统计分析中 , 距离的概念十分重要 , 样品间的不少特征都可用距离去描述。大部分多元方法是建立在简单的距离概念基础上的。即平时人们熟悉的欧氏距离 , 或称直线距离 . 如几何平面上的点 p=(x1,x2) 到原点O=(0,0) 的欧氏距离 , 依勾股定理有

(1.14) )(),0( 2/122

21 xxpd

目录 上页 下页 返回 结束

Page 27: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 27

§1.2 统计距离和马氏距离 但就大部分统计问题而言,欧氏距离是不能令人满意的。这里因为,每个坐标对欧氏距离的贡献是同等的。当坐标轴表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的办法是对坐标加权,使得变化较大的坐标比变化小的坐标有较小的权系数,这就产生了各种距离。 欧氏距离还有一个缺点,这就是当各个分量为不同性质的量时,“距离”的大小竟然与指标的单位有关。

目录 上页 下页 返回 结束

Page 28: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 28

§1.2 统计距离和马氏距离

目录 上页 下页 返回 结束

例如,横轴 代表重量(以 kg 为单位),纵轴 代表长度(以 cm 为单位)。有四个点A 、 B、 C 、 D 见图 1.1 ,它们的坐标如图 1.1 所示

1X 2X

Page 29: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 29

§1.2 统计距离和马氏距离

目录 上页 下页 返回 结束

101110

125105

22

22

CD

AB这时

显然 AB比 CD 要长。

现在,如果 用mm 作单位, 单位保持不变,此时 A 坐标为( 0 , 50 ), C 坐标为( 0 , 100 ),则

2X1X

100011100

26001050

22

22

CD

AB

结果 CD反而比 AB长!这显然是不够合理的。

Page 30: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 30

§1.2 统计距离和马氏距离

目录 上页 下页 返回 结束

因此,有必要建立一种距离,这种距离要能够体现各个变量在变差大小上的不同,以及有时存在着的相关性,还要求距离与各变量所用的单位无关。看来我们选择的距离要依赖于样本方差和协方差。因此,采用“统计距离” 这个术语,以区别通常习惯用的欧氏距离。最常用的一种统计距离是印度统计学家马哈拉诺比斯(Mahalanobis )于 1936年引入的距离,称为“马氏距离”。

Page 31: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 31

§1.2 统计距离和马氏距离

目录 上页 下页 返回 结束

下面先用一个一维的例子说明欧氏距离与马氏距离在概率上的差异。

设有两个一维正态总体 。若有一个样品,其值在 A 处, A 点距离哪个总体近些呢?由图 1-2

),(:),(: 2222

2111 GG 和

图 1-2

Page 32: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 32

§1.2 统计距离和马氏距离

目录 上页 下页 返回 结束

由图 1-2 可看出 , 从绝对长度来看 ,A 点距左面总体 G1近些 ,即 A 点到 比A 点到 要“近一些”(这里用的是欧氏距离,比较的是 A 点坐标与 到 值之差的绝对值),但从概率观点来看, A 点在 右侧约 4 处, A 点在 的左侧约 3 处,若以标准差的观点来衡量, A 点离 比 A 点离 要“近一些”。显然,后者是从概率角度上来考虑的,因而更为合理些,它是用坐标差平方除以方差(或说乘以方差的倒数),从而化为无量纲数,推广到多维就要乘以协方差阵∑的逆矩阵 ,这就是马氏距离的概念,以后将会看到,这一距离在多元分析中起着十分重要的作用。

2

1 21

21 22 2 1

1

Page 33: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 33

§1.2 统计距离和马氏距离

马氏距离 设 X、 Y从均值向量为 μ ,协方差阵为∑的总体 G

中抽取的两个样品,定义 X、 Y两点之间的马氏距离为

(1.21) )()(),( 1/2 YXΣYXYX dm

X G

(1.22) )()(),( 1/2 μXΣμXX Gdm

的马氏距离为与总体定义

目录 上页 下页 返回 结束

Page 34: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 34

§1.2 统计距离和马氏距离

设 表示一个点集, 表示距离,它 是到 的函数,可以证明 , 马氏距离符合如下距离的四条基本公理 :

E d EE ),0[

;0),( yxd Eyx ,( 1 ) ,

( 2 ) 当且仅当 ; 0),( yxd yx

( 3 ) ),(),( xydyxd Eyx ,

( 4 ) ),(),(),( yzdzxdyxd Ezyx ,,

目录 上页 下页 返回 结束

Page 35: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 35

§1.3 多元正态分布

多元正态分布是一元正态分布的推广。迄今为止 , 多元分析的主要理论都是建立在多元正态总体基础上的 , 多元正态分布是多元分析的基础。另一方面,许多实际问题的分布常是多元正态分布或近似正态分布,或虽本身不是正态分布,但它的样本均值近似于多元正态分布。 本节将介绍多元正态分布的定义,并简要给出它的基本性质。

目录 上页 下页 返回 结束

Page 36: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 36

§1.3 多元正态分布

目录 上页 下页 返回 结束

§1.3.1 多元正态分布的定义

§1.3.2 多元正态分布的性质

§1.3.3 条件分布和独立性

Page 37: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 37

§1.3.1 多元正态分布的定义

(1.24) )(

)}()(2

1exp{

)2(

1),,( 1/

2/12/1

μxΣμxΣ

ppxxf

|∑| 为协差阵∑的行列式。

目录 上页 下页 返回 结束

定义 1.5 :若 元随机向量 的概率密度函数为: p )',,,( 21 pXXX X

),(~ ΣμX pN

则称 遵从 元正态分布,也称 X 为 元正态变量。记为

)',,,( 21 pXXX X p p

Page 38: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 38

定理 1.1 将正态分布的参数 μ和∑赋于了明确的统计意义。有关这个定理的证明可参见文献 [3] 。

多元正态分布不止定义 1.5 一种形式,更广泛地可采用特征函数来定义,也可用一切线性组合均为正态的性质来定义等,有关这些定义的方式参见文献 [3] 。

目录 上页 下页 返回 结束

§1.3.1 多元正态分布的定义

定理 1.1 :设 则

),(~ pNX

)(,)( XDXE

Page 39: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 39

§1.3.2 多元正态分布的性质

]1[2

1),(

)22

21(

2

122

21

21

)(2

1

21

xx

exxexxfxx

目录 上页 下页 返回 结束

1 、如果正态随机向量 的协方差阵∑是对角阵,则 X 的各分量是相互独立的随机变量。证明参见文献 [4], p.33 。

)',,,( 21 pXXX X

容易验证, ,但 显然不是正态分布。1 2~ (0,1) , ~ (0,1)X N X N ),( 21 XX

2 、多元正态分布随机向量 X 的任何一个分量子集的分布(称为 X的边缘分布)仍然遵从正态分布。而反之,若一个随机向量的任何边缘分布均为正态,并不能导出它是多元正态分布。例如,设 有分布密度'

21 ),( XXX

Page 40: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 40

§ 1.3.2 多元正态分布的性质

目录 上页 下页 返回 结束

bA

3 、多元正态向量 的任意线性变换仍然遵从多元正态分布。即设 ,而 维随机向量 ,其中 是 阶的常数矩阵, 是 维的常向量。则 维随机向量 也是正态的,且 。即 遵从 元正态分布,其均值向量为 ,协差阵为 。

bAXZ 1m

),(~ 'AAbANZ m 'AA

)',,,( 21 pXXX X

),(~ pNX m )( ijaA

pm b m m Z

Z m

4 、若 ,则

若为定值,随着 的变化其轨迹为一椭球面,是 的密度函数的等值面 .若 给定,则 为 到 的马氏距离。

XX

,pX N

2 1 2 ( )d X X p

2d X2d X

Page 41: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 41

§ 1.3.3 条件分布和独立性

(1.25)

, ,

2221

1211

)2(

)1(

)2(

)1(

ΣΣ

ΣΣΣ

μ

μμ

X

XX

目录 上页 下页 返回 结束

我们希望求给定 的条件分布,即 的分布。下一个定理指出:正态分布的条件分布仍为正态分布。

qqqX 为为其中 11)1()1( ,1, )1()2( XX 时

)|( )2()1( XX

设 p≥2,将 X 、 μ 和 Σ 剖分如下:),(~ pNX

Page 42: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 42

(1) (2)1 2 11 2

(1) 1 (2) (2)1 2 12 22

111 2 11 12 22 21

( | ) ~ ( , ),

( ) (1.26)

(1.27)

qN

X X μ Σ

μ μ Σ Σ X μ

Σ Σ Σ Σ Σ

其中

证明参见文献 [3] 。

目录 上页 下页 返回 结束

§ 1.3.3 条件分布和独立性

定理 1.2 :设 , Σ>0 ,则 ),(~ pNX

Page 43: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 43

t

s

r

)3(

)2(

)1(

X

X

X

X

t

s

r

)3(

)2(

)1(

μ

μ

μ

μ

t

s

r

333231

232221

131211

ΣΣΣ

ΣΣΣ

ΣΣΣ

Σ (1.28)

目录 上页 下页 返回 结束

§ 1.3.3 条件分布和独立性

定理 1.3 :设 , Σ>0 ,将 X , μ , Σ 剖分如下:

),(~ pNX

Page 44: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 44

则 有如下的条件均值和条件协差阵的递推公式:)1(X

)(),|( 32)2(1

32231231)3()2()1(

μXΣΣμXXXE (1.29)

3211

322312311)3()2()1( ),|(

ΣΣΣΣXXXD (1.30)

其中 kjkkikijkij ΣΣΣΣΣ 1 3,2,1,, kji ,

2,1 )|( )3()(3 iE i

i XXμ

证明参见 [3]

目录 上页 下页 返回 结束

§ 1.3.3 条件分布和独立性

Page 45: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 45

服装标准例子

Page 46: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 46

• 定理 1.2 和定理 1.3在 20世纪 70年代中期为国家标准部门制定服装标准时有成功的应用,见参考文献 [3] 。在制定服装标准时需抽样进行人体测量,现从某年龄段女子测量取出部分结果如下:

154.98 29.66

83.39 6.51 30.53

70.26 1.85 25.54 39.86

61.32 9.36 3.54 2.23 7.03

91.52 10.34 19.53 20.70 5.21

μ Σ

27.36

X1 :身高, X2 :胸围, X3 :腰围, X4 :上体长, X5 :臀围,已知它们遵从 N5( μ,Σ ),其中

Page 47: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 47

(1) / (2) (3)1 2 3 4 5

1

2 5 15

3

4

5

5

( , , ) , ( ), ( ),

(1.26) (1.27)

154.98 10.34

83.39 19.53(27.36) ( 91.52)

70.26 20.70

61.32 5.21

154.98 0.38( 91.52)

83.39 0.71(

X X X X X

x

x xE X

x

x

X

X

X X X若取

则由公式 和 得

5

5

91.52)

70.26 0.76( 91.52)

61.32 0.19( 91.52)

X

X

Page 48: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 48

1

2 5

3

4

29.66 6.51 1.85 9.36

6.51 30.53 25.54 3.54

1.85 25.54 39.86 2.23

9.36 3.54 2.23 7.03

10.34

19.53

20.70

5.2

X

X xD

X

X

1(27.36) (10.34,19.53,20.70,5.21)

1

25.76 -0.86 -5.97 7.39

-0.86 16.59 10.76 -0.18

-5.97 10.76 24.19 -1.72

7.39 -0.18 -1.72 6.04

Page 49: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 49

• 再利用( 1.30 )式得 1 4

2

53

1

25.76 -0.86 -5.97

-0.86 16.59 10.76

-5.97 10.76 24.19

7.39

-0.18 (6.04) (7.39 ,-0.18,-1.72 )

-1.72

16.72 -0.64 -3.87

-0.64 16.58

X X

D X

XX

10.71

-3.87 10.71 23.71

Page 50: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 50

• 这说明 , 若已知一个人的上体的长和臀围 , 则身高、胸围和腰围的条件方差比原来的方差大大缩小。

此时我们可看到

1 4 5 1

2 4 5 2

3 4 5 3

var( | , ) 16.72 29.66 var( )

var( | , ) 16.58 30.53 var( )

var( | , ) 23.71 39.86 var( )

X X X X

X X X X

X X X X

Page 51: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 51

在定理 1.2 中,我们给出了对 X 、 μ 和 Σ 作形如 (1.25) 式剖分时条件协差阵 的表达式及其与非条件协差阵的关系,令 表示 的元素,则可以定义偏相关系数的概念如下:

211Σpqij ,,1

211Σ

2/1,,1,,1

,,1,,1 )( pqjjpqii

pqijpqijr

定义 1.6 :当 给定时, 与 的偏相关系数为:)2(XiX jX

目录 上页 下页 返回 结束

§ 1.3.3 条件分布和独立性

Page 52: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 52

偏相关系数

以 x1 表示某种商品的销售量, x2 表示消费者人均可 支配收入, x3 表示商品价格。

从经验上看,销售量 x1 与消费者人均可 支配收入 x2

之间应该有正相关,简单相关系数 r12 应该是正的。但是如果你计算出的 r12 是个负数也不要感到惊讶,这是因为还有其它没有被固定的变量在发挥影响,例如商品价格 x3 在这期间大幅提高了。反映固定 x3

后 x1与 x2 相关程度的偏相关系数 r12 ; 3 会是个正数。

Page 53: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 53

§ 1.3.3 条件分布和独立性

• 在上面制定服装标准的例子中,给定 X4和X5 的偏相关系数为:

12 45

0.6430.0386

16.717 16.582r

13 45

3.8730.195

16.717 23.707r

23 45

10.7070.540

16.582 23.707r

Page 54: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 54

KKK

K

kk ΣΣ

ΣΣ

Σ

μ

μ

μ

X

X

X

, ,

1

111

)(

)1(

)(

)1(

目录 上页 下页 返回 结束

§ 1.3.3 条件分布和独立性

定理 1.4 :设 将 X 、 μ 、 Σ 按同样方式剖分为

),(~ pNX

其中,

,,,1,:,1:,1: )()( kjSSSSX jjjjjj

jj

jiXX ijk 对一切相互独立当且仅当则 ,0,, )()1(

证明参见文献 [3]

Page 55: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 55

§1.4 均值向量和协方差阵的估计

上节已经给出了多元正态分布的定义和有关的性质 , 在实际问题中 ,通常可以假定被研究的对象是多元正态分布 ,但分布中的参数 μ 和 Σ 是未知的 , 一般的做法是通过样本来估计。

目录 上页 下页 返回 结束

Page 56: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 56

§1.4 均值向量和协方差阵的估计

均值向量的估计

在一般情况下 , 如果样本资料阵为:

/)(

/)2(

/)1(

21

21

22221

11211

),,,(

n

P

npnn

p

p

xxx

xxx

xxx

X

X

X

XXXX

目录 上页 下页 返回 结束

Page 57: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 57

§1.4 均值向量和协方差阵的估计

(1.31) 11

ˆ 2

1

1

21

11

)(1

p

ip

n

i

i

n

i

i

n

i

i

n

i

X

X

X

X

X

X

nX

n

即均值向量 μ 的估计量 ,就是样本均值向量 .这可由极大似然法推导出来。推导过程参见文献 [3] 。

目录 上页 下页 返回 结束

设样品 相互独立 , 同遵从于 P 元正态分布 ,而且 ,Σ>0, 则总体参数均值 μ 的估计量是

)()2()1( ,, nXXX ),( pN pn

Page 58: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 58

§1.4 均值向量和协方差阵的估计协方差阵的估计

总体参数协差阵 Σ 的极大似然估计是

目录 上页 下页 返回 结束

')(

1)( )()(

11

XXXXn

Ln i

n

iip

n

ipip

n

i

n

i

pipii

n

i

pipi

n

ii

XX

XXXXXX

XXXXXX

n

1

2

1 122

222

1

111

211

)(

))(()(

))(()(

1

Page 59: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 59

§1.4 均值向量和协方差阵的估计

目录 上页 下页 返回 结束

其中 L是离差阵,它是每一个样品(向量)与样本均值(向量)的离差积形成的 n 个 阶对称阵的和。同一元相似, 不是 Σ 的无偏估计,为了得到无偏估计我们常用样本协差阵 作为总体协差阵的估计。

ˆpΣ

1ˆ1

Ln

Σ

pp

Page 60: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 60

§1.5 常用分布及抽样分布 多元统计研究的是多指标问题 , 为了了解总体的特征 ,通过对总体抽样得到代表总体的样本 ,但因为信息是分散在每个样本上的 ,就需要对样本进行加工 , 把样本的信息浓缩到不包含未知量的样本函数中 , 这个函数称为统计量 , 如前面介绍的样本均值向量 、样本离差阵 等都是统计量 . 统计量的分布称为抽样分布 .

XL

在数理统计中常用的抽样分布有 分布、 分布和 分布 .在多元统计中 , 与之对应的分布分别为 Wishart分布、 分布和 Wilks 分布 .

2 tF

2T

目录 上页 下页 返回 结束

Page 61: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 61

§1.5 常用分布及抽样分布

1.5.2 分布与 分布t 2T

1.5.1 分布与 Wishart 分布2

1.5.3 中心分布与 Wilks 分布F

目录 上页 下页 返回 结束

Page 62: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 62

2 ( )n 分布有两个重要的性质 :

§1.5.1 分布与 Wishart 分布2

在数理统计中 , 若 ( ), 且相互独立 , 则 所服从的分布为自由度为 的 分布 (chi squared

distribution), 记为 .

1,2, ,i n 2

1

n

ii

X n 2

2 ( )n

(0,1)iX N

目录 上页 下页 返回 结束

1 、若 , 且相互独立 , 则1,2, ,i k

2 2

1 1

( )k k

i ii i

n

称为相互独立 的具有可加性2

2 2 ( )i in

Page 63: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 63

2. 设 ( ), 且相互独立 , 为 个 阶对称阵 , 且 ( 阶单位阵 ), 记 ,

则 为相互独立的 分布的充要条件为 .此时 , .

(0,1)iX N 1,2, ,i n ( 1,2, , )j m

m n1

m

j nj

A I

1 2, , , nX X X X

,j jQ X A X 1 2, , , mQ Q Q 2

1

rank( )m

jj

A n

rank( )j jn A

jA

2j jQ n

这个性质称为 Cochran 定理 , 在方差分析和回归分析中起着重要作用 .

目录 上页 下页 返回 结束

§1.5.1 分布与 Wishart 分布2

Page 64: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 64

( ) ( )1

n

W XX X X

(1.32)

定义 1.7 设 相互独立 , 且 , 记 , 则随机矩阵:

( ) 1 2( , , , )pX X X X ( 1,2, , )n

( ) ( , )pX N (1) (2) ( )( , , , )nX X X X

所服从的分布称为自由度为 的 维非中心Wishart分布 , 记为 ,

n p( , , )pW W n Z

其中 , , , 称为非中心参数 ,当 时称为中心 Wishart 分布 ,记为

, 0n p '1 2 1 2

1

, , , , , ,n

n n i ii

Z

0

( , )pW n

目录 上页 下页 返回 结束

§1.5.1 分布与 Wishart 分布2

Page 65: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 65

由Wishart 分布的定义知 , 当 时 , 退化为 , 此时中心Wishart 分布就退化为 , 由此可以看出 , Wishart 分布实际上是 分布在多维正态情形下的推广 .

1p 22 2 ( )n

2

下面不加证明的给出 Wishart 分布的 5 条重要性质 :

个随机样本 , 为样本均值 , 样本离差阵为维正态总体( ) 1 2( , , , , )pX X X X 1,2, , n p

,pN n X

( ) ( )1

( )( )n

L X X X X

1. 若 是从中抽取的

, 则.

相互独立 .和(1) X L

1,p nX N ( 1, )pL W n (2) ,

目录 上页 下页 返回 结束

§1.5.1 分布与 Wishart 分布2

Page 66: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 66

( , )pW W n q pC

3. 若 , 为非奇异阵 , 则

( , )qCWC W n C C

, 为任一( , )pW W n a p 0a a 2 ( )a Wa

a a n

4. 若 元常向量 ,满足

目录 上页 下页 返回 结束

§1.5.1 分布与 Wishart 分布2

( , )i p iW W n 1,2, ,i k 2. 若 且相互独立 , 则

1 1

,k k

i p ii i

W W n

Page 67: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 67

特别的 , 设 和 分别为 和 的第 个对角元 , 则: iiwii 1W 1 i

2 ( 1)ii

iiw n p

1

1

2 ( 1)a a

a W an p

5. 若 , 为任一 元非零常向量 ,比值( , )pW W n a p

目录 上页 下页 返回 结束

§1.5.1 分布与 Wishart 分布2

Page 68: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 68

§1.5.2 分布与 分布t 2T

在数理统计中 , 若 , , 且 与 相互独立 , 则称

服从自由度为 的 分布 , 又称为学生分布 (student

distribution), 记为 . 如果将 平方 , 即 , 则 , 即 分布的平方服从第一自由度为 1 第二自由度为 的中心分布 .

F

(0,1)X N 2 ( )Y n X Y

Yn

XT n t

( )T t n T22 X

YT n 2 1,T F n

( )t n n

目录 上页 下页 返回 结束

Page 69: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 69

中心 分布可化为中心 分布 , 其关系为 :2T F

1 2 , ( , 1)n ppn T p n F p n p

显然 , 当 时 , 有 .1p 2 (1, ) (1, )T n F n

定义 1.8 设 , , , , , 与相互独立 , 则称随机变量

( , )pW W n (0, )pX N c 0c n p 0 W X

2 1ncT X W X (1.33)

所服从的分布称为第一自由度为 第二自由度为 的中心 分布 , 记为

p n2T 2 2 ( , )T T p n

目录 上页 下页 返回 结束

§1.5.2 分布与 分布t 2T

Page 70: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 70

§1.5.3 中心分布与 Wilks 分布

F

在数理统计中 , 若 , , 且与相互独立 , 则称 所服从的分布为第一自由度为 第二自由度为 的中心 分布 .记为 . 分布本质上是从正态总体 随机抽取的两个样本方差的比 .

2 ( )X m 2 ( )Y nXmYn

F m

n F F2( , )N

( , )F F m n

目录 上页 下页 返回 结束

Page 71: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 71

所服从的分布称为维数为 , 第一自由度为 第二自由度为 的 Wilks Λ 分布 , 记为

p 1n

2n1 2( , , )p n n

1

1 2

W

W W (1.34)

定义 1.9 设 , , , , 且 与 相互独立 , 则称随机变量2W

1n p1 1( , )pW W n 2 2( , )pW W n 0

1W

目录 上页 下页 返回 结束

§1.5.3 中心分布与 Wilks 分布

F

Page 72: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 72

目录 上页 下页 返回 结束

§1.5.3 中心分布与 Wilks 分布

F

由于 Λ 分布在多元统计中的重要性 , 关于它的近似分布和精确分布不断有学者进行研究 ,当 p和 中的一个比较小时 , Λ 分布可化为 F分布 ,表 1-2 列举了常见的情况 .

pnnnp 121 F),,(~ 的关系,与表 1-2

2n

Page 73: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 73

目录 上页 下页 返回 结束

§1.5.3 中心 F 分布与 Wilks 分布

当 不属于表 1-2 情况时 , Bartlett 指出用 分布来近似表示 , 即

近似服从 .

2,p n 2

2 11 2 1 22( ) ln ( , , )p nV n n p n n

22( )pn

Rao 后来又研究用 F分布来近似 , 即1

12

21 s

s

tspnR

Page 74: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 74

目录 上页 下页 返回 结束

§1.5.3 中心分布与 Wilks 分布

F

2

2 22

2 22

2

11 2 2

4

5

24

p n

p n

p n

pn

t n n

s

近似服从 ,其中2( , 2 )F pn ts

不一定是整数 , 用与它最近的整数来作为 F分布的第二自由度 .

2ts

Page 75: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 75

目录 上页 下页 返回 结束

§1.5.3 中心分布与 Wilks 分布

F

若 , 有 .该结论说明 , 在使用 Λ统计量时也可考虑 的情形 , 有关 Λ 统计量的其他性质参见文献 [1].

2n p1 2 2 1 2( , , ) ( , , )p n n n p n n p

2n p

Page 76: 第一章 多元正态分布

23/4/19 中国人民大学六西格玛质量管理研究中心 76

目录 上页 下页 返回 结束