Download - 第一章 多元正态分布
23/4/19 中国人民大学六西格玛质量管理研究中心 1
第一章 多元正态分布
目录 上页 下页 返回 结束
§1.1 多元分布的基本概念
§1.2 统计距离和马氏距离
§1.3 多元正态分布
§1.4 均值向量和协方差阵的估计
§1.5 常用分布及抽样分布
23/4/19 中国人民大学六西格玛质量管理研究中心 2
第一章 多元正态分布
• 一元正态分布在统计学的理论和实际应用中都有着重要的地位。同样,在多变量统计学中,多元正态分布也占有相当重要的位置。原因是:
• 许多随机向量确实遵从正态分布,或近似遵从正态分布;
• 对于多元正态分布,已有一整套统计推断方法,并且得到了许多完整的结果。
目录 上页 下页 返回 结束
23/4/19 中国人民大学六西格玛质量管理研究中心 3
第一章 多元正态分布
多元正态分布是最常用的一种多元概率分布。除此之外,还有多元对数正态分布,多项式分布,多元超几何分布,多元 分布、多元 分布、多元指数分布等。本章从多维变量及多元分布的基本概念开始,着重介绍多元正态分布的定义及一些重要性质。
2χ
目录 上页 下页 返回 结束
23/4/19 中国人民大学六西格玛质量管理研究中心 4
§1.1 多元分布的基本概念
目录 上页 下页 返回 结束
§1.1.1 随机向量
§1.1.2 分布函数与密度函数
§1.1.3 多元变量的独立性
§1.1.4 随机向量的数字特征
23/4/19 中国人民大学六西格玛质量管理研究中心 5
§1.1.1 随机向量
表示对同一个体观测的 个变量。若观测了 个个体,则可得到如下表 1-1 的数据,称每一个个体的 个变量为一个样品,而全体 个样品形成一个样本。
p n
p n
假定所讨论的是多个变量的总体,所研究的数据是同时观测 个指标(即变量),又进行了 次观测得到的,把这 个指标表示为 常用向量
)',,,( 21 pXXX X
npXXX ,,, 21
pp
目录 上页 下页 返回 结束
23/4/19 中国人民大学六西格玛质量管理研究中心 6
横看表 1-1 ,记 , 它表示第 个样品的观测值。竖看表 1-1, 第 列的元素
表示对 第个变量 的 n 次观测数值。下面为表 1-1jxj
)',,,( 21)( pxxx X n,2,1
,)',,,( 21 njjjj xxx X pj ,2,1
j
npx
…n
…2
…1
… 变量序号
11x
21x
1nx
12x
22x
2nx
px1
px2
npx
目录 上页 下页 返回 结束
§1.1.1 随机向量
23/4/19 中国人民大学六西格玛质量管理研究中心 7
• 因此 , 样本资料矩阵可用矩阵语言表示为 :
/)(
/)2(
/)1(
21
21
22221
11211
),,,(
n
p
npnn
p
p
xxx
xxx
xxx
x
x
x
xxxX
定义 1.1 设 为 个随机变量,由它们组成的向量 称为随机向量。
pXXX ,,, 21
)',,,( 21 pXXX X
p
目录 上页 下页 返回 结束
§1.1.1 随机向量
若无特别说明,本书所称向量均指列向量
23/4/19 中国人民大学六西格玛质量管理研究中心 8
定义 1.2 设 是一随机向量,它的多元分布函数是
)',,,( 21 pXXX X
1.1),,(),,,()( 1121 ppp xXxXPxxxFXF
式中, ,并记成 。 pp RxxxX ),,,( 21 FX ~
§1.1.2 分布函数与密度函数
描述随机变量的最基本工具是分布函数,类似地描述随机向量的最基本工具还是分布函数。
目录 上页 下页 返回 结束
多元分布函数的有关性质此处从略。
23/4/19 中国人民大学六西格玛质量管理研究中心 9
§1.1.2 分布函数与密度函数
(1.2) ,),()( 11
1
p
x x
p dttdttfFp
x
pR1)( )(
0)( )(
xx
xx
dfii
Rfi p
目录 上页 下页 返回 结束
定义 1.3 :设 = , 若存在一个非负的函数 , 使得
)(~ XFX ),,,( 21 pxxxF f
对一切 成立,则称 (或 )有分布密度 并称 为连续型随机向量。f
pRx XFXX
一个 维变量的函数 能作为 中某个随机向量的分布密度,当且仅当
pRfp
23/4/19 中国人民大学六西格玛质量管理研究中心 10
§1.1.3 多元变量的独立性
目录 上页 下页 返回 结束
对一切 成立。若 为 的联合分布函数, 分别为 和 的分布函数,则 与 独立当且仅当 ( 1.4 )
(1.3) )()(),( yxXyYxX YPPP
定义 1.4 :两个随机向量 和 称为是相互独立的,若
),( yxF
X Y
),( YX ),( YX)()( yHxG 和 X Y YX
)()(),( yHxGyxF
注意 : 在上述定义中, 和 的维数一般是不同的。YX
若 有密度 ,用 分别表示 和 的分布密度,则 和 独立当且仅当 (1.5)
),( YX ),( yxf )()( yhxg 和 XX
YY
)()(),( yhxgyxf
23/4/19 中国人民大学六西格玛质量管理研究中心 11
§1.1.4 随机向量的数字特征
是一个 维向量,称为均值向量 . p
目录 上页 下页 返回 结束
)8.1()()()2(
7.1)()()1(
BXAEAXBE
XAEAXE
当 为常数矩阵时,由定义可立即推出如下性质:BA、
1 、随机向量 的均值 设 有 个分量。若 存在, 定义随机向量 的均值为
X)',,,( 21 pXXX X iiXE )(
,,2,1 pi Xp
)(
PP
) 6.1
)(
)(( 2
1
2
1
μX
XE
XE
XE
E
23/4/19 中国人民大学六西格玛质量管理研究中心 12
(1.9) )(
)D(X ),( ),(
),( )( ),(
),( ),( )(
21
2212
1211
ij
PPP
P
P
XXCOVXXCOV
XXCOVXDXXCOV
XXCOVXXCOVXD
§1.1.4 随机向量的数字特征
)())((),( / XXXXXXXΣ DEEECOV
目录 上页 下页 返回 结束
2 、随机向量 自协方差阵X
称它为 维随机向量 的协方差阵,简称为 的协方差阵。称 为 的广义方差,它是协差阵的行列式之值。
p X X),cov( XX X
23/4/19 中国人民大学六西格玛质量管理研究中心 13
目录 上页 下页 返回 结束
§1.1.4 随机向量的数字特征
3 、随机向量 X 和 Y 的协差阵
设 分别为 维和 维随机向量,它们之间的协方差阵定义为一个 矩阵,其元素是 ,即
)',,,()',,,( 2121 pn YYYYXXX 和X n ppn
),cov( ji YX
)10.1(,,1;,,1,)),(cov(),cov( pjniYXYX ji
是不相关的。和,称若 YXYX 0),cov( 当 A 、 B 为常数矩阵时,由定义可推出协差阵有如下性质:
'
''
),cov(),cov(
)()(
BYXABYAX
AAAXADAXD
23/4/19 中国人民大学六西格玛质量管理研究中心 14
目录 上页 下页 返回 结束
§1.1.4 随机向量的数字特征
( 3 )设 X为 维随机向量,期望和协方差存在记 则
AμμAΣAXX' ')()( trE
n常数阵,为 nn,)(,)( AXDXE
对于任何随机向量 来说,其协差阵∑都是对称阵,同时总是非负定(也称半正定)的。大多数情形下是正定的。
)',,,( 21 pXXX X
23/4/19 中国人民大学六西格玛质量管理研究中心 15
(1.11) ,,2,1,,)()(
),(
)()),((
pjiXDXD
XXCOVr
rXXcorr
ji
jiij
PPijji
R
目录 上页 下页 返回 结束
§1.1.4 随机向量的数字特征
4 、随机向量 X 的相关阵 若随机向量 的协差阵存在 , 且每个分量的方
差大于零,则 X 的相关阵定义为 :)',,,( 21 pXXX X
也称为分量 与 之间的(线性)相关系数。ijriX jX
23/4/19 中国人民大学六西格玛质量管理研究中心 16
在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在使用某种统计分析方法之前,常需将每个指标“标准化”,即做如下变换
1/ 2
1 2
/
( ) 1, , (1.12)
(var )
( , , , )
( ) 0 ( ) ( )
.
1
1
j jj
j
p
X E XX j p
X
X X X
E D corr
n
X
X X X R
R X X
于是
即标准化数据的协差阵正好是原指标的相关阵
(1.13)
目录 上页 下页 返回 结束
§1.1.4 随机向量的数字特征
23/4/19 中国人民大学六西格玛质量管理研究中心 17中国人民大学六西格玛质量管理研究中心
随机向量数字特征的例子
23/4/19 中国人民大学六西格玛质量管理研究中心 18中国人民大学六西格玛质量管理研究中心
例 1-1
• 例 1-1 焊接技术培训班有 10 名学生:基础焊接技术( BWT ),焊接技术提高( AWT )和焊接车间实践( PWW )的成绩如表 1-1 所示(数据文件MV_ 焊接成绩 .BTW )。
23/4/19 中国人民大学六西格玛质量管理研究中心 19中国人民大学六西格玛质量管理研究中心
例 1-1
• 请注意:样本资料阵在形式上与在 MINITAB 软件中的工作表是完全一致的,工作表的第 i 行表示第 i 个样品,工作表的第 j 列表示对第 j个变量的观测值,变量名称常列在表头
23/4/19 中国人民大学六西格玛质量管理研究中心 20中国人民大学六西格玛质量管理研究中心
样本均值向
量的计算
23/4/19 中国人民大学六西格玛质量管理研究中心 21中国人民大学六西格玛质量管理研究中心
样本协方差阵(也称为样本方差阵)的计算
23/4/19 中国人民大学六西格玛质量管理研究中心 22中国人民大学六西格玛质量管理研究中心
样本协方差阵(也称为样本方差阵)的计算
• 由于样本协方差阵是对称的,会话区窗口结果中只显示了协方差阵的下三角部分,所以整个样本协方差阵全部写出则应是:
• 如果采用存储功能,则存储的样本协方差阵就是整个方阵而不是三角阵,这个矩阵对角线上的 3 个数74.6222、 70.2222、 34.9 ,分别是基础焊接技术( BWT ),焊接技术提高( AWT )和焊接车间实践( PWW )三门课成绩的样本方差。
• 样本离差阵等于样本协方差阵乘以 n−1 ,所以例 1-1 样本离差阵就是
23/4/19 中国人民大学六西格玛质量管理研究中心 23中国人民大学六西格玛质量管理研究中心
样本相关阵 R计算:
23/4/19 中国人民大学六西格玛质量管理研究中心 24中国人民大学六西格玛质量管理研究中心
样本相关阵 R计算:
由于样本相关阵是对称的,对角线上全是 1 ,会话区窗口结果中只显示了扣除对角线后的下三角部分,所以整个样本相关阵全部写出则应是:
如果采用存储功能,则存储的样本相关阵就是方阵而不是三角阵。
23/4/19 中国人民大学六西格玛质量管理研究中心 25
§1.2 统计距离和马氏距离
目录 上页 下页 返回 结束
欧氏距离
马氏距离
23/4/19 中国人民大学六西格玛质量管理研究中心 26
§1.2 统计距离和马氏距离
欧氏距离
在多指标统计分析中 , 距离的概念十分重要 , 样品间的不少特征都可用距离去描述。大部分多元方法是建立在简单的距离概念基础上的。即平时人们熟悉的欧氏距离 , 或称直线距离 . 如几何平面上的点 p=(x1,x2) 到原点O=(0,0) 的欧氏距离 , 依勾股定理有
(1.14) )(),0( 2/122
21 xxpd
目录 上页 下页 返回 结束
23/4/19 中国人民大学六西格玛质量管理研究中心 27
§1.2 统计距离和马氏距离 但就大部分统计问题而言,欧氏距离是不能令人满意的。这里因为,每个坐标对欧氏距离的贡献是同等的。当坐标轴表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的办法是对坐标加权,使得变化较大的坐标比变化小的坐标有较小的权系数,这就产生了各种距离。 欧氏距离还有一个缺点,这就是当各个分量为不同性质的量时,“距离”的大小竟然与指标的单位有关。
目录 上页 下页 返回 结束
23/4/19 中国人民大学六西格玛质量管理研究中心 28
§1.2 统计距离和马氏距离
目录 上页 下页 返回 结束
例如,横轴 代表重量(以 kg 为单位),纵轴 代表长度(以 cm 为单位)。有四个点A 、 B、 C 、 D 见图 1.1 ,它们的坐标如图 1.1 所示
1X 2X
23/4/19 中国人民大学六西格玛质量管理研究中心 29
§1.2 统计距离和马氏距离
目录 上页 下页 返回 结束
101110
125105
22
22
CD
AB这时
显然 AB比 CD 要长。
现在,如果 用mm 作单位, 单位保持不变,此时 A 坐标为( 0 , 50 ), C 坐标为( 0 , 100 ),则
2X1X
100011100
26001050
22
22
CD
AB
结果 CD反而比 AB长!这显然是不够合理的。
23/4/19 中国人民大学六西格玛质量管理研究中心 30
§1.2 统计距离和马氏距离
目录 上页 下页 返回 结束
因此,有必要建立一种距离,这种距离要能够体现各个变量在变差大小上的不同,以及有时存在着的相关性,还要求距离与各变量所用的单位无关。看来我们选择的距离要依赖于样本方差和协方差。因此,采用“统计距离” 这个术语,以区别通常习惯用的欧氏距离。最常用的一种统计距离是印度统计学家马哈拉诺比斯(Mahalanobis )于 1936年引入的距离,称为“马氏距离”。
23/4/19 中国人民大学六西格玛质量管理研究中心 31
§1.2 统计距离和马氏距离
目录 上页 下页 返回 结束
下面先用一个一维的例子说明欧氏距离与马氏距离在概率上的差异。
设有两个一维正态总体 。若有一个样品,其值在 A 处, A 点距离哪个总体近些呢?由图 1-2
),(:),(: 2222
2111 GG 和
图 1-2
23/4/19 中国人民大学六西格玛质量管理研究中心 32
§1.2 统计距离和马氏距离
目录 上页 下页 返回 结束
由图 1-2 可看出 , 从绝对长度来看 ,A 点距左面总体 G1近些 ,即 A 点到 比A 点到 要“近一些”(这里用的是欧氏距离,比较的是 A 点坐标与 到 值之差的绝对值),但从概率观点来看, A 点在 右侧约 4 处, A 点在 的左侧约 3 处,若以标准差的观点来衡量, A 点离 比 A 点离 要“近一些”。显然,后者是从概率角度上来考虑的,因而更为合理些,它是用坐标差平方除以方差(或说乘以方差的倒数),从而化为无量纲数,推广到多维就要乘以协方差阵∑的逆矩阵 ,这就是马氏距离的概念,以后将会看到,这一距离在多元分析中起着十分重要的作用。
2
1 21
21 22 2 1
1
23/4/19 中国人民大学六西格玛质量管理研究中心 33
§1.2 统计距离和马氏距离
马氏距离 设 X、 Y从均值向量为 μ ,协方差阵为∑的总体 G
中抽取的两个样品,定义 X、 Y两点之间的马氏距离为
(1.21) )()(),( 1/2 YXΣYXYX dm
X G
(1.22) )()(),( 1/2 μXΣμXX Gdm
的马氏距离为与总体定义
目录 上页 下页 返回 结束
23/4/19 中国人民大学六西格玛质量管理研究中心 34
§1.2 统计距离和马氏距离
设 表示一个点集, 表示距离,它 是到 的函数,可以证明 , 马氏距离符合如下距离的四条基本公理 :
E d EE ),0[
;0),( yxd Eyx ,( 1 ) ,
( 2 ) 当且仅当 ; 0),( yxd yx
( 3 ) ),(),( xydyxd Eyx ,
( 4 ) ),(),(),( yzdzxdyxd Ezyx ,,
目录 上页 下页 返回 结束
23/4/19 中国人民大学六西格玛质量管理研究中心 35
§1.3 多元正态分布
多元正态分布是一元正态分布的推广。迄今为止 , 多元分析的主要理论都是建立在多元正态总体基础上的 , 多元正态分布是多元分析的基础。另一方面,许多实际问题的分布常是多元正态分布或近似正态分布,或虽本身不是正态分布,但它的样本均值近似于多元正态分布。 本节将介绍多元正态分布的定义,并简要给出它的基本性质。
目录 上页 下页 返回 结束
23/4/19 中国人民大学六西格玛质量管理研究中心 36
§1.3 多元正态分布
目录 上页 下页 返回 结束
§1.3.1 多元正态分布的定义
§1.3.2 多元正态分布的性质
§1.3.3 条件分布和独立性
23/4/19 中国人民大学六西格玛质量管理研究中心 37
§1.3.1 多元正态分布的定义
(1.24) )(
)}()(2
1exp{
)2(
1),,( 1/
2/12/1
0Σ
μxΣμxΣ
ppxxf
|∑| 为协差阵∑的行列式。
目录 上页 下页 返回 结束
定义 1.5 :若 元随机向量 的概率密度函数为: p )',,,( 21 pXXX X
),(~ ΣμX pN
则称 遵从 元正态分布,也称 X 为 元正态变量。记为
)',,,( 21 pXXX X p p
23/4/19 中国人民大学六西格玛质量管理研究中心 38
定理 1.1 将正态分布的参数 μ和∑赋于了明确的统计意义。有关这个定理的证明可参见文献 [3] 。
多元正态分布不止定义 1.5 一种形式,更广泛地可采用特征函数来定义,也可用一切线性组合均为正态的性质来定义等,有关这些定义的方式参见文献 [3] 。
目录 上页 下页 返回 结束
§1.3.1 多元正态分布的定义
定理 1.1 :设 则
),(~ pNX
)(,)( XDXE
23/4/19 中国人民大学六西格玛质量管理研究中心 39
§1.3.2 多元正态分布的性质
]1[2
1),(
)22
21(
2
122
21
21
)(2
1
21
xx
exxexxfxx
目录 上页 下页 返回 结束
1 、如果正态随机向量 的协方差阵∑是对角阵,则 X 的各分量是相互独立的随机变量。证明参见文献 [4], p.33 。
)',,,( 21 pXXX X
容易验证, ,但 显然不是正态分布。1 2~ (0,1) , ~ (0,1)X N X N ),( 21 XX
2 、多元正态分布随机向量 X 的任何一个分量子集的分布(称为 X的边缘分布)仍然遵从正态分布。而反之,若一个随机向量的任何边缘分布均为正态,并不能导出它是多元正态分布。例如,设 有分布密度'
21 ),( XXX
23/4/19 中国人民大学六西格玛质量管理研究中心 40
§ 1.3.2 多元正态分布的性质
目录 上页 下页 返回 结束
bA
3 、多元正态向量 的任意线性变换仍然遵从多元正态分布。即设 ,而 维随机向量 ,其中 是 阶的常数矩阵, 是 维的常向量。则 维随机向量 也是正态的,且 。即 遵从 元正态分布,其均值向量为 ,协差阵为 。
bAXZ 1m
),(~ 'AAbANZ m 'AA
)',,,( 21 pXXX X
),(~ pNX m )( ijaA
pm b m m Z
Z m
4 、若 ,则
若为定值,随着 的变化其轨迹为一椭球面,是 的密度函数的等值面 .若 给定,则 为 到 的马氏距离。
XX
,pX N
2 1 2 ( )d X X p
2d X2d X
23/4/19 中国人民大学六西格玛质量管理研究中心 41
§ 1.3.3 条件分布和独立性
(1.25)
, ,
2221
1211
)2(
)1(
)2(
)1(
ΣΣ
ΣΣΣ
μ
μμ
X
XX
目录 上页 下页 返回 结束
我们希望求给定 的条件分布,即 的分布。下一个定理指出:正态分布的条件分布仍为正态分布。
qqqX 为为其中 11)1()1( ,1, )1()2( XX 时
)|( )2()1( XX
设 p≥2,将 X 、 μ 和 Σ 剖分如下:),(~ pNX
23/4/19 中国人民大学六西格玛质量管理研究中心 42
(1) (2)1 2 11 2
(1) 1 (2) (2)1 2 12 22
111 2 11 12 22 21
( | ) ~ ( , ),
( ) (1.26)
(1.27)
qN
X X μ Σ
μ μ Σ Σ X μ
Σ Σ Σ Σ Σ
其中
证明参见文献 [3] 。
目录 上页 下页 返回 结束
§ 1.3.3 条件分布和独立性
定理 1.2 :设 , Σ>0 ,则 ),(~ pNX
23/4/19 中国人民大学六西格玛质量管理研究中心 43
t
s
r
)3(
)2(
)1(
X
X
X
X
t
s
r
)3(
)2(
)1(
μ
μ
μ
μ
t
s
r
333231
232221
131211
ΣΣΣ
ΣΣΣ
ΣΣΣ
Σ (1.28)
目录 上页 下页 返回 结束
§ 1.3.3 条件分布和独立性
定理 1.3 :设 , Σ>0 ,将 X , μ , Σ 剖分如下:
),(~ pNX
23/4/19 中国人民大学六西格玛质量管理研究中心 44
则 有如下的条件均值和条件协差阵的递推公式:)1(X
)(),|( 32)2(1
32231231)3()2()1(
μXΣΣμXXXE (1.29)
3211
322312311)3()2()1( ),|(
ΣΣΣΣXXXD (1.30)
其中 kjkkikijkij ΣΣΣΣΣ 1 3,2,1,, kji ,
2,1 )|( )3()(3 iE i
i XXμ
证明参见 [3]
目录 上页 下页 返回 结束
§ 1.3.3 条件分布和独立性
23/4/19 中国人民大学六西格玛质量管理研究中心 45
服装标准例子
23/4/19 中国人民大学六西格玛质量管理研究中心 46
• 定理 1.2 和定理 1.3在 20世纪 70年代中期为国家标准部门制定服装标准时有成功的应用,见参考文献 [3] 。在制定服装标准时需抽样进行人体测量,现从某年龄段女子测量取出部分结果如下:
154.98 29.66
83.39 6.51 30.53
70.26 1.85 25.54 39.86
61.32 9.36 3.54 2.23 7.03
91.52 10.34 19.53 20.70 5.21
μ Σ
27.36
X1 :身高, X2 :胸围, X3 :腰围, X4 :上体长, X5 :臀围,已知它们遵从 N5( μ,Σ ),其中
23/4/19 中国人民大学六西格玛质量管理研究中心 47
(1) / (2) (3)1 2 3 4 5
1
2 5 15
3
4
5
5
( , , ) , ( ), ( ),
(1.26) (1.27)
154.98 10.34
83.39 19.53(27.36) ( 91.52)
70.26 20.70
61.32 5.21
154.98 0.38( 91.52)
83.39 0.71(
X X X X X
x
x xE X
x
x
X
X
X X X若取
则由公式 和 得
5
5
91.52)
70.26 0.76( 91.52)
61.32 0.19( 91.52)
X
X
23/4/19 中国人民大学六西格玛质量管理研究中心 48
1
2 5
3
4
29.66 6.51 1.85 9.36
6.51 30.53 25.54 3.54
1.85 25.54 39.86 2.23
9.36 3.54 2.23 7.03
10.34
19.53
20.70
5.2
X
X xD
X
X
1(27.36) (10.34,19.53,20.70,5.21)
1
25.76 -0.86 -5.97 7.39
-0.86 16.59 10.76 -0.18
-5.97 10.76 24.19 -1.72
7.39 -0.18 -1.72 6.04
23/4/19 中国人民大学六西格玛质量管理研究中心 49
• 再利用( 1.30 )式得 1 4
2
53
1
25.76 -0.86 -5.97
-0.86 16.59 10.76
-5.97 10.76 24.19
7.39
-0.18 (6.04) (7.39 ,-0.18,-1.72 )
-1.72
16.72 -0.64 -3.87
-0.64 16.58
X X
D X
XX
10.71
-3.87 10.71 23.71
23/4/19 中国人民大学六西格玛质量管理研究中心 50
• 这说明 , 若已知一个人的上体的长和臀围 , 则身高、胸围和腰围的条件方差比原来的方差大大缩小。
此时我们可看到
1 4 5 1
2 4 5 2
3 4 5 3
var( | , ) 16.72 29.66 var( )
var( | , ) 16.58 30.53 var( )
var( | , ) 23.71 39.86 var( )
X X X X
X X X X
X X X X
23/4/19 中国人民大学六西格玛质量管理研究中心 51
在定理 1.2 中,我们给出了对 X 、 μ 和 Σ 作形如 (1.25) 式剖分时条件协差阵 的表达式及其与非条件协差阵的关系,令 表示 的元素,则可以定义偏相关系数的概念如下:
211Σpqij ,,1
211Σ
2/1,,1,,1
,,1,,1 )( pqjjpqii
pqijpqijr
定义 1.6 :当 给定时, 与 的偏相关系数为:)2(XiX jX
目录 上页 下页 返回 结束
§ 1.3.3 条件分布和独立性
23/4/19 中国人民大学六西格玛质量管理研究中心 52
偏相关系数
以 x1 表示某种商品的销售量, x2 表示消费者人均可 支配收入, x3 表示商品价格。
从经验上看,销售量 x1 与消费者人均可 支配收入 x2
之间应该有正相关,简单相关系数 r12 应该是正的。但是如果你计算出的 r12 是个负数也不要感到惊讶,这是因为还有其它没有被固定的变量在发挥影响,例如商品价格 x3 在这期间大幅提高了。反映固定 x3
后 x1与 x2 相关程度的偏相关系数 r12 ; 3 会是个正数。
23/4/19 中国人民大学六西格玛质量管理研究中心 53
§ 1.3.3 条件分布和独立性
• 在上面制定服装标准的例子中,给定 X4和X5 的偏相关系数为:
12 45
0.6430.0386
16.717 16.582r
13 45
3.8730.195
16.717 23.707r
23 45
10.7070.540
16.582 23.707r
23/4/19 中国人民大学六西格玛质量管理研究中心 54
KKK
K
kk ΣΣ
ΣΣ
Σ
μ
μ
μ
X
X
X
, ,
1
111
)(
)1(
)(
)1(
目录 上页 下页 返回 结束
§ 1.3.3 条件分布和独立性
定理 1.4 :设 将 X 、 μ 、 Σ 按同样方式剖分为
),(~ pNX
其中,
,,,1,:,1:,1: )()( kjSSSSX jjjjjj
jj
jiXX ijk 对一切相互独立当且仅当则 ,0,, )()1(
证明参见文献 [3]
23/4/19 中国人民大学六西格玛质量管理研究中心 55
§1.4 均值向量和协方差阵的估计
上节已经给出了多元正态分布的定义和有关的性质 , 在实际问题中 ,通常可以假定被研究的对象是多元正态分布 ,但分布中的参数 μ 和 Σ 是未知的 , 一般的做法是通过样本来估计。
目录 上页 下页 返回 结束
23/4/19 中国人民大学六西格玛质量管理研究中心 56
§1.4 均值向量和协方差阵的估计
均值向量的估计
在一般情况下 , 如果样本资料阵为:
/)(
/)2(
/)1(
21
21
22221
11211
),,,(
n
P
npnn
p
p
xxx
xxx
xxx
X
X
X
XXXX
目录 上页 下页 返回 结束
23/4/19 中国人民大学六西格玛质量管理研究中心 57
§1.4 均值向量和协方差阵的估计
(1.31) 11
ˆ 2
1
1
21
11
)(1
p
ip
n
i
i
n
i
i
n
i
i
n
i
X
X
X
X
X
X
nX
n
Xμ
即均值向量 μ 的估计量 ,就是样本均值向量 .这可由极大似然法推导出来。推导过程参见文献 [3] 。
目录 上页 下页 返回 结束
设样品 相互独立 , 同遵从于 P 元正态分布 ,而且 ,Σ>0, 则总体参数均值 μ 的估计量是
)()2()1( ,, nXXX ),( pN pn
23/4/19 中国人民大学六西格玛质量管理研究中心 58
§1.4 均值向量和协方差阵的估计协方差阵的估计
总体参数协差阵 Σ 的极大似然估计是
目录 上页 下页 返回 结束
')(
1)( )()(
11
XXXXn
Ln i
n
iip
n
ipip
n
i
n
i
pipii
n
i
pipi
n
ii
XX
XXXXXX
XXXXXX
n
1
2
1 122
222
1
111
211
)(
))(()(
))(()(
1
23/4/19 中国人民大学六西格玛质量管理研究中心 59
§1.4 均值向量和协方差阵的估计
目录 上页 下页 返回 结束
其中 L是离差阵,它是每一个样品(向量)与样本均值(向量)的离差积形成的 n 个 阶对称阵的和。同一元相似, 不是 Σ 的无偏估计,为了得到无偏估计我们常用样本协差阵 作为总体协差阵的估计。
ˆpΣ
1ˆ1
Ln
Σ
pp
23/4/19 中国人民大学六西格玛质量管理研究中心 60
§1.5 常用分布及抽样分布 多元统计研究的是多指标问题 , 为了了解总体的特征 ,通过对总体抽样得到代表总体的样本 ,但因为信息是分散在每个样本上的 ,就需要对样本进行加工 , 把样本的信息浓缩到不包含未知量的样本函数中 , 这个函数称为统计量 , 如前面介绍的样本均值向量 、样本离差阵 等都是统计量 . 统计量的分布称为抽样分布 .
XL
在数理统计中常用的抽样分布有 分布、 分布和 分布 .在多元统计中 , 与之对应的分布分别为 Wishart分布、 分布和 Wilks 分布 .
2 tF
2T
目录 上页 下页 返回 结束
23/4/19 中国人民大学六西格玛质量管理研究中心 61
§1.5 常用分布及抽样分布
1.5.2 分布与 分布t 2T
1.5.1 分布与 Wishart 分布2
1.5.3 中心分布与 Wilks 分布F
目录 上页 下页 返回 结束
23/4/19 中国人民大学六西格玛质量管理研究中心 62
2 ( )n 分布有两个重要的性质 :
§1.5.1 分布与 Wishart 分布2
在数理统计中 , 若 ( ), 且相互独立 , 则 所服从的分布为自由度为 的 分布 (chi squared
distribution), 记为 .
1,2, ,i n 2
1
n
ii
X n 2
2 ( )n
(0,1)iX N
目录 上页 下页 返回 结束
1 、若 , 且相互独立 , 则1,2, ,i k
2 2
1 1
( )k k
i ii i
n
称为相互独立 的具有可加性2
2 2 ( )i in
23/4/19 中国人民大学六西格玛质量管理研究中心 63
2. 设 ( ), 且相互独立 , 为 个 阶对称阵 , 且 ( 阶单位阵 ), 记 ,
则 为相互独立的 分布的充要条件为 .此时 , .
(0,1)iX N 1,2, ,i n ( 1,2, , )j m
m n1
m
j nj
A I
1 2, , , nX X X X
,j jQ X A X 1 2, , , mQ Q Q 2
1
rank( )m
jj
A n
rank( )j jn A
jA
2j jQ n
这个性质称为 Cochran 定理 , 在方差分析和回归分析中起着重要作用 .
目录 上页 下页 返回 结束
§1.5.1 分布与 Wishart 分布2
23/4/19 中国人民大学六西格玛质量管理研究中心 64
( ) ( )1
n
W XX X X
(1.32)
定义 1.7 设 相互独立 , 且 , 记 , 则随机矩阵:
( ) 1 2( , , , )pX X X X ( 1,2, , )n
( ) ( , )pX N (1) (2) ( )( , , , )nX X X X
所服从的分布称为自由度为 的 维非中心Wishart分布 , 记为 ,
n p( , , )pW W n Z
其中 , , , 称为非中心参数 ,当 时称为中心 Wishart 分布 ,记为
, 0n p '1 2 1 2
1
, , , , , ,n
n n i ii
Z
0
( , )pW n
目录 上页 下页 返回 结束
§1.5.1 分布与 Wishart 分布2
23/4/19 中国人民大学六西格玛质量管理研究中心 65
由Wishart 分布的定义知 , 当 时 , 退化为 , 此时中心Wishart 分布就退化为 , 由此可以看出 , Wishart 分布实际上是 分布在多维正态情形下的推广 .
1p 22 2 ( )n
2
下面不加证明的给出 Wishart 分布的 5 条重要性质 :
个随机样本 , 为样本均值 , 样本离差阵为维正态总体( ) 1 2( , , , , )pX X X X 1,2, , n p
,pN n X
( ) ( )1
( )( )n
L X X X X
1. 若 是从中抽取的
, 则.
相互独立 .和(1) X L
1,p nX N ( 1, )pL W n (2) ,
目录 上页 下页 返回 结束
§1.5.1 分布与 Wishart 分布2
23/4/19 中国人民大学六西格玛质量管理研究中心 66
( , )pW W n q pC
3. 若 , 为非奇异阵 , 则
( , )qCWC W n C C
, 为任一( , )pW W n a p 0a a 2 ( )a Wa
a a n
4. 若 元常向量 ,满足
则
目录 上页 下页 返回 结束
§1.5.1 分布与 Wishart 分布2
( , )i p iW W n 1,2, ,i k 2. 若 且相互独立 , 则
1 1
,k k
i p ii i
W W n
23/4/19 中国人民大学六西格玛质量管理研究中心 67
特别的 , 设 和 分别为 和 的第 个对角元 , 则: iiwii 1W 1 i
2 ( 1)ii
iiw n p
1
1
2 ( 1)a a
a W an p
5. 若 , 为任一 元非零常向量 ,比值( , )pW W n a p
目录 上页 下页 返回 结束
§1.5.1 分布与 Wishart 分布2
23/4/19 中国人民大学六西格玛质量管理研究中心 68
§1.5.2 分布与 分布t 2T
在数理统计中 , 若 , , 且 与 相互独立 , 则称
服从自由度为 的 分布 , 又称为学生分布 (student
distribution), 记为 . 如果将 平方 , 即 , 则 , 即 分布的平方服从第一自由度为 1 第二自由度为 的中心分布 .
F
(0,1)X N 2 ( )Y n X Y
Yn
XT n t
( )T t n T22 X
YT n 2 1,T F n
( )t n n
目录 上页 下页 返回 结束
23/4/19 中国人民大学六西格玛质量管理研究中心 69
中心 分布可化为中心 分布 , 其关系为 :2T F
1 2 , ( , 1)n ppn T p n F p n p
显然 , 当 时 , 有 .1p 2 (1, ) (1, )T n F n
定义 1.8 设 , , , , , 与相互独立 , 则称随机变量
( , )pW W n (0, )pX N c 0c n p 0 W X
2 1ncT X W X (1.33)
所服从的分布称为第一自由度为 第二自由度为 的中心 分布 , 记为
p n2T 2 2 ( , )T T p n
目录 上页 下页 返回 结束
§1.5.2 分布与 分布t 2T
23/4/19 中国人民大学六西格玛质量管理研究中心 70
§1.5.3 中心分布与 Wilks 分布
F
在数理统计中 , 若 , , 且与相互独立 , 则称 所服从的分布为第一自由度为 第二自由度为 的中心 分布 .记为 . 分布本质上是从正态总体 随机抽取的两个样本方差的比 .
2 ( )X m 2 ( )Y nXmYn
F m
n F F2( , )N
( , )F F m n
目录 上页 下页 返回 结束
23/4/19 中国人民大学六西格玛质量管理研究中心 71
所服从的分布称为维数为 , 第一自由度为 第二自由度为 的 Wilks Λ 分布 , 记为
p 1n
2n1 2( , , )p n n
1
1 2
W
W W (1.34)
定义 1.9 设 , , , , 且 与 相互独立 , 则称随机变量2W
1n p1 1( , )pW W n 2 2( , )pW W n 0
1W
目录 上页 下页 返回 结束
§1.5.3 中心分布与 Wilks 分布
F
23/4/19 中国人民大学六西格玛质量管理研究中心 72
目录 上页 下页 返回 结束
§1.5.3 中心分布与 Wilks 分布
F
由于 Λ 分布在多元统计中的重要性 , 关于它的近似分布和精确分布不断有学者进行研究 ,当 p和 中的一个比较小时 , Λ 分布可化为 F分布 ,表 1-2 列举了常见的情况 .
pnnnp 121 F),,(~ 的关系,与表 1-2
2n
23/4/19 中国人民大学六西格玛质量管理研究中心 73
目录 上页 下页 返回 结束
§1.5.3 中心 F 分布与 Wilks 分布
当 不属于表 1-2 情况时 , Bartlett 指出用 分布来近似表示 , 即
近似服从 .
2,p n 2
2 11 2 1 22( ) ln ( , , )p nV n n p n n
22( )pn
Rao 后来又研究用 F分布来近似 , 即1
12
21 s
s
tspnR
23/4/19 中国人民大学六西格玛质量管理研究中心 74
目录 上页 下页 返回 结束
§1.5.3 中心分布与 Wilks 分布
F
2
2 22
2 22
2
11 2 2
4
5
24
p n
p n
p n
pn
t n n
s
近似服从 ,其中2( , 2 )F pn ts
不一定是整数 , 用与它最近的整数来作为 F分布的第二自由度 .
2ts
23/4/19 中国人民大学六西格玛质量管理研究中心 75
目录 上页 下页 返回 结束
§1.5.3 中心分布与 Wilks 分布
F
若 , 有 .该结论说明 , 在使用 Λ统计量时也可考虑 的情形 , 有关 Λ 统计量的其他性质参见文献 [1].
2n p1 2 2 1 2( , , ) ( , , )p n n n p n n p
2n p
23/4/19 中国人民大学六西格玛质量管理研究中心 76
目录 上页 下页 返回 结束