第二章 sas 的描述统计功能
DESCRIPTION
第二章 SAS 的描述统计功能. 2.1 描述性统计的基本概念 2.2 在 SAS 中计算统计量 2.3 统计图形. 2.1 描述性统计的基本概念 2.1.1 统计学的基本概念 2.1.2 表示数据位置的统计量 2.1.3 表示数据分散程度的统计量 2.1.4 表示数据分布形状的统计量 2.1.5 其它统计量. 2.1.1 统计学的基本概念 1. 总体与样本 总体 (population) :总体是指所研究对象的全体组成的集合。 - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/1.jpg)
STATSTATSAS 软件与统计应用教程
第二章 SAS 的描述统计功能
2.1 描述性统计的基本概念2.2 在 SAS 中计算统计量2.3 统计图形
![Page 2: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/2.jpg)
STATSTATSAS 软件与统计应用教程
2.1 描述性统计的基本概念2.1.1 统计学的基本概念2.1.2 表示数据位置的统计量2.1.3 表示数据分散程度的统计量2.1.4 表示数据分布形状的统计量2.1.5 其它统计量
![Page 3: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/3.jpg)
STATSTATSAS 软件与统计应用教程
2.1.1 统计学的基本概念
1. 总体与样本 总体 (population) :总体是指所研究对象的全体
组成的集合。 样本 (sample) :样本是指从总体中抽取的部分对
象(个体)组成的集合。样本中包含个体的个数称为样本容量。容量为 n 的样本常用 n 个随机变量 X1 ,X2 ,…, Xn表示,其观测值(样本数据)则表示为x1 , ... , xn,为简单起见,有时不加区别。
![Page 4: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/4.jpg)
STATSTATSAS 软件与统计应用教程
2. 参数与统计量 参数 (parameter) :参数是用来描述总体特征的概
括性值。如总体平均值( μ )、总体方差( 2 )、总体比例( π)等。 统计量 (statistics) :统计量是用来描述样本特征
的概括性值。如样本均值( )、样本方差( s2 )、样本比例( P)等。
x
![Page 5: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/5.jpg)
STATSTATSAS 软件与统计应用教程
2.1.2 表示数据位置的统计量 如果要用简单的数字来概括一组观测数据 x1 , ... ,xn,可以使用“位置统计量”来作为数据的总体代表,常见的位置统计量有:均值、中位数、分位数、众数等。1. 均值( Mean ) 均值是所有观测值的平均值,是描述数据取值中
心位置的一个度量:n
xxx
nx n
n
ii
1
1
1
![Page 6: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/6.jpg)
STATSTATSAS 软件与统计应用教程
2. 中位数( Median 或 Med ) 中位数是描述观测值数据中心位置的统计量,大
体上比中位数大(小)的数据为观测值的一半。中位数的一个优点是它不受个别极端数据的影响,具有稳健性。中位数的计算方法是:首先将数据从小到大排序为: x(1) , ... , x(n) ,然后计算
为偶数
为奇数
中位数nxx
nx
nn
n
)(2
1
)12
()2
(
)2
1(
![Page 7: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/7.jpg)
STATSTATSAS 软件与统计应用教程
3. 众数( Mode ) 观测值中出现最多的数称为众数。众数用得不如
均值和中位数普遍。在属性变量分析中,常需考虑频数,因此众数用得多些。4. 百分位数( Percentile ) 分位数也是描述数据分布和位置的统计量。 0.5
分位数就是中位数, 0.75 分位数和 0.25 分位数又分别称为上、下四分位数,并分别记为 Q3 和 Q1 。
![Page 8: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/8.jpg)
STATSTATSAS 软件与统计应用教程
2.1.3 表示数据分散程度的统计量1. 极差( Range )与半极差( Interquartile ran
ge ) 极差就是数据中的最大值和最小值之间的差:
极差 = max{xi} – min{xi}
上、下四分位数之差 Q3 – Q1 称为四分位极差或半极差,它描述了中间半数观测值的散布情况。2. 方差( Variance 或 Var ) 方差是由各观测值到均值距离的平方和除以观测
量减 1 : 1
)(...)()(
1
1 221
1
22
n
xxxxxx
ns n
n
ii
![Page 9: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/9.jpg)
STATSTATSAS 软件与统计应用教程
3. 标准差( Standard deviation 或 Std Dev ) 方差的开方称为标准差:
标准差的量纲与原变量一致。4. 变异系数( Coefficient of Variation 或 CV ) 变异系数是将标准差表示为均值的百分数,是观
测数据分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的:
2ss
(%)100x
sCV
![Page 10: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/10.jpg)
STATSTATSAS 软件与统计应用教程
2.1.4 表示数据分布形状的统计量 偏度和峰度是描述数据分布形状的指标。
1. 偏度( skewness ) 偏度是刻画数据对称性的指标。偏度的计算公式
为:
在 SAS 中: ● 关于均值对称的数据其偏度为 0 ; ● 左侧更为分散的数据,其偏度为负,称为左偏; ● 右侧更为分散的数据,其偏度为正,称为右偏。
n
i
i
s
xx
nn
nSK
1
3)()2)(1(
![Page 11: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/11.jpg)
STATSTATSAS 软件与统计应用教程
2. 峰度( kurtosis ) 峰度描述数据向分布尾端散布的趋势。峰度的计
算公式为:
利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若 ● 近似于标准正态分布,则峰度接近于零; ● 尾部较正态分布更分散,则峰度为正,称为轻
尾; ● 尾部较正态分布更集中,则峰度为负,称为厚
尾。
)3)(2(
)1(3)(
)3)(2)(1(
)1( 2
1
4
nn
n
s
xx
nnn
nnK
n
i
i
![Page 12: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/12.jpg)
STATSTATSAS 软件与统计应用教程
2.1.5 其它统计量1. 均值的标准误( Std Error Mean 或 Std Mean
或 Std error )
2. 校正平方和( Corrected sum of squares )
n
ii xx
nnn
s
1
2)()1(
1 MeanStd
n
ii xxCSS
1
2)(
![Page 13: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/13.jpg)
STATSTATSAS 软件与统计应用教程
3. 未校正平方和( Uncorrected sum of squares )
4. k 阶原点矩
其中 A1 即为均值 。5. k 阶中心矩
n
iixUSS
1
2
,...2,1,1
1
kxn
An
i
kik
x
,...3,2,)(1
1
kxxn
Bn
i
kik
![Page 14: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/14.jpg)
STATSTATSAS 软件与统计应用教程
2.2 在 SAS 中计算统计量2.2.1 用 INSIGHT计算统计量2.2.2 用“分析家”计算统计量2.2.3 编程实现描述性统计
![Page 15: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/15.jpg)
STATSTATSAS 软件与统计应用教程
2.2.1 用 INSIGHT 计算统计量 INSIGHT 可以非常方便地计算各种统计量。
1. 实例数据【例 2-1】表 2-1 为两个不同地区居民家庭收入和支
出情况的抽样调查(单位:元),试分别统计收入和支出情况。
将表 2-1 中数据通过 Excel导入到 SAS 数据集 Mylib.
sryzc 中, 4 个变量名分别为: ID 、 R_ID 、 Incom
e 和 Outgo ,相应的标签名为家庭编号、地区编号、家庭总收入和家庭总支出。
![Page 16: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/16.jpg)
STATSTATSAS 软件与统计应用教程
家庭编号 地区编号 家庭总收入 家庭总支出 家庭编号 地区编号 家庭总收入 家庭总支出
1 2 1794 1550 16 2 2200 2060
2 2 1716 1365 17 1 2730 2236
3 1 3410 2730 18 1 2496 1455
4 2 1765 1530 19 1 1760 1040
5 2 2184 1900 20 1 2820 2366
6 2 2050 2050 21 2 2250 1966
7 2 2460 2184 22 1 3170 2400
8 1 1976 1170 23 2 1200 1250
9 1 2850 2496 24 2 1776 1350
10 1 4275 2760 25 2 1980 1794
11 2 2010 1275 26 1 2455 2550
12 1 2236 1810 27 2 1080 1380
13 1 3305 2820 28 2 1986 1200
14 1 2400 1976 29 1 3369 2305
15 2 2250 1970 30 2 1530 1316
![Page 17: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/17.jpg)
STATSTATSAS 软件与统计应用教程
2. 在 INSIGHT中打开数据集 在菜单中选择“ Solution (解决方案)”→“ An
alysis (分析)”→“ Interactive Data Analysis (交互式数据分析)”,打开“ SAS/INSIGHT Open” 对话框,在对话框中选择数据集: Mylib.sryzc ,单击“ Open (打开)”按钮,即可在 INSIGHT 中打开数据窗口,如图所示。
![Page 18: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/18.jpg)
STATSTATSAS 软件与统计应用教程
3. 计算统计量 选择菜单“ Analyze (分析)”→“ Distribution
(Y) (分布)”,打开“ Distribution (Y)” 对话框。在数据集 sryzc 的变量列表中,选择 Income 为分析变量,选择 R_Id ,为分组变量。
单击“ Output (输出)”按钮,在打开的对话框中包含描述性统计量选项。
![Page 19: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/19.jpg)
STATSTATSAS 软件与统计应用教程
选择选项矩统计量和分位数,取消默认的选项:“ Box Plot/Mosaic Plot” 和“ Histogram/Bar Chart” ,单击“ OK”按钮,即可得到变量 Income按“ R_Id”
分组的各种矩统计量( Moments )和分位数( Quan
tiles ),如图所示。
![Page 20: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/20.jpg)
STATSTATSAS 软件与统计应用教程
2.2.2 用“分析家”计算统计量
1. 启动“分析家” 选择主菜单“ Solutions (解决方案)”→“ Ana
lysis (分析)”→“ Analyst (分析家)”,打开“分析家”窗口。 选择主菜单“ File (文件)”→“ Open By SAS
Name” ,打开“ Select A Member” 对话框,选择数据集 Mylib.sryzc 。
![Page 21: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/21.jpg)
STATSTATSAS 软件与统计应用教程
2. 通过 Summary Statistics菜单计算描述性统计量
选择主菜单“ Statistics (统计)”→“ Descripti
ve (描述性统计)”→“ Summary Statistics (汇总统计量)”,打开“ Summary Statistics” 对话框,选择变量列表中的 Income ,单击“ Analysis” 按钮,选定分析变量,如图所示。
![Page 22: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/22.jpg)
STATSTATSAS 软件与统计应用教程
单击“ Statistics”按钮,打开“ Summary Statistics :Statistics” 对话框。对话框中列出可以计算的所有统计量(如右图所示)。
描述性统计量如下图所示。
![Page 23: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/23.jpg)
STATSTATSAS 软件与统计应用教程
3. 通过 Distributions菜单计算描述性统计量 选择主菜单“ Statistics (统计)”→“ Descripti
ve (描述性统计)”→“ Distributions (分布)”,打开“ Distributions” 对话框,选择变量列表中的 In
come ,单击“ Analysis”按钮,选定分析变量。 单击“ OK”按钮,即可得到关于变量 Income 的
矩统计量和基本统计测度
![Page 24: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/24.jpg)
STATSTATSAS 软件与统计应用教程
2.2.3 编程实现描述性统计 SAS提供有多个不同的过程来实现统计量的计算,
它们在功能范围上有许多的重复,下面介绍用 FREQ 、MEANS 和 UNIVARIATE这三个过程来计算简单的描述统计量。 FREQ过程常用来计算分类变量取值的频数,而
MEANS 和 UNIVARIATE过程则对数值型变量计算均值、标准差等统计量。
![Page 25: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/25.jpg)
STATSTATSAS 软件与统计应用教程
1. FREQ过程 FREQ过程包括多个控制频数输出与检验的语句
和选项,格式如下:PROC FREQ DATA = <数据集 >; [TABLES <变量 1> <变量 2> …;] [FORMAT <变量 1> < 输出格式 1>. <变量 2> < 输
出格式 2>. …;]RUN;
其中 PROC FREQ语句调用 FREQ过程,标志 F
REQ过程的开始; TABLES语句用于创建有关变量所构成的各种表格并进行相应的假设检验和计算,可以多次使用。
![Page 26: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/26.jpg)
STATSTATSAS 软件与统计应用教程
例如,统计数据集 Mylib.sryzc 中变量 R_Id 和 In
come 频数的代码如下:proc freq data = mylib.sryzc;
tables R_Id Income;
RUN;
显示结果如图所示。
![Page 27: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/27.jpg)
STATSTATSAS 软件与统计应用教程
2. MEANS过程(1) 语法格式 MEANS过程的一般格式:
PROC MEANS DATA=< 数据集名 >[< 统计量关键字列表 >] ;
[VAR < 分析变量列表 > ; ]
[BY < 分组变量名 > ; ]
[CLASS < 分组变量名 >; ]
RUN ;
![Page 28: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/28.jpg)
STATSTATSAS 软件与统计应用教程
PROC MEANS 语句后的选项主要用来指定所要计算的统计量,默认情况下, MEANS过程会给出频数、均数、标准差、最大值和最小值等,其余统计量的计算均需要在选项中指定。 VAR语句引导所要进行分析的所有变量的列表,
SAS 将对 VAR语句所引导的所有变量分别进行描述性统计分析。 BY语句与 CLASS语句所指定的分类变量用来进行分组统计,但输出格式不同。
![Page 29: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/29.jpg)
STATSTATSAS 软件与统计应用教程
如对数据集 Mylib.sryzc 中的 Income 变量计算简单统计量,只要用如下 MEANS过程:
proc means data = mylib.sryzc;
var Income;
run;
结果如图 2-15 所示。
![Page 30: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/30.jpg)
STATSTATSAS 软件与统计应用教程
(2) 使用统计量关键字列表 在 PROC MEANS语句中使用统计量关键字列表:
proc means data = mylib.sryzc n mean median p1 p5
p95 p99 q1 q3 max min;
var Income;
run;
结果如图 2-16 所示。
![Page 31: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/31.jpg)
STATSTATSAS 软件与统计应用教程
可以计算的描述性统计量关键字及其含义见下表。关键字 所代表的含义 关键字 所代表的含义n 有效数据记录数 range 极差nmiss 缺失数据记录数 skewness 偏度mean 均值 kurtosis 峰度std 标准差 t 分布位置假设检验之 t 统计
量stderr 标准误 probt 上述 t 统计量对应的概率值var 方差 q1 第一四分位数median 中位数 q3 第三四分位数mode 众数 qrange 四分位数间距cv 变异系数 p1 第一百分位数max 最大值 p5 第五百分位数min 最小值 p10 第十百分位数sum 总计 p90 第九十百分位数sumwgt 加权值总计 p95 第九十五百分位数css 校正平方和 p99 第九十九百分位数uss 未校正平方和
![Page 32: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/32.jpg)
STATSTATSAS 软件与统计应用教程
(3) 使用 CLASS语句和 BY语句 使用 CLASS语句和 BY语句可以分组计算分析变
量的描述统计量值,由 CLASS语句和 BY语句指定的变量在分析中起分组(类)的作用,被称为分类变量。两个语句的区别是: ● 使用 BY语句时要求数据集须按 BY 变量排序,
使用 CLASS语句无此要求。 ● 使用 BY语句时输出按 BY 变量的每个值分别提供一个表,使用 CLASS语句则将所有结果排列在一个表之中。
![Page 33: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/33.jpg)
STATSTATSAS 软件与统计应用教程
使用 BY语句之前先排序,如下代码可以在上例中按变量 R_Id 分组统计:
proc sort data = mylib.sryzc;
by R_Id;
run;
proc means data = mylib.sryzc n mean median p1 p5
p95 p99 q1 q3 max min;
var Income;
by R_Id;
run;
![Page 34: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/34.jpg)
STATSTATSAS 软件与统计应用教程
使用 CLASS语句分组较为简单,如下代码也可以在上例中按变量 R_Id 分组统计:
proc means data = mylib.sryzc n mean median p1 p5
p95 p99 q1 q3 max min;
var Income;
class R_Id;
RUN;
![Page 35: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/35.jpg)
STATSTATSAS 软件与统计应用教程
3. UNIVARIATE过程 UNIVARIATE过程的一般格式为:
PROC UNIVARIATE DATA = < 数据集名 > [< 统计量关键字列表 >];
[VAR <分析变量列表 >;] [BY | CLASS <分组变量名 >;] [HISTOGRAM <变量名称 >/< 选项列表 >;] [OUTPUT OUT = <数据集名 > <统计量关键字 > = <
自定义变量名>;]RUN;
![Page 36: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/36.jpg)
STATSTATSAS 软件与统计应用教程
UNIVARIATE过程和 MEANS过程的格式非常相似,相同的语句和选项其含义也相同,所不同的是某些统计量只能在 UNIVARIATE 过程中计算(如众数),而且 UNIVARIATE过程中具有绘图功能。 其中, HISTOGRAM语句用来指示 SAS 对其后
所指定的变量绘制直方图,其后的选项用来指示 SAS
添加不同类型的拟合图形(如正态分布的分布密度曲线)。
![Page 37: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/37.jpg)
STATSTATSAS 软件与统计应用教程
输出包括五个部分。 第一部分是矩统计量,各统计量已在 2.1.1 中作了介绍。 第二部分为基本的位置和分散程度统计量,位置
统计量包括均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分位间距 第三部分为关于均值等于零的三种检验的结果,
包括 t检验、符号检验和符号秩检验。 第四部分为各个重要的分位数。 第五部分是观测数据的五个最低值和五个最高值。
![Page 38: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/38.jpg)
STATSTATSAS 软件与统计应用教程
2.3 统计图形2.3.1 定量变量的图形表示2.3.2 分类变量的图形表示
![Page 39: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/39.jpg)
STATSTATSAS 软件与统计应用教程
2.3.1 定量变量的图形表示
1. 直方图 对于数值型变量,常用直方图( histogram )来展示变量取值的分布。将变量取值的范围分成若干区间,在等间隔区间的情况,每个区间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或密度(频率/组距),在高度是密度的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度。
![Page 40: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/40.jpg)
STATSTATSAS 软件与统计应用教程
图 2-22 密度直方图与频数直方图
SAS软件会根据样本容量在样本取值范围内自动地确定一个分组方式,另外也提供了设定分组的方法。
![Page 41: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/41.jpg)
STATSTATSAS 软件与统计应用教程
2. 盒形图 盒形图( boxplot ,又称箱图、箱线图、盒子
图)是用更为简洁的方法表现数据在数轴上的分布及其特点的图形。 图 2-23 的左边是根据居民家庭的收入情况所绘的盒形图;右边是分地区情况所绘的盒形图。
![Page 42: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/42.jpg)
STATSTATSAS 软件与统计应用教程
3. 散点图 通常得到的数据可能有两个变量,比如家庭的收入和支出情况的数据,这里家庭总收入是一个变量,而家庭总支出是第二个变量。希望通过图形了解收入和支出的关系,这时可以用一个变量为横坐标(如家庭总收入),另一个为纵坐标(这里是家庭总支出)来作图(图 2-24 )。这种图称为散点图 (Scatter Plo
t) 。
![Page 43: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/43.jpg)
STATSTATSAS 软件与统计应用教程
4. 线图 线图 (Line Plot) 用来表示变量间的取值变化情况,
有单式和复式两种(图 2-25 )。 在复式线图中可用不同颜色的实线来标志区别,
如图 2-25 右所示。
![Page 44: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/44.jpg)
STATSTATSAS 软件与统计应用教程
2.3.2 分类变量的图形表示 分类变量也可以通过图形直观地描绘出它们各类
的数量和所占比例,常用的有条形图、饼图和马赛克图。
1. 条形图 条形图 (Bar Chart)给出分类变量取每个值的频数,
如图 2-26 所示为变量 R_ID 取值的条形图。
![Page 45: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/45.jpg)
STATSTATSAS 软件与统计应用教程
2. 饼图 通常,饼图 (Pie Chart) 可以对分类变量描述其频
数取值的比例,对于数值变量,则像直方图那样应先计算各区间取值的频数,再按比例画出。 图 2-27 中给出的是家庭支出分组频数的饼图。要注意的是,如果有太多的分组,那么饼图就不那么好看了。
![Page 46: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/46.jpg)
STATSTATSAS 软件与统计应用教程
3. 马赛克图 马赛克图 (Mosaic Plot) 一般不对单个变量作,而
是对两个分类变量来作。这种图的好处是直观显示了两个变量每种取值组合的观测个数和比例,如图 2-28
所示。
![Page 47: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/47.jpg)
STATSTATSAS 软件与统计应用教程
2.4 用 SAS绘制统计图形2.4.1 用 INSIGHT绘制统计图形2.4.2 用“分析家”绘制统计图形2.4.3 编程绘制统计图2.4.4 图形的调整与输出
![Page 48: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/48.jpg)
STATSTATSAS 软件与统计应用教程
2.4.1 用 INSIGHT绘制统计图形 INSIGHT模块可以画出多种统计图形,而且图形清晰、美观。
1. 绘制直方图 选择菜单“ Analyze (分析)”→“ Histogram/B
ar Chart (Y) (直方图 /条形图)”,打开“ Histogr
am/Bar Chart (Y)” 对话框。在数据集的变量列表中,选择变量,然后单击“ Y”按钮。
![Page 49: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/49.jpg)
STATSTATSAS 软件与统计应用教程
单击“ Output (输出)”按钮,在打开的对话框中选择“ Labels (标签)”选项,如图所示,以便输出的图形显示中文标签名。单击“ OK”按钮返回对话框。
![Page 50: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/50.jpg)
STATSTATSAS 软件与统计应用教程
单击“ OK”按钮,即可得到直方图如图 2-30 左所示。 单击图形框左下角处的三角形,在打开的菜单中选择“ Values (值)”,即可在图中显示频数值,如图 2-30 右所示。
![Page 51: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/51.jpg)
STATSTATSAS 软件与统计应用教程
2. 绘制条形图 INSIGHT模块对分类变量绘制条形图。首先单击
R_Id 变量名上边的变量作用按钮,在弹出的菜单中选择“ Nominal (列名型)”,如图左所示。 选择菜单 “ Analyze”→“Histogram/Bar Chart
(Y)” ,打开“ Histogram/Bar Chart (Y)” 对话框。在数据集的变量列表中选择变量,然后单击“ Y”按钮,如图右所示。
![Page 52: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/52.jpg)
STATSTATSAS 软件与统计应用教程
单击“ Output (输出)”按钮,在打开的对话框中选择“ Labels (标签)”选项,单击“ OK”按钮返回对话框。 单击“ OK”按钮,即可得到条形图如图 2-34 左
所示。如果选择 Income_freq (见 2.2.2节)作为分析变量,则可以得到图 2-34 右所示的条形图。
![Page 53: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/53.jpg)
STATSTATSAS 软件与统计应用教程
3. 绘制盒形图 选择菜单 “ Analyze”→“Box Plot/Mosaic Plot
(Y)” ,可以对区间型变量作盒形图,对分类型变量作马赛克图。打开“ Box Plot/Mosaic Plot (Y)” 对话框。在数据表 sryzc 的变量列表中,选择 income 变量,然后单击“ Y”按钮, income 变量被选定,如图左所示。 单击“ Output” 按钮,在打开的对话框中选择
“ Labels”选项,取消“ Y Axis Vertical” 如图右所示。
![Page 54: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/54.jpg)
STATSTATSAS 软件与统计应用教程
单击“ OK”按钮,即可得到盒形图如图 2-36 左所示。
![Page 55: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/55.jpg)
STATSTATSAS 软件与统计应用教程
在“ Box Plot/Mosaic Plot (Y)” 对话框中选定多个分析变量,可以将多个盒形图画在一个坐标系下,这样便于比较变量的取值情况,如图所示。
图形分析:从图中可以看到支出数据在均值两边的分布近似对称,说明低于和高于平均支出的家庭几乎各占一半;收入数据的二分之一分位数在均值的左边,说明大部分人的收入低于平均收入。另外, 10
号家庭的收入是一个极端值,它不具有代表性。
![Page 56: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/56.jpg)
STATSTATSAS 软件与统计应用教程
4. 绘制马赛克图 选择“ Analyze (分析)”→“ Box Plot/Mosaic
Plot (Y) (盒形图 /马赛克图)”命令,可以对分类变量作马赛克图。下面以 2.2.2 中修改过的数据集 sry
zc 为例,作出 R_Id 变量和 Income_freq 变量的马赛克图。
![Page 57: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/57.jpg)
STATSTATSAS 软件与统计应用教程
4. 绘制马赛克图首先将 R_Id 变量改为“列名型”(参见图 2-33
左)。 选择菜单“ Analyze (分析)”→“ Box Plot/Mo
saic Plot (Y) (盒形图 /马赛克图)”,打开“ Box P
lot/Mosaic Plot (Y)” 对话框。在数据集 sryzc 的变量列表中,选择 R_Id 变量,然后单击“ Y”按钮, R_
Id 变量被选定,单击“ OK”按钮,得到结果如图 2-
38 所示。
![Page 58: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/58.jpg)
STATSTATSAS 软件与统计应用教程
5. 绘制散点图 选择菜单“ Analyze”→“Scatter Plot (Y X)” ,打
开“ Scatter Plot (Y X)” 对话框。在变量列表中,选择 Income ,单击“ Y”按钮, Income 变量被选定为Y轴变量,选择 Outgo ,单击“ X”按钮, Outgo 变量被选定为 X轴变量,如图左所示。 单击“ OK”按钮,即可得到散点图如图右所示。
可以看出收入与支出有一定的线性相关关系。
![Page 59: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/59.jpg)
STATSTATSAS 软件与统计应用教程
在数据集窗口选中所有 1号地区的观测号,图 2-4
0 是在散点图中区分两个地区的情况,细点为 2号地区,粗点为 1号地区。从该图可以看出 1号地区比 2
号地区在收入和支出水平上都要高出许多。
![Page 60: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/60.jpg)
STATSTATSAS 软件与统计应用教程
6. 绘制线图 选择菜单“ Analyze (分析)”→“ Line Plot (Y
X) (分布)”,打开“ Line Plot (Y X)” 对话框。在数据集 sryzc 的变量列表中,选择 ID 变量,单击“ X”按钮, ID 变量被选定为 X轴,然后选择 Inco
me 变量,单击“ Y”按钮,如图左所示。单击“ O
K”按钮,即可得到线图如图右所示。
![Page 61: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/61.jpg)
STATSTATSAS 软件与统计应用教程
若在“ Line Plot (Y X)” 对话框中,将 ID 变量选定为 X 轴,选择 Income 变量和 Outgo 变量,单击“ Y”按钮。单击“ Output (输出)”按钮,在打开的对话框中选择“ Labels (标签)”选项,如图左所示,以便输出的图形显示中文标签名。两次单击“ OK” 按钮,得到关于 Income 变量和 Outgo 变量的复式线图(图右)。
![Page 62: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/62.jpg)
STATSTATSAS 软件与统计应用教程
2.4.2 用“分析家”绘制统计图形
1. 绘制饼图 在“分析家”中打开数据集 mylib.sryzc 。 选择主菜单“ Graphs”→“Pie Chart” ,打开“ Pi
e Chart” 对话框,选择变量列表中的 Income ,单击“ Chart”按钮,选定分析变量,如图左所示。所得饼图如图右所示。
![Page 63: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/63.jpg)
STATSTATSAS 软件与统计应用教程
2. 绘制条形图 选择主菜单“ Graphs”→“Bar Chart”→“Horizon
tal” ,打开“ Horizontal Bar Chart” 对话框,选择变量列表中的 INCOME ,单击“ Chart” 按钮,选定分析变量,选择 R_ID 变量,单击“ Stack By”按钮,再选中 3-D选项,如图左所示。单击“ OK”按钮,得到水平条形图,如图右所示。
![Page 64: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/64.jpg)
STATSTATSAS 软件与统计应用教程
2.4.3 编程绘制统计图 SAS 可以把存贮在 SAS 数据集中的数据以图形的
方式形象直观地显示出来。在 SAS/GRAPH 模块的支持下, SAS 可以作散点图、曲线图、直方图、扇形图、三维曲面图、等高线图、地图,等等。
![Page 65: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/65.jpg)
STATSTATSAS 软件与统计应用教程
1. GCHART过程(1) 语法格式 GCHART 过程用于绘制直方图、饼形图(扇形
图)、三维直方图等表示变量分布的图形。其语法格式为:
PROC GCHART DATA = <数据集名 >; <图形关键字 > <变量名称 >/< 选项列表 >RUN;
![Page 66: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/66.jpg)
STATSTATSAS 软件与统计应用教程
GCHART过程可以使用的图形关键字及其所绘制的图形类型见表 2-5 。
图形关键字后的变量名用以指定进行图形描述时的分组变量,可以是数值型的(此时以各组的组中值为分组的标志),也可以是字符型的。
图形关键字 绘制的图形类型 图形关键字 绘制的图形类型block 方块图 pie 饼形图hbar 水平的条形图 pie3d 三维饼形图hbar3d 水平的三维条形图 donut 环形图vbar 竖立的条形图 star 星形图vbar3d 竖立的三维条形图
![Page 67: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/67.jpg)
STATSTATSAS 软件与统计应用教程
选项比较重要的有: TYPE = 统计量关键字,表示以图形对变量( SU
MVAR 所指定的变量)的哪一种统计量进行描述,比如频数( FREQ )、均数( MEAN )、总计( S
UM )、频数百分比( PCTN )等; SUBGROUP = 变量名(分组变量),指定要进行
分组(各组段内再分组)的变量; SUMVAR = 变量名(数值变量),指定要进行统
计计算的变量,也就是“ TYPE = 统计量关键字”选项中统计量的计算所依据的变量。
![Page 68: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/68.jpg)
STATSTATSAS 软件与统计应用教程
(2) 画条形图(直方图) 使用 VBAR 关键字可以画条形图。例如,画出数
据集 Mylib.sryzc 中 Income 变量的条形图的代码如下:proc gchart data = mylib.sryzc;
vbar Income;
run;
结果如图所示。
![Page 69: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/69.jpg)
STATSTATSAS 软件与统计应用教程
其中绘图用的变量用 VBAR语句给出,如果把 V
BAR改成 HBAR 则条形方向变为横向。用 GCHAR
T绘制的条形图和在 INSIGHT 中绘制的直方图有所不同,它在横轴标的是区间的中点值,而在 INSIGH
T 中横轴标的是区间的端点值。 可以指定分组的变量,例如在每个区段内再分段,
可以用如下代码:proc gchart data = mylib.sryzc;
vbar Income / subgroup = R_Id;
run;
结果如图所示。
![Page 70: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/70.jpg)
STATSTATSAS 软件与统计应用教程
(3) 画三维条形图 使用 BLOCK 关键字可以画三维条形图。例如,
画出数据集 mylib.sryzc 中 Income 变量的三维条形图的代码如下:
proc gchart data = mylib.sryzc;
block Income/ group = R_Id;
run;
结果如图所示。
![Page 71: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/71.jpg)
STATSTATSAS 软件与统计应用教程
(4) 画饼形图 使用 PIE 关键字可以画饼形图, PIE3D 关键字可
以画三维饼形图。例如,画出数据集 mylib.sryzc 中 I
ncome 变量的三维饼形图的代码如下:proc gchart data = mylib.sryzc;
PIE3D Income;
run;
结果如图所示。
![Page 72: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/72.jpg)
STATSTATSAS 软件与统计应用教程
2. 使用 GPLOT过程绘制散点图和连线图 通常用散点图和连线图可以表示: ● 一个变量随另一个变量的变化; ● 变量之间的关系; ● 数据值的分布。(1) GPLOT过程的一般格式
PROC GPLOT DATA = < 数据集名 >;
PLOT <纵轴变量 > * <横轴变量 > [= < 变量 >][/<选项>];
[SYMBOLn <选项 >;]
RUN ;
常用的选项见表 2-6 。
![Page 73: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/73.jpg)
STATSTATSAS 软件与统计应用教程
表 2-6 PLOT 语句的选项
选项 意义 说明FRAM | NOFRAM 在图形四周加入或不加入边框 缺省为加入CFRAM = 颜色 边框内的颜色 缺省为白色AUTOHREF(AUTOVEREF)
在水平 ( 垂直 ) 轴的每个主刻度处加入水平 ( 垂直 ) 参考线
NOAXIS 取消坐标轴及相关的图形元素
CAXIS = 颜色 设定轴的颜色
CTEXT = 颜色 设定与轴相关字符的颜色
HAXIS = 值列举 设定水平轴主刻度的值
VAXIS = 值列举 设定垂直轴主刻度的值
![Page 74: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/74.jpg)
STATSTATSAS 软件与统计应用教程
SYMBOL语句用来控制表示点的符号和点间的连线。其中 n 是不同 SYMBOL语句的序号,可以是 1-
99 ,缺省为 1 。选项见表 2-7 。表 2-7 SYMBOL 语句的选项
选项 意义 取值V = 符号 表示点使用的符号 plus, x, star, square, diamond, triangle,
hash, y, z, paw, point, dot, circle
C = 颜色 表示点的符号及连线的颜色 black, red, green, blue, cyan, magenta, gray, pink, orange, brown, yellow
CV = 颜色 专指点的符号的颜色
H = n< 单位 > 指名符号的大小 单位有: cell, cm, pct, pt, inPOINTLABEL 在点的附近表明 Y 轴变量的值
i = 连线方式 指明连线的方式 none, join, spline, needleCI = 颜色 专指连线的颜色
L = n n 为线型的序号 0 – 空白线, 1 - 实线, 2 – 虚线 W = n n 表示线的宽度
![Page 75: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/75.jpg)
STATSTATSAS 软件与统计应用教程
(2) 散点图 绘制家庭总收入对家庭总支出的散点图,代码如
下:proc gplot data = mylib.sryzc;
plot Income*outgo;
run;
结果显示了一个 GRAPHICS窗口,绘出了以 Inc
ome 为纵轴、以 Outgo 为横轴的散点图(见图)。
![Page 76: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/76.jpg)
STATSTATSAS 软件与统计应用教程
可以在图中按第三个变量分组画出散点图(如图2-48 右),代码如下:
proc gplot data = mylib.sryzc;
plot Income*outgo = r_id;
symbol1 color=black v = star;
symbol2 color=blue v = dot;
run;
![Page 77: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/77.jpg)
STATSTATSAS 软件与统计应用教程
(3) 连线图 为了绘制连线,只要在 SYMBOL语句中指定 i =
join 。例如绘制家庭总收入对家庭编号的连线图(图2-49 左),代码如下:
proc gplot data = mylib.sryzc;
plot Income*id;
symbol i=join v=star;
run;
![Page 78: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/78.jpg)
STATSTATSAS 软件与统计应用教程
也可以分地区绘制家庭总收入对家庭编号的连线图(图 2-49 右),代码如下:
proc gplot data = mylib.sryzc;
plot Income*id=r_id;
symbol1 color=black i=join v = star;
symbol2 color=blue i=join v = dot;
run;
![Page 79: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/79.jpg)
STATSTATSAS 软件与统计应用教程
2.4.4 图形的调整与输出 在图形中也可以用 TITLE语句和 FOOTNOTE语句给图形加标题和脚注。 还可以在图形的标题、标签中使用 TrueType 字型
的汉字,例如:goptions ftext=" 宋体 " htitle=4 cells htext=3 cells;
proc gplot data=sasuser.class;
title " 试验 SAS 图形的汉字功能 ";
symbol i=none v=square;
plot weight*height;
label weight=" 体重 " height=" 身高 ";
run;
输出结果见图。其中 GOPTIONS 中的 FTEXT选项指定图形中文本的字体。
![Page 80: 第二章 SAS 的描述统计功能](https://reader033.vdocuments.mx/reader033/viewer/2022061411/568145ae550346895db2aa08/html5/thumbnails/80.jpg)
STATSTATSAS 软件与统计应用教程
为了把 GRAPH绘制的图形保存为兼容的图形文件,只要在显示某一页图形输出时,选“ File-Expor
t”菜单,在出现的输入文件名的窗口选择适当的文件类型,如 BMP 、 WMF 、 JPEG 、 PS ,等等。 要打印 GRAPH生成的图形,只要选“ File-Prin
t” 。这样用 Windows 的打印驱动程序与 SAS/GRAP
H 的图形驱动配合来打印。另外, SAS/GRAPH 模块还提供了许多种打印机的独立的驱动程序,可以不依赖于 Windows 的打印驱动,具体请参考有关资料或帮助。