r 语言 在南京市 大学生幸福感 统计分析上的应用

21
R R 语语 语语 在在在在 在在在在 在在在在在在 在在在在在在 在在在在在在在 在在在在在在在 在在在在在在 在在 2006 在

Upload: afric

Post on 06-Jan-2016

102 views

Category:

Documents


0 download

DESCRIPTION

R 语言 在南京市 大学生幸福感 统计分析上的应用. 詹 鹏 (南京财经大学统计系 2006 级). —— 主要内容 ——. 背景 描述性分析 相关系数和回归分析 方差分析 R 的使用感受. 关于 R 语言的使用体会. 1 、应用范围广:在统计学领域, R 软件能够应用于描述性分析、参数估计、假设检验、回归分析等等。 2 、语句简单: 用户不仅可以根据自己的需要选择需要输出的变量以及变量输出的方式或形式,而且可以根据数据结构的不同灵活地选择处理方法,大大减小工作量。 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: R 语言 在南京市 大学生幸福感 统计分析上的应用

RR 语言语言在南京市在南京市大学生幸福感大学生幸福感统计分析上的应用统计分析上的应用

詹 鹏(南京财经大学统计系 2006 级)

Page 2: R 语言 在南京市 大学生幸福感 统计分析上的应用

———— 主要内容——主要内容—— 背景背景 描述性分析描述性分析 相关系数和回归分析相关系数和回归分析 方差分析方差分析 RR 的使用感受的使用感受

Page 3: R 语言 在南京市 大学生幸福感 统计分析上的应用

关于关于 RR 语言的使用体会语言的使用体会 11 、应用范围广:在统计学领域,、应用范围广:在统计学领域, RR 软件能够应用于描述性分析、参软件能够应用于描述性分析、参数估计、假设检验、回归分析等等。数估计、假设检验、回归分析等等。

22 、语句简单:、语句简单:用户不仅可以根据自己的需要选择需要输出的变量以用户不仅可以根据自己的需要选择需要输出的变量以及变量输出的方式或形式,而且可以根据数据结构的不同灵活地选择处理及变量输出的方式或形式,而且可以根据数据结构的不同灵活地选择处理方法,大大减小工作量。方法,大大减小工作量。

33 、由于本文研究内容的限制,这里并没有体现、由于本文研究内容的限制,这里并没有体现 RR 在图形展示方面的在图形展示方面的强大功能。但从使用强大功能。但从使用 plot()plot() 、、 boxplot()boxplot() 等作图函数中也能感觉到其在等作图函数中也能感觉到其在作图上的简便。作图上的简便。

Page 4: R 语言 在南京市 大学生幸福感 统计分析上的应用

非常感谢!非常感谢!

Page 5: R 语言 在南京市 大学生幸福感 统计分析上的应用

背 景背 景 今年我们正在做一个 2008 年江苏省高等学校大学生实践创新训练计划立项项目,它是有关大学生幸福指数方面的课题,目前进入中期阶段,调查数据已搜集完成,面临大量数据的处理和统计分析,鉴于世界最著名的统计软件之一的 R语言强大的统计功能,加之个人兴趣,故选择其作为统计分析工具。 对于幸福指数的测量,我们以总体幸福感量表(修订后)测量得到的值为依据。经过一个月的调查,我们得到 1091 份有效问卷,其中 A卷 337 份, B卷 377 份, C卷 387 份。

Page 6: R 语言 在南京市 大学生幸福感 统计分析上的应用

描述性分析描述性分析

问卷问卷 各项目各项目

AA 卷卷 幸福指幸福指数得分数得分 基本变量基本变量 不幸福的来源、不幸福的来源、

幸福的来源 幸福的来源 幸福感幸福感

自评分数自评分数交际、交际、学校 学校         

BB 卷卷 幸福指幸福指数得分数得分 基本变量基本变量          孤独感、孤独感、

应对方式应对方式      

CC 卷卷 幸福指幸福指数得分数得分 基本变量基本变量             家庭 家庭 自信心自信心

数据数目数据数目

本文涉及到的描述性分析包括以下几个方面:本文涉及到的描述性分析包括以下几个方面: 总体幸福感状况分析——幸福指数测量值分析,幸福指数自评值分析; 幸福和不幸福的来源分析; 基本变量对幸福指数的影响情况分析; 外在因素对幸福指数的影响分析; 内在因素对幸福指数的影响分析等。数据结构:数据结构:

Page 7: R 语言 在南京市 大学生幸福感 统计分析上的应用

RR 程序 结果程序 结果

mean(x), sd(x) 样本平均值 66.15 样本标准差 9.36

hist(x)

density(x)

dnorm(x,mean(x),sd(x))

直方图、样本拟合曲线、正态曲线

shapiro.test() 经正态检验,样本数据不服从正态分布

———— 幸福指数测量值分析——幸福指数测量值分析——

Page 8: R 语言 在南京市 大学生幸福感 统计分析上的应用

data2a<-read.delim(“E:/data/data2a.txt”);data2a<-read.delim(“E:/data/data2a.txt”); ## 导入导入 txttxt 文档中的数据文档中的数据## ----------------------------------------------------------------------------------------------------------------y<-data2a[1:7];yy<-data2a[8]y<-data2a[1:7];yy<-data2a[8] ## 分别抽出变量值和相应幸福指数得分分别抽出变量值和相应幸福指数得分yy.tr<-matrix(rep(yy,7),nrow=length(yy))yy.tr<-matrix(rep(yy,7),nrow=length(yy))yc<-y*yy.tryc<-y*yy.tr ## 将将 11 换成相应位置的幸福指数值换成相应位置的幸福指数值NNAA->yc[yc==0]->yc[yc==0] ## 将将 00 换成空值换成空值 NANAresult1.2a<-apply(yc,2,function(yc) c("result1.2a<-apply(yc,2,function(yc) c(" 人数人数 "=length(yc[!is.na(yc)]),"=length(yc[!is.na(yc)]), "" 比例比例 (%)"=length(yc[!is.na(yc)])/337*100,(%)"=length(yc[!is.na(yc)])/337*100, "" 均值均值 "=mean(yc[!is.na(yc)]),"=mean(yc[!is.na(yc)]), "" 标准差标准差 "=sd(yc[!is.na(yc)]) ))"=sd(yc[!is.na(yc)]) ))result1.2aresult1.2a

以计算“不幸福”的来源为例,有如下 R 语言程序:

———— 幸福和不幸福的来源分析幸福和不幸福的来源分析————

> result1.2a #> result1.2a # 让自己感觉“不幸福”的来源让自己感觉“不幸福”的来源 AA 亲情 亲情 BB 友情 友情 CC 爱情 爱情 DD 学习工作 学习工作 EE 身体素质 身体素质 FF 个人能力形象 个人能力形象 GG 其其它它人数 人数 35.0000 38.0000 55.0000 35.0000 38.0000 55.0000 181.0000 181.0000 51.0000 102.0000 93.0000 51.0000 102.0000 93.0000比例比例 (%) 10.3858 11.2760 16.3205 53.7092 15.1335 30.2671 27.5964(%) 10.3858 11.2760 16.3205 53.7092 15.1335 30.2671 27.5964均值 均值 65.9048 62.1345 65.6566 64.7882 65.0327 63.4532 65.9048 62.1345 65.6566 64.7882 65.0327 63.4532 68.793368.7933标准差 标准差 11.1495 10.2858 10.7817 10.0098 10.5768 10.7282 9.021711.1495 10.2858 10.7817 10.0098 10.5768 10.7282 9.0217

Page 9: R 语言 在南京市 大学生幸福感 统计分析上的应用

> result1.2b # 让自己感觉“幸福”的来源 A 亲情 B 友情 C 爱情 D 学习工作 E 身体素质 F 个人能力形象 G其它人数 221.0000 181.0000 62.0000 74.0000 24.0000 41.0000 30.0000比例 (%) 65.5786 53.7092 18.3976 21.9585 7.1217 12.1662 8.9021均值 66.0332 67.0289 65.5556 66.0961 66.7593 65.6098 65.3333标准差 9.9393 10.0635 8.8249 11.4754 12.5319 12.4076 10.0378

同理可得“幸福”的来源汇总表:

———— 幸福和不幸福的来源分析幸福和不幸福的来源分析————

我们不难发现,在让自己感觉不幸福的来源中有 181位同学( 53.7%)选择了“学习工作”“学习工作”,其次是“个人能力形象”“个人能力形象”( 30.27%)和“其他”“其他”( 27.60%)因素。而来自亲情( 10.39%)、友情( 11.28%)、爱情( 16.32%)方面的不幸福相对比较少。从让自己幸福的方面, 221 人( 65.58%)选择了“亲情”“亲情”, 181 人( 53.7%)选择了“友情”“友情”。而选择“学习工作”和“个人能力形象”的人数比较低,分别为 74人( 21.96%)和 41 人( 12.17%)。

Page 10: R 语言 在南京市 大学生幸福感 统计分析上的应用

———— 基本变量对幸福指数的影响——基本变量对幸福指数的影响——基本信息基本信息 水平水平 人数人数 均值均值 标准差标准差 基本信息基本信息 水平水平 人数人数 均值均值 标准差标准差

性别性别 男男 548548 66.59 66.59 9.51 9.51 学校学校 南大南大 239239 67.8567.85 9.32 9.32

女女 543543 65.70 65.70 9.20 9.20 东南东南 211211 65.67 65.67 9.08 9.08

家庭家庭 大城市大城市 319319 67.60 67.60 10.19 10.19 南师南师 139139 65.36 65.36 8.95 8.95

城镇城镇 360360 65.81 65.81 9.23 9.23 南理南理 209209 66.13 66.13 10.10 10.10

农村农村 412412 65.32 65.32 8.69 8.69 南财南财 184184 65.59 65.59 9.44 9.44

兄弟姐妹兄弟姐妹 独生独生 659659 66.5166.51 9.57 9.57 南工院南工院 109109 65.33 65.33 8.64 8.64

老大老大 211211 65.8765.87 8.93 8.93 年级年级 08 08 级级 347347 68.24 68.24 9.81 9.81

老小老小 174174 64.9664.96 8.78 8.78 07 07 级级 342342 65.92 65.92 9.11 9.11

其他其他 4747 66.81 66.81 10.33 10.33 06 06 级级 275275 64.31 64.31 8.83 8.83

消费消费 (0,400)(0,400) 7979 66.13 66.13 8.80 8.80 05 05 级级 124124 65.07 65.07 8.98 8.98

(400,600)(400,600) 342342 65.49 65.49 8.82 8.82 性格性格 外向外向 156156 62.61 62.61 10.15 10.15

(600,800)(600,800) 369369 66.58 66.58 9.49 9.49 内向内向 150150 69.79 69.79 9.71 9.71

(800,1200(800,1200))

263263 66.84 66.84 9.57 9.57 混合混合 769769 66.13 66.13 8.91 8.91

(1200,…)(1200,…) 3838 63.13 63.13 11.91 11.91 其他其他 1616 67.15 67.15 6.65 6.65

Page 11: R 语言 在南京市 大学生幸福感 统计分析上的应用

———— 外在因素对幸福指数的影响——外在因素对幸福指数的影响——

data3<-read.table("E:/data/data3.txt",header=TRUE)data3<-read.table("E:/data/data3.txt",header=TRUE)index1<-data3[14];index1<-data3[14];old<-par(mfrow=c(2,3)) old<-par(mfrow=c(2,3)) ## 生成 生成 2 2 行 行 3 3 列的空图像框列的空图像框 t<-data3[1];t<-data3[1]; x111<-index1[t[]==1];x111<-index1[t[]==1]; x112<-index1[t[]==2];x112<-index1[t[]==2]; x113<-index1[t[]==3];x113<-index1[t[]==3];boxplot(x111,x112,x113,xlab="boxplot(x111,x112,x113,xlab=" 各水平各水平 ",ylab="",ylab=" 指数值指数值 ",main="",main=" 恋爱时的快乐恋爱时的快乐感感 ")") …… …… ## 计算过程与以上五行类似计算过程与以上五行类似par(old)par(old)

使用函数使用函数 boxplot()boxplot() 得到的箱线图,可以让我们直观地看出每得到的箱线图,可以让我们直观地看出每个因素各水平间幸福指数的差异,程序如下:个因素各水平间幸福指数的差异,程序如下:

Page 12: R 语言 在南京市 大学生幸福感 统计分析上的应用

———— 外在因素对幸福指数的影响——外在因素对幸福指数的影响——

Page 13: R 语言 在南京市 大学生幸福感 统计分析上的应用

———— 内在因素对幸福指数的影响——内在因素对幸福指数的影响——使用使用 plot()plot() 函数,我们可以得到相应的散点图,程序如下:函数,我们可以得到相应的散点图,程序如下:

data41<-read.table(“E:/data/data41.txt”,header=TRUE) data41<-read.table(“E:/data/data41.txt”,header=TRUE) ## 导入孤独感、应对方式的数据(导入孤独感、应对方式的数据( 383877 ))data42<-read.table(“E:/data/data42.txt”,header=TRUE) data42<-read.table(“E:/data/data42.txt”,header=TRUE) ## 导入自信心的数据(导入自信心的数据( 377377 ))index1<-data41[1]; index1<-t(index1); index1<-data41[1]; index1<-t(index1); ## 提取提取 BB 卷中幸福指数得分卷中幸福指数得分 lonely<-data41[2]; lonely<-t(lonely); lonely<-data41[2]; lonely<-t(lonely); ## 提取提取孤独感孤独感得分得分 pos<-data41[3]; pos<-t(pos); pos<-data41[3]; pos<-t(pos); ## 提取提取积极应对积极应对得分得分 nag<-data41[4]; nag<-t(nag); nag<-data41[4]; nag<-t(nag); ## 提取提取消极应对消极应对得分得分index2<-data42[1]; index2<-t(index2); index2<-data42[1]; index2<-t(index2); ## 提取提取 CC 卷中幸福指数得分卷中幸福指数得分 conf<-data42[2]; conf<-t(conf); conf<-data42[2]; conf<-t(conf); ## 提取提取自信心自信心得分得分

old<-par(mfrow=c(2,2))old<-par(mfrow=c(2,2))plot(lonely,index1,xlab="plot(lonely,index1,xlab=" 孤独孤独 ",ylab="",ylab=" 幸福指数幸福指数 ",main="",main=" 散点图:孤独与幸福指数散点图:孤独与幸福指数 ")")plot(pos,index1,xlab="plot(pos,index1,xlab=" 积极应对积极应对 ",ylab="",ylab=" 幸福指数幸福指数 ",main="",main=" 散点图:积极应对与幸福指数散点图:积极应对与幸福指数 ")")plot(nag,index1,xlab="plot(nag,index1,xlab=" 消极应对消极应对 ",ylab="",ylab=" 幸福指数幸福指数 ",main="",main=" 散点图:消极应对与幸福指数散点图:消极应对与幸福指数 ")")plot(conf,index2,xlab="plot(conf,index2,xlab=" 自信心自信心 ",ylab="",ylab=" 幸福指数幸福指数 ",main="",main=" 散点图:自信心与幸福指数散点图:自信心与幸福指数 ")")par(old)par(old)

Page 14: R 语言 在南京市 大学生幸福感 统计分析上的应用

———— 内在因素对幸福指数的影响——内在因素对幸福指数的影响——使用使用 plot()plot() 函数,我们可以得到相应的散点图,图形如下:函数,我们可以得到相应的散点图,图形如下:

Page 15: R 语言 在南京市 大学生幸福感 统计分析上的应用

相关系数分析相关系数分析 从内因的直观分析中,我们可以猜测四个因素从内因的直观分析中,我们可以猜测四个因素与幸福指数之间存在相关性,但我们的证据并不充分。与幸福指数之间存在相关性,但我们的证据并不充分。使用使用 RR 软件的函数 软件的函数 cor.test()cor.test() 将幸福指数分别与孤独将幸福指数分别与孤独感、自信心、积极应对和消极应对做相关性检验,可感、自信心、积极应对和消极应对做相关性检验,可以得到相应的检验结果。以得到相应的检验结果。

相关系数区间估计相关系数区间估计 自由度自由度 TT 值值 PP 值值

孤独感孤独感 [-0.5274 -0.3660][-0.5274 -0.3660] 375375 -9.7682-9.7682 < 2.2e-16< 2.2e-16

自信心自信心 [0.3226 0.4889][0.3226 0.4889] 385385 8.79768.7976 < 2.2e-16< 2.2e-16

积极应对积极应对 [0.2154 0.3982] [0.2154 0.3982] 375375 6.30686.3068 8.02e-108.02e-10

消极应对消极应对 [-0.2408 -0.0429][-0.2408 -0.0429] 375375 -2.8030-2.8030 0.0053260.005326

对各因素与幸福指数做相关性检验的对各因素与幸福指数做相关性检验的 PP值均小于值均小于0.010.01 ,所以我们可以认为各内在因素与幸福指数之间,所以我们可以认为各内在因素与幸福指数之间存在显著的相关性。存在显著的相关性。

Page 16: R 语言 在南京市 大学生幸福感 统计分析上的应用

回归分析回归分析 在 R软件中,有一系列与线性模型有关的函数,如常用的 lm(), summary(), anova(), predict() 等。另外 plot() 、abline() 等函数可以得到相应的散点图和回归曲线。

data41<-read.table("E:/data/data41.txt",header=TRUE)data41<-read.table("E:/data/data41.txt",header=TRUE)data42<-read.table("E:/data/data42.txt",header=TRUE)data42<-read.table("E:/data/data42.txt",header=TRUE)index1<-data41[1]; index1<-t(index1);index1<-data41[1]; index1<-t(index1);lonely<-data41[2]; lonely<-t(lonely);lonely<-data41[2]; lonely<-t(lonely);y<-as.numeric(index1);x<-as.numeric(lonely)y<-as.numeric(index1);x<-as.numeric(lonely)lm.lonely<-lm.lonely<-lmlm(y~1+x) #(y~1+x) # 进行回归分析进行回归分析a<-lm.lonely$coefficients[1]a<-lm.lonely$coefficients[1]b<-lm.lonely$coefficients[2]b<-lm.lonely$coefficients[2]plot(lonely,index1,xlab="plot(lonely,index1,xlab=" 孤独孤独 ",ylab="",ylab=" 幸福指数幸福指数 ",main="",main=" 散点图:孤独与幸福指散点图:孤独与幸福指数数 ")")summarysummary(lm.lonely)(lm.lonely)ablineabline(lm.lonely) #(lm.lonely) # 或者 或者 ablineabline(a,b) #(a,b) # 添加回归后的拟合曲线添加回归后的拟合曲线

以对孤独感为例的程序:

Page 17: R 语言 在南京市 大学生幸福感 统计分析上的应用

回归分析回归分析 ——回归后得到的结果——Call:Call:lm(formula = y ~ 1 + x)lm(formula = y ~ 1 + x)

Residuals:Residuals: Min 1Q Median 3Q Max Min 1Q Median 3Q Max -37.1067 -4.9312 0.8113 6.2266 21.8757 -37.1067 -4.9312 0.8113 6.2266 21.8757

Coefficients:Coefficients: Estimate Std. Error t value Pr(>|t|) Estimate Std. Error t value Pr(>|t|) (Intercept) 76.4162 1.1980 63.788 <2e-16 ***(Intercept) 76.4162 1.1980 63.788 <2e-16 ***x -1.1578 0.1185 -9.768 <2e-16 ***x -1.1578 0.1185 -9.768 <2e-16 ***------Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 8.919 on 375 degrees of freedomResidual standard error: 8.919 on 375 degrees of freedomMultiple R-squared: 0.2028, Adjusted R-squared: 0.2007 Multiple R-squared: 0.2028, Adjusted R-squared: 0.2007 F-statistic: 95.42 on 1 and 375 DF, p-value: < 2.2e-16 F-statistic: 95.42 on 1 and 375 DF, p-value: < 2.2e-16

Page 18: R 语言 在南京市 大学生幸福感 统计分析上的应用

回归分析回归分析 同理可以得到其他内在因素的回归结果,其主要参数如下表所示

截距截距 P-valueP-value 参数参数 P-valueP-value 残差残差标准差标准差

调整后的调整后的决定系数决定系数 FF 统计量统计量 P-valueP-value

孤独感孤独感 76.416276.4162 <2e-16<2e-16 -1.1578-1.1578 <2e-16 <2e-16 8.9198.919 0.20280.2028 95.4295.42 < 2.2e-16< 2.2e-16

自信心自信心 51.624751.6247 <2e-16 <2e-16 0.79400.7940 <2e-16 <2e-16 8.1388.138 0.16740.1674 77.4077.40 < 2.2e-16 < 2.2e-16

积极应对积极应对 53.538553.5385 < 2e-16 < 2e-16 0.52220.5222 8.02e-108.02e-10 9.4989.498 0.09590.0959 39.7839.78 8.02e-108.02e-10

消极应对消极应对 68.891668.8916 < 2e-16< 2e-16 -0.3308-0.3308 0.00530.0053 9.8869.886 0.02050.0205 7.867.86 0.00530.0053

从回归结果可见,四个因素对幸福指数都有非常显著的影响。其中,从回归结果可见,四个因素对幸福指数都有非常显著的影响。其中,孤独感的参数值绝对值最大,说明其对幸福指数的影响幅度最大。其次孤独感的参数值绝对值最大,说明其对幸福指数的影响幅度最大。其次是自信心和积极应对,而消极应对对幸福指数影响的幅度较小。采用积是自信心和积极应对,而消极应对对幸福指数影响的幅度较小。采用积极的应对方式的学生幸福感较高极的应对方式的学生幸福感较高 ,, 因为采取积极的应对方式有助于建立因为采取积极的应对方式有助于建立一个关系网络一个关系网络 ,, 有利于社会支持的获得有利于社会支持的获得 ,, 从而可以获得较多的帮助和体从而可以获得较多的帮助和体验更多的生活满意度。验更多的生活满意度。

Page 19: R 语言 在南京市 大学生幸福感 统计分析上的应用

方差分析方差分析 —— —— 方差分析的前提——方差分析的前提——要进行方差分析,应当具备以下三个条件:

( 1)可加性,假设模型是线性可加模型,对每个处理效应与随机误差是可以叠加的;

( 2)独立正态性,实验误差应当服从正态分布,而且相互独立;

( 3)方差齐性,不同处理间的方差是一致的。

基于 R语言命令行的使用方式,我们可以按照以下步骤自编一个小函数解决方差问题

Page 20: R 语言 在南京市 大学生幸福感 统计分析上的应用

函数 whole.aov()

Page 21: R 语言 在南京市 大学生幸福感 统计分析上的应用

方差分析方差分析

性别性别 年级年级 学校学校 家庭家庭 兄弟姐妹兄弟姐妹 消费消费 性格性格PP 值值 0.20860.2086 0.00000.0000 0.05200.0520 0.00120.0012 0.11750.1175 0.12810.1281 0.00000.0000

以基本变量基本变量与幸福指数的分析结果为例得到每个变量的 P值如下:

表中显示,性别的 P值( 0.2086 )大于 0.1 ,所以我们不能拒绝 H0,即性别之间的幸福指数不存在明显的差异。这个结论与国内学者何瑛和温翠红的结论相似,而与于静华的结论相反。在于静华的分析结论中,女性的幸福指数显著地高于男性。 从上表我们还可以知道,学校、兄弟姐妹、月消费没有对幸福指数的影响不显著( P>0.05 );年级和性格对幸福指数的影响较大。国内学者何瑛与李景华也认为年级别显著影响大学生主观幸福感。但二人结论不同 ,何瑛认为一、二、三年级大学生总体幸福感呈下降趋势,到四年级略有上升;李景华研究认为,一、二年级大学生主观幸福感相比 ,二年级大学生主观幸福感更高。结合描述性分析的结果看,南京市大学生大学生幸福指数的状况更与何瑛的研究结论相符合。