univariate sbe 20080424 - hnuwolfpack.hnu.ac.kr/spring2008/s4be08/univariate sbe... · 2020. 11....

Univariate Analysis개념 concept

정의

분석 대상인 변수가 하나인 경우 사용되는 분석 방법 모집단Unknown

확률분포함수 fXi 의 형태

측정형: 대상 개체의 실제 관측치

분류형: 관측 개체가 속하는 범주, 베르누이 시행의 경우에는 (0, 1)

x~f(x; θ)확률분포함수 f•적합성 검정모수 parameter θ•평균 μ•분산 σ2비율 p

일변량분석

);();();(~),,,( 2121 θθθ nn xfxfxfxxx …표본

•비율 pRandom sample (확률표본)Independently and identically

)(θ̂량

그래프분석통계량분석

통계량),,,( 21 nxxxg …=θ추정치

)ˆ(θht =검정통계량

•모집단분포

•통계량이용모수추론에대한 타당성확보

통계량분석

•모수추정및가설검정),,,(ˆ 21 nxxxg …=θ점 추정

)1())ˆ(( αθ −=≤≤ UhLP구간 추정분류형

•바차트, 파이차트

측정형

•히스토그램

•상자수염그림

분류형

•비율

측정형

•평균

•분산

)1())(( αθ ≤≤ UhLP정

αθ =⊆ ))ˆ(( RRhP가설 검정

http://wolfpack.hnu.ac.kr한남대학교 통계학과 권세혁교수

Statistics for Business and Economics (Spring, 2008)53

Univariate Analysis그래프 분석 의미 (항상 분석 시작점)

그래프내용

분류형: 파이 차트 (비율)

측정형: 히스토그램(분포 형태, 봉우리), 나무상자 그림(이상치)

표본데이터그래프의미

표본 분포 모집단의 분포와 동일표본 분포, 모집단의 분포와 동일

치우침 (히스토그램, 상자-수염그림)

평균을 사용해 추론해도 될 것인가? 판단평 용

대표본: CLT에 의해 OK

소표본: 정규성 검정 필요

정규분포를따르지 않으면 변수변환후 (가장 널리사용하는 방법이LOG 변환 x2 변환) 비모수 검정 필요LOG 변환, x 변환) 비모수 검정 필요

봉우리개수 (히스토그램)

봉유리가 2개 이상이면 집단을 나누어 일변량 분석을 실시한다.

이상치 (상자 수염그림)

제거한 후 일변량 분석을 실시한다.

때로는 이상치는 informative 관측치일 수 있으니 원인을 찾는다



때로는 이상치는 informative 관측치일 수 있으니 원인을 찾는다.

Univariate Analysis일변량 추론 요약

모비율 p 모평균 μ 모분산 σ2

표본비율표본비율 표본평균표본평균 표본분산표본분산

nxxn

ii /

1∑==

)1/()(1

22 −∑ −==

nxxsn

iineventsofp / #ˆ =

대표본, min(pq, npq)>5대표본, min(pq, npq)>5 대표본, n>20~30대표본, n>20~30 모집단정규분포 가정모집단정규분포 가정

pq )1,0(~ Nx μ−

)1( 22− sn

소표본

유의확률개념 이용

소표본

유의확률개념 이용

소표본, 모집단 정규분포 가정소표본, 모집단 정규분포 가정

),(~ˆnpqpNp

)1,0(/

Nns

−x μ

)1(~)1( 22 −− nsn χσ

)1(~/

−− nt

nsx μ

)),(~(# pnBinomialofeventsP



Univariate Analysis모평균(μ)추론 개요

모집단 Target parameter이상치이상치•상자수염그림

•이상치제거


•이상치제거x~f(x; θ)

• θ = 모평균 μ

Nuisance Parameter •분산 σ2

진단이상치제거이상치제거

추정

•표본평균

•모분산(σ2)을모를경우표본분

산(s2)으로추정

•표본평균

•모분산(σ2)을모를경우표본분

산(s2)으로추정

대표본

)3,,12,20( 21 === nxxx …표본

Random sample (확률표본)Independently and identically

ˆ

산(s )으로추정산(s )으로추정

가설검정•정규분포사용 (CLT)•정규분포사용 (CLT)

OO 학과학생들의일주일공부시간

통계량x=θ추정치

)1(~/

)ˆ( −−=== ntzns

xxht 혹은μθ검정통계량

정규성

•히스토그램: 치우침

•정규성검정: (변수변환, 비모수검정)

•히스토그램: 치우침

•정규성검정: (변수변환, 비모수검정)소표본

OO 학과학생들의일주일공부시간

모수 parameter: 공부시간 평균

추론의시작점

이상치


•이상치진단, 제거


•이상치진단, 제거

•표본평균•표본평균

모수의 MVUE (Minimum Variance unbiased estimator)

점추정치

MVUE의 sampling distribution

추정•모분산(σ2)을모를경우표본분산(s2)

으로추정

•모분산(σ2)을모를경우표본분산(s2)

으로추정

가설검정가설검정 •T분포사용•T분포사용



가설검정가설검정 분 사용분 사용

Univariate Analysis모평균(μ)추론 개요

점추정치 (point estimator) 정규분포와 t-분포

t(자유도=∞)는 정규분포ˆ

2σ

Sampling distribution 확률분포함수

대표본(n>20~30): 중심극한정리에 의해

x=θn

xVxE )(,)( σμ ==

표본 분산 분포:

)1,0(~),(~2

Nxn

Nxσμσμ −⇒

)1()1(2s

분포함수 관련 성질

)1(~)1( 2 −− nn χσ

)(~)1,0( mtN

그러므로 소표본, 정규분포 가정하에서 (모 표준편차 σ 모를 때)

모표준편차 σ를 알면 s대신 σ를 사용하면 된다.

)(/)(2 mrχ

용

)1(~/

−− nt

nsx μ



Univariate Analysis정규성 검정 (Normality Test)

표본분포가정규분포인가?

⇔모집단의 분포는 정규분포인가?

검정방법

Kolmogorov-Smirnov D statistic

Shapiro-Wilk W statistic

Anderson-Darling AD statisticAnderson-Darling AD statistic

활용

소표본 모평균 검정)( 2∑ EO

k

소표본 모분산 검정 )1(~)(

21

2

−−=∑ −

= = ckdfE

EOT

i

iii

χ

|)()(| xFxFSup zex

−



Univariate Analysis모평균(μ) 신뢰구간

대표본 (σ를 알면 s 대신사용하면된다) 신뢰구간 신뢰구간의미

종류 100(1-α)%신뢰구간

zxzx σμσ +≤≤


상한

양측nszx αμ +≤

)t(n-Nz 1))1,0((~ or

2/α 2/α≤

−≤

x/μ

표본의크기결정 (신뢰구간측면)

nzx

nzx μ αα 2/2/ +≤≤−양측

하한nszx

nszx 2/2/ αα μ +≤≤−

μα ≤− nszx

)1(2/2/ −= ntzU αα or ns /

)1(2/2/ −−= n-tzL αα or

소표본 (모집단정규분포가정하에서) 신뢰구간

σ모를 때, σ 알면 정규분포사용하면 된다.

허용오차 (margin of error) E 개념을 이용한다.

2

22/

2/)(

Ezn

nzE σσ αα =⇒=

In-class Exercise (HW#8 due 05.01)

(#1) OO 식당을 찾는 손님이 지출하는 비용의 표준편차는 5$이다. 식당을 찾은 손님 49명을 조사한 결과 평균 24.8$을 지출하고 있었다 OO 식당 고객의 평균 지출 비용에 대한 95% 신뢰구간?


상한nsntx )1( −+≤ αμ

었다. OO 식당 고객의 평균 지출 비용에 대한 95% 신뢰구간?

(#2) 모집단의 표준편차는 40이다. 95% 신뢰구간의 허용오차가10 가 되게 하려면 표본의 크기는 얼마이어야 하나?

(#3) 모집단 데이터의 범위가 36이었다. 모평균 95% 신뢰구간에서 허용오차가 3이려면 표본 데이터의 개수는 얼마?

양측

하한

nsntx

nsntx )1()1( 2/2/ −+≤≤−− αα μ

μα ≤−−sntx )1(



서 허용오차가 3이려면 표본 데이터의 개수는 얼마?n

Univariate Analysis모평균(μ) 가설검정

대표본 표본의크기결정 (가설검정)

단측검정 기준단측 하한 양측 단측상한1종 오류, 2종 오류 미리결정

모분산알아야 한다귀무가설

대립가설

검정통계량

01 : μμ H

xT 0μ−= α

귀무가설 H0: μ=μ0

기각 규칙(p-값 사용)

기각역

nsT

/=

αzT −≤ 2/|| αzT ≥ αzT ≥

α≤− valuep0μ

β

대립가설 Ha: μ

Univariate AnalysisIn-class Exercise (HW#8 due 05.01)

#4

정규 정규분포를 따르는 분포로부터 (10, 8, 12, 15, 13, 11, 6, 5) 크

#8

귀무가설: μ=120(생산 공정 기준), 대립가설 μ≠120 유의수준 5%에서 가기 8인 표본을 추출하였다. 모집단 평균에 대한 95% 신뢰구간?

#5

작년까지 통계학 시험 평균은 47점, 표준편차는 10이었다. 올해 수강생 성적이 달라졌는지 알아보기 위하여 수강생 100명을 표본 조

설검정하려고 한다. 공정 기준이 117일 때 기준에 미달한다고 결론내릴확률을 98%로하고 싶다. 모집단의 표준편차는 2로 알려져있다. 표본의크기는?

#9

사한 결과 49점이었다. 좋아졌다고 할 수 있나? 유의수준 5%

적절한 신뢰구간을 구하시오.

#6

자동차의 연비가 30마일(갤론당) 이상이라고 주장한다 진위를 알자동차의 연비가 30마일(갤론당) 이상이라고 주장한다. 진위를 알아보기 위하여 50번 테스트 한 결과 평균 29.5마일, 표준편차는1.7마일이었다. 유의수준 5%

기각역사용 / 유의확률사용

적절한 신뢰구간을 구하시오

#10

적절한 신뢰구간을 구하시오.

#7

작년 주가 한 주당 배당 액이 평균 3$이었다. 올해 한 주당 배당 액이 달라졌는지 알아보기 위하여 10명을 조사한 결과 평균이 3.09 분산이 0 465였다 유의수준 0 05분산이 0.465였다. 유의수준=0.05

기각역사용 / 유의학률사용

위에서 작년보다 올랐는지 알아보기 위해 조사하였다면?

기각역사용 / 유의확률사용




#11

#12

#13



Univariate Analysis모평균(μ) 추론 with Empirical Data

데이터노트북평가 NOTEBOOK.xls 히스토그램

우로 치우침

상자수염그리기

이상치

정규성진단결과

유의확률=0.037(AD값=0.755)

귀무가설(정규분포 따른다) 기각



귀무가설(정규분포 따른다) 기각

Univariate Analysis모평균(μ) 추론 with Empirical Data (cont.)

이상치포함 변수변환 (data transformation)

분포의 형태를 정규분포화 한 후 일변량 분석,

이상치제외

우로 치우친 분포▷ Log 변환, √변환

자연로그변환(변수명: LN) 후 나무상자 그림을 그렸다.

치우침문제가 해결되지 않은것처럼 보이지만

정규성검정결과: AD=0 706 p=0 05이므로 정규분포라 할 수 있다평균 추정치 overestimate 문제 완화

추정치 분산 줄어듬, 신뢰구간 폭 좁아짐.

정규성검정결과: AD=0.706, p=0.05이므로 정규분포라 할 수 있다.

자연로그변환 데이터로부터 신뢰구간을구하고 이것에 E를 해 주면원데이터신뢰구간, 이전보다 줄어듬

95% 신뢰구간: (76.6, 80.05)



Univariate Analysis모평균(μ) 추론 with Empirical Data (2)

데이터 n=30, 국가별주식시장가치변화율 (1988)

WORLD.XLS

in SPSS



Univariate Analysis모평균(μ) 추론 with Empirical Data (2)

이상치 2개제외

문제 해결

대표본(n>30)이므로 정규성 검정 필요 없음, SPSS에서 소표본일경우 어디서 하는지 알려주는 센스

정규분포따른다. 이것이 CLT? no way

년변화율 평균이 이었다 년에 올랐다고 할 수 있나? 1987년변화율 평균이 22이었다. 1988년에 올랐다고 할 수 있나? 유의수준 5%, 적절한 신뢰구간도 구하시오.




#1 데이터 GULFVIEW.XLS

Real estate 회사에서 분양하는 Gulf view condominium의 리

#4

스트 가격, 판매가격, 판매까지 걸린 시간을 조사한 데이터이다. (n=40, 단위 1,000$)

판매 가격에 대한 95% 신뢰구간을 구하시오.

판매까지걸리는 시간에 대한 95% 신뢰구간을 구하시오.

Real estate 회사에서 분양하는 No Gulf view condominium의리스트 가격, 판매가격, 판매까지 걸린 시간을 조사한 데이터이다. (n=18, 단위 1,000$)

판매가격에 대한 95% 상한 신뢰구간을 구하시오.

판매까지걸리는 시간에 대한 95% 상한 신뢰구간을 구하시오.

#2

WEBSITE.XLS 웹사이트 방문회수 데이터

95% 신뢰구간을 구하시오95% 신뢰구간을 구하시오.

방문회수가 9000번 이상이라 할수 있나? 유의수준 5% 적절한신뢰구간을구하시오.

#3

OPTIONS XLS 기업의 배당액(단위 만$)을 조사하였다OPTIONS.XLS 기업의 배당액(단위:100만$)을 조사하였다.

이상치가있으면 제외하시오. 그리고 95% 신뢰구간을 구하시오.

치우침을해결한 후(적절한 변환) 95% 신뢰구간을 구하시오.

작년배당액이 275였다. 낮아졌다고 할 수 있나? 유의수준 5%, 적절한신뢰구간을 구하시오



신뢰구간을 구하시오.

univariate sbe 20080424 - hnuwolfpack.hnu.ac.kr/spring2008/s4be08/univariate sbe... · 2020. 11....

Documents