chapter 7 inference for distributions 7.1 inference for the mean of a population 7.2 comparing two...

Chapter 7Inference for Distributions

• 7.1 Inference for the Mean of a Population

• 7.2 Comparing Two Means

• 7.3 Inference for Population Spread

Section 7.1

Inference for the Mean of a Population

單一母體均數的檢定

均數推論的假設

• 母體中選選選選選選選選選 (SRS) ，選選選選 n

• 該母體為常態母體，期望值為標準差為。一般應用上，與都是未知– 實用上，只要選選選夠多，資料分配呈對稱且單峰即可

樣本均數的分配• 資料選選常態母體選選選選，選選選選的均數服從常態 N(, 2n )– 標準差未知，以選選標準差 s 估計之

• 以標準化後服從標準常態

• 以標準化後則服從 t 分配

XX

標準誤差 (standard error)• 的標準差估計值又稱為的標準誤差 (standard error of mean, 簡記為 SEM)

• When the standard deviation of a statistic is estimated from the data, the result is called the standard error of the statistic.

t 統計量與 t 分配• 常態母體 N(, 2) ，抽出選選選選，選選數為 n• 定義單樣本 t 統計量 (one-sample t statisti

c) 為

則 t 統計量服從自由度為 n-1 的 t 分配– 以 t(k) 或 tk 表示自由度為 k 的 t 分配– t 分配的自由度來自於選選標準差 s 之自由度

常態分配與 t 分配圖形

0

標準常態分配 t 分配自由度 9 t 分配自由度 2

C:\Program Files\StatMates\statmate.exe

常態與 t 分配圖形特性比較• t 分配圖形與常態分配圖形相似

– 都具有對稱於零、單峰及鐘形的特性• t 分配圖形的散佈 (spread) 比常態分配圖形大， t 分配圖形的尾端具有較大的機率– 以替代來標準化，使得 t 分配有較大的變異性。

• t 分配自由度越大圖形與越接近常態。– 樣本數越大 s 估計越準，估計值造成的額外變異性越少。

單母體均數的 t 信賴區間• 由未知均數選母體，選選選選選選選選，選選選選 n 。

選 C 選選選選選選為

其中 t*為 tn-1分配之上 (1C)/2 臨界點。– 常態母體時選選選選選選選選 exact) 選選，非常態母體時樣本數大時為近似 (approximate) 選選。

單母體均數的 t 檢定• 由未知均數選母體，選選選選選選選選，選選選選 n 。

H0： = 0 選選選選檢定統計量為• 令 T 服從 tn-1分配則各對立假說之 P- 值為– Ha： > 0 之 P- 值為。– Ha： < 0 之 P- 值為。– Ha： 0 之 P- 值為 – 常態母體時選選選選選選選選選選，非常態母體樣本數大時為近似選選。

例題 7.1 蟑螂新陳代謝研究• 5 隻蟑螂餵食葡萄糖 10 小時後，尾腸葡萄糖含量為 ( 毫克 )– 55.95 68.24 52.73 21.50 23.78– = 44.44, s = 20.741

– 95% 信賴水準之 tn-1臨界值為 t* = 2.776

• 95% 信賴區間為 = (18.69, 70.19)

例題 7.2 可樂甜度• 例 6.8 續： 10 位品嚐員對健怡可樂甜度衰減評分樣本為：– 2.0 0.4 0.7 2.0 -0.4 2.2 -1.3 1.2 1.1 2.3

– 檢定 H0： = 0 vs. Ha： > 0

– = 1.02, s = 1.196– t 值為 P- 值 = 0.0122 。

– df = 9 之 P- 值表

C:\Program Files\MTBWIN\Mtb13.exe

t 檢定 P- 值實例圖示

t = 2.70

P- 值 = 0.0122

t 分配自由度 9

單一樣本 t 程序應用的注意事項

• 理論上，資料必須是來自常態母體的 SRS 樣本

• 樣本數不大時，除了由過去經驗研判之外，也可消極的以“不過分違背常態法則即可接受”為原則

• Fortunately, confidence levels and P-values from t procedures are not very sensitive to lack of normality.

• 例 7.1 及 7.2 資料之莖葉圖。

• Stem-and-leaf of t71 N = 5

• Leaf Unit = 1.0• 2 2 24• 2 3 • 2 4 • (2) 5 36• 1 6 8

• Stem-and-leaf of t72 N = 10

• Leaf Unit = 0.10• 1 -1 3• 2 -0 4• 4 0 47• (2) 1 12• 4 2 0023

配對資料之 t 程序

• 配對資料設計 (matched pairs design) ：– 每成對實驗對象分別接受處理後再觀察– Or 每一實驗對象接受處理前後分別觀察

• 配對資料之 t 程序– 以單一樣本 t 程序方法應用在配對觀察值差。

例題 7.3 花香味是否有助學習• 配帶面罩含花香味與否對走迷宮所用時間之影響研究– 21 位受測者分別配帶不含及含花香味面罩，隨機決定先或後之配帶順序，再量走迷宮所用時間。記錄兩者所用時間及時間差

• 假設為時間差 (“ 不含”減“含” )之期望值。欲研究花香味是否真的有助學習，則

• 檢定假說 H0： = vs. Ha： > 0

花香味是否有助學習 ( 續 )• 時間差樣本資料為 s =12.

5479• 檢定 t- 統計量為

• P- 值大於 0.25 ( 表 C, df = 20)軟體計算得 P- 值為 0.3652 。

C:\MTBSEW\MINITABA.EXE

C:\Program Files\StatMates\statmate.exe

t 程序之穩健性 (Robustness)

• 穩健程序 (robust procedures) ：若信賴區間之水準或顯著檢定之 P- 值，不會受假設條件不符合而影響太大時，則稱該程序具有穩健性。

• 若樣本資料沒有離群值時，常態的假設條件不會對 t 程序影響太大，因此 t 程序對常態條件具有穩健性。

例題 7.4 離群值效應• 例題 7.1 的資料改為：

– 55.95 68.24 52.73 41.50 43.78 ( 各增加 20)

– 則由 44.44 變為 52.44 ， – s 由 20.741 變為 10.69

– 95% 信賴水準之 tn-1臨界值仍為 t* = 2.776

• 95% 信賴區間長度減半為=52.4414.8377= (37.6

0, 67.28)

t 程序之適用情形• 除了小樣本之外，隨機樣本的假設比常態的假設重要

• 樣本數小於 15 時，資料有離群值或明顯的非常態時不要使用 t 程序

• 樣本數大於 15 時，除了資料有離群值或強烈偏斜時不要之外，都可使用 t 程序

• 樣本數很大 (n ≧ 40) 時，即使強烈偏斜時也可使用 t 程序

t 程序之適用實例• Figure 7.6a 美國各州 65歲人口比例資料為整個母體，而非樣本，故不適合使用 t 程序。

0

2

4

6

8

10

12

14

4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

t 程序之適用實例 ( 續 )

• Figure 7.6b 科羅拉多州閃電擊中的時間資料具對稱性，樣本數有 70 ，適合使用t 程序。

0

5

10

15

20

25

7 8 9 10 11 12 13 14 15 16 17

Hours aftermidnight

t 程序之適用實例 ( 續二 )

• Figure 7.6c 莎士比亞劇中字長度分配之資料為右傾資料，但樣本數很大足以克服資料右傾的影響，可使用 t 程序。

05

10152025

1 2 3 4 5 6 7 8 9 10 11 12

Number of letters in word

chapter 7 inference for distributions 7.1 inference for the mean of a population 7.2 comparing two...

Documents