エクセルを用いた基本統計処理sthorikawa/エクセルを用い...エクセルを用いた基本統計処理...

52
エクセルを用いた基本統計処理 資料 2019 年 6 月 22 日(土) 担当:香川大学工学部 堀川 洋 目次 §1. 度数分布表とヒストグラム 1 – 6 §1A. 度数分布表とヒストグラム (COUNTIF 関数利用) 7 – 9 §1B. 度数分布表とヒストグラム (ピボットテーブル利用) 10 – 14 §2. 記述統計量 15 – 21 §3. 散布図と相関係数 22 – 28 §4. 回帰分析 29 – 32 §5. アンケートとクロス集計表 33 – 38 §6. 区間推定 (母平均の推定) 39 – 42 §7. 仮説検定 (母平均の差の検定) 43 – 49 分析ツールの組み込み方 50 参考図書 51 資料を置いている URL: http://stwww.eng.kagawa-u.ac.jp/~horikawa/ 使用するエクセルファイル:演習データ 19080xxx.xlsx 参考資料:推測統計.pdf Microsoft Office 2013 対応版

Upload: others

Post on 30-Jan-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

  • エクセルを用いた基本統計処理 資料

    2019 年 6 月 22 日(土)

    担当:香川大学工学部 堀川 洋

    目次

    §1. 度数分布表とヒストグラム 1 – 6

    §1A. 度数分布表とヒストグラム (COUNTIF 関数利用) 7 – 9

    §1B. 度数分布表とヒストグラム (ピボットテーブル利用) 10 – 14

    §2. 記述統計量 15 – 21

    §3. 散布図と相関係数 22 – 28

    §4. 回帰分析 29 – 32

    §5. アンケートとクロス集計表 33 – 38

    §6. 区間推定 (母平均の推定) 39 – 42

    §7. 仮説検定 (母平均の差の検定) 43 – 49

    分析ツールの組み込み方 50

    参考図書 51

    資料を置いている URL: http://stwww.eng.kagawa-u.ac.jp/~horikawa/

    使用するエクセルファイル:演習データ 19080xxx.xlsx

    参考資料:推測統計.pdf

    Microsoft Office 2013 対応版

  • 1

    §1. 度数分布表とヒストグラム

    表 1.1 は女性 50 人の脈拍数のデータである。この一覧表を見ただけでは、どのくらいの脈拍数の人が多いのか、

    脈拍数はどのような範囲にあるのか、といったことはすぐには分からない。そこで、まず、データの分布を調べてみる

    ことが大切である。

    ・度数分布表:データの分布状態をまとめた表

    ・ヒストグラム:度数分布表のグラフ

    データを階級に区切って分ける。

    度数:各階級に含まれるデータ数を表示したもの。

    相対度数:度数を割合(%)で表示したもの。

    累積度数:その階級以下の度数の和。

    累積相対度数:累積度数を割合(%)で表示したもの。

    脈拍数の度数分布表とヒストグラムから分かること

    ・脈拍数が 76 - 80 の人が最も多い。

    ・低い人は 70 以下、高い人は 90 以上となっている。

    ・右の方(脈拍数が多い方)に裾が広い分布になっている。

    など

    表 1.1 女性 50 人の脈拍数 表 1.2 女性 50 人の脈拍数の度数分布表

    図 1.1 女性 50 人の脈拍数のヒストグラム

    被験者No.

    脈拍数 (回/分)

    被験者No.

    脈拍数 (回/分)

    1 84 26 79

    2 81 27 763 79 28 744 83 29 865 80 30 686 79 31 767 83 32 89

    8 73 33 77

    9 86 34 8510 74 35 8511 78 36 9312 75 37 8013 85 38 8714 83 39 8815 88 40 76

    16 80 41 8417 73 42 8618 82 43 7719 88 44 8120 77 45 7921 90 46 7722 91 47 8423 91 48 7924 80 49 7825 90 50 84

    階級 度数 相対度数 累積度数 累積相対度数

    66 - 70 1 2% 1 2%71 - 75 5 10% 6 12%76 - 80 18 36% 24 48%81 - 85 13 26% 37 74%86 - 90 10 20% 47 94%91 - 95 3 6% 50 100%

    合計 50 100%

    0

    5

    10

    15

    20

    66 - 70 71 - 75 76 - 80 81 - 85 86 - 90 91 - 95

    人数

    脈拍数 (回/分)

    女性50人の脈拍数

    ヒストグラムは棒グラフと異なり、棒と棒の間

    に隙間が無い。

    横軸が連続的な値を階級で区切ったものであ

    り、棒の面積が階級の度数を表す。

  • 2

    エクセルの分析ツールを用いた度数分布表とヒストグラムの作成

    エクセルには分析ツールの中にいくつかの統計解析手法が備わっており、それを利用してデータの解析を行うこと

    ができる。分析ツールは最初に一度組み込んでおく必要がある。分析ツールの組み込み方は 50 ページを参照のこ

    と。

    §1.1 のシートで以下のように行う。

    ① まず、階級の値を決めて入力する。(このとき、等号の位置に注意。)

    ・階級値の決め方

    1. エクセルの関数を使ってデータの最小値と最大値を求める。基本的に階級値はそれらを含むように決める。

    C15 あたりの空いたセルをクリックしておく。

    リボンの数式 → オート SUM の右側のボタン → 最小値をクリック。

    データの範囲を B2:B51 に選択し直す。マウスでセルを選択できる。

    Enter キーを押して確定させる。

    最大値も同様にして C16 のセルに求める。

    2. 以下の目安に従って階級数を決め、データの範囲を等間隔に区切る。階級幅(間隔)は、(最大値 − 最小値)/(階

    級数)を目安に決める。

    スタージェスの公式:階級数 = 1 + log2(データ数) ≈ 1 + 3.32log10(データ数)

    3. 決めた階級値を適当なセルに入力する。入力するのは階級の上側の境界値である。オートフィルを利用できる。

    階級値はこのように区切

    られる。境界の等号の有

    無に注意。

    これは説明用なので入力

    しなくて良い。

    最小値:MIN(B2:B51)

    最大値:MAX(B2:B51)

    データ数 50 100 300 500 1000 5000 データ数 40くらい 50~100 100~1000

    階級数 7 8 9 10 11 14 階級数 6 7 8

  • 3

    ② リボンからデータを選択して、データ分析をクリックする。

    データ分析がない場合は、分析ツールが組み込まれているか確認すること。グラフを選択している場合は適当な

    セルを選択してみること。それでも出て来ない場合は、一旦ファイルを保存してエクセルを終了し、再度ファイルを

    開いてみること。

    ③ ヒストグラムを選択して、OK をクリックする。

    ④ 入力範囲にデータの範囲 B2:B51 を入力する。マウスでセルを選択できる。

    データ区間に階級の範囲 C3:C8 を入力する。マウスでセルを選択できる。

    出力先にチェックを入れ、E2 と入力する。マウスでセルを選択できる。

    グラフ作成にもチェックを入れる。

    OK をクリック。

    ⑤ 次のような度数分布表とヒストグラムが作成される。

  • 4

    ⑥ 度数分布表を修正する。

    作成された度数分布表では、データ区間の数値が階級の上側の境界値になっている。これを階級の範囲に入力

    し直す。

    ⑦ ヒストグラムを修正する。

    グラフの上をクリックすると、グラフツールのリボンが現れる。グラフの修正はこのリボンを用いて行うことができる。

    また、グラフ内の棒や目盛りなどの上で右クリックあるいはダブルクリックすることによっても行うことができる。

    ダブルクリックすると右側に操作のメニューが現れる。

    グラフの修正はグラフツール、右クリック、ダブルクリックのどの方法でもできるので各自の好きな方法で行えば

    良い。

    1. 「次の級」は不要なので削除する。

    リボンのグラフツール → デザイン → データの選択をクリック

    出てくるメニューでグラフデータの範囲を E3:F8 に変更する。マウスでセルを選択できる。

    0

    10

    20

    66 - 70 71 - 75 76 - 80 81 - 85 86 - 90 91 - 95 次の級

    頻度

    データ区間

    ヒストグラム

    頻度

  • 5

    2. 棒の間隔を詰める。

    リボンのグラフツール → デザイン → クイックレイアウト → レイアウト 8 をクリック

    3. 棒に枠線をつける。

    棒を左クリックして選択 (棒全体に丸ポチが付く)

    リボンのグラフツール → 書式 → 選択対象の書式設定をクリック

    右側に出て来るメニューデータ系列の書式設定で

    塗りつぶしと線 → 枠線 → 線(単色) → 色:■(黒)

    0

    10

    20

    66 - 70 71 - 75 76 - 80 81 - 85 86 - 90 91 - 95

    頻度

    データ区間

    ヒストグラム

  • 6

    4. グラフの大きさを変える。

    グラフエリアの右下(左、下)をクリックしてドラッグ

    5. タイトル等の変更

    タイトル → グラフの下へ 移動

    → 「女性 50 人の脈拍数」に変更

    横軸のラベル → 「脈拍数 (回/分)」

    縦軸のラベル → 「人数」

    凡例はんれい

    → 残っていれば右クリックして、削除

    プロットエリア(軸の内側)も適宜移動・サイズ変更

    *図のタイトルは図の下に、表のタイトルは表の上に書くのが学術的には正式。ただし、一般的には図のタイトルは

    上に書いた方が見やすいとも言える。

    参考

    推奨はしないが、階級値を決めずに分析ツールを使うことはできる。「データ区間」を空白のままにしておけば良い。

    とりあえずそれで作成してみて、それを参考にきちんとした階級値を考えるようにしても良いかも知れない。

    演習 1

    1. §1.2 のシートの 50 人の被験者の拡張期血圧の度数分布表とヒストグラムを作成せよ。

    2. §1.3 のシートの 50 人の被験者の体温の度数分布表とヒストグラムを作成せよ。

    度数分布表はデータ区間を修正すれば良い。

    作成例は 51 ページ参照。

    0

    5

    10

    15

    20

    66 - 70 71 - 75 76 - 80 81 - 85 86 - 90 91 - 95

    人数

    脈拍数 (回/分)

    女性50人の脈拍数

  • 7

    §1A. 度数分布表とヒストグラム (COUNTIF 関数)

    ここでは、COUNTIF 関数を用いた度数分布表とヒストグラムの作成方法について説明する。この場合、階級の区切

    りの等号(≦, )を自由に設定できる。まず COUNTIF 関数を用いて累積度数を求め、それから度数を計算する。

    §1.4 のシートは 110 人の学生のある科目の得点(レポート、中間試験、期末試験による 100 点満点)である。このシ

    ートで以下のように行う。

    ① D 列、および E1, F1 あたりに以下のように入力しておく。ここでは 10 点間隔の度数分布表を作成する。

    ② まず、累積度数を求める。F2 のセルをクリックして選択し、リボンの数式 → その他の関数 → 統計 →

    COUNTIF をクリック。

    ③ 範囲に得点データの範囲 B2:B111 を入力する。マウスでセルを選択できる。そして、セルを絶対参照 $B$2:$B$9

    にしておく。$は絶対参照で、セル名(B2, B111)をクリックして F4 キーを押すと$がつく。(F4 キーを押すごとにトグル

    で$の有無が切り替わる。)

    ④ 検索条件に D2 のセルを入力して、OK をクリック。これで 0 点(以下)の人数が求まる。

    オートフィル

  • 8

    ⑤ F2 のセルを F4:F13 にコピーする。これで累積度数が作成された。階級の区切りは D 列の通りである。

    ⑥ 次に度数を計算する。まず、E2のセルに =F2 と入力し、次に、E3のセルに =F3−F2と入力する。そして、E3のセ

    ルを E4:E13 にコピーする。これで度数分布表が作成された。階級は右のようになる。

    ⑦ ヒストグラムを作成する。データの範囲 D1:E13 を選択し、リボンから挿入を選択して、グラフの縦棒の中の左上の

    ものをクリックする。作成された棒グラフをヒストグラムに修正する。

    コピー

    コピー

    0点10点未満(0点除く)10点台20点台30点台40点台50点台60点台70点台80点台90点台100点

  • 9

    なお、この試験の平均点は 55.9 点である。度数分布表を見ると、平均点以上である 60 点以上の者が 74 人(67%)もい

    ることが分かる。

    参考

    以下のように、COUNTIFS 関数、または、COUNTIF 関数の演算を用いると、度数を直接求めることができる。ただし手

    間はあまり変わらない。

    0

    5

    10

    15

    20

    25

    30

    35

    40

    45

    50

  • 10

    §1B. 度数分布表とヒストグラム (ピボットテーブル)

    ここでは、ピボットテーブル(§5 参照)を用いた度数分布表とヒストグラムの作成方法について説明する。§1.5 のシ

    ートは 89 人の学生の期末試験の得点である。このシートで以下のように行う。

    ① 表内のどれかのセル(A1 のセルで良い)をクリックして選択しておく。

    ② リボンの挿入 → ピボットテーブルをクリック。

    ③ メニューで表全体(A-C 列)が選択されていることを確認し、OK をクリック。

    ④ Sheet1 という名前で以下のようなピボットテーブルのシートが§1.4 のシートの左に新しくできる。

  • 11

    ⑤ フィールドリストから期末試験をドラッグして行ラベルのフィールドへドラッグ。

    ⑥ フィールドリストから学籍番号をドラッグして値のフィールドへドラッグ。

    ⑦ 以下のような表ができる。右図のように、A4 あたりの表内の行ラベルの列のセルを選択し、ピボットテーブルツー

    ル → 分析 → グループの選択をクリック。メニューで先頭の値に 0 を入力する。

    行ラベル データの個数 / 学籍番号23 130 135 136 240 141 243 145 246 148 449 150 253 254 155 457 158 159 261 162 163 164 265 266 168 370 171 172 173 375 176 479 180 681 383 285 186 288 289 190 292 193 195 498 1100 1(空白) 9総計 89

  • 12

    ⑧ 以下のような度数分布表ができる。右図のように、ピボットテーブルツール → 分析 → ピボットグラフをクリック

    してグラフを作成する。グラフの書式は先ほどと同様に変更できる。

    ⑨ ここでは、引き続き相対度数、累積度数、累積相対度数の表を作成してみる。まず、G1~K1 あたりに以下のよう

    に入力しておく。そして、ピボットテーブルのデータ(A4:B12)を G2 にコピーする。

    ⑩ H11 のセルに、数式 → オート SUM → エンターキーで合計を求める。罫線、列幅は適当に挿入、変更する。

    行ラベル データの個数 / 学籍番号

  • 13

    ⑪ I2 のセルに =H2/$H$11 と入力する。($は絶対参照で、F4 キーを利用できる。) 改めて I2 のセルを選択し、パー

    セント表示にする。そして、I2 のセルを I3:I10 にコピーする。また、H11 のセルも I11 にコピーして相対度数の合計

    が 100%になることを確認する。これで相対度数が作成された。

    ⑫ 次に累積度数を作成する。まず、J2 のセルに =H2 と入力し、次に、J3 のセルに =J2+H3 と入力する。そして、J3

    のセルを J4:J10 にコピーする。引き続き、累積相対度数を作成する。まず、K2 のセルに J2/$H$11 と入力する。

    ($は絶対参照で、F4 キーを利用できる。) そして、K2 のセルをパーセント表示にしてから K3:K10 にコピーする。こ

    れで完成となる。(異なる計算方法を用いてももちろん構わない。)

    注:ピボットテーブルのグループ化は、このようにデータが整数の場合はきちんと区切られるので、分析ツールのヒス

    トグラムを使うよりも簡単で便利である。

    しかし、データが小数の場合は、以下のように区切りの間隔が 1 つ置きに異なってしまう場合があるようなので注意が

    必要である。

    §1.3 のシートの体温のデータの場合

    階級 度数 相対度数 累積度数 累積相対度数

  • 14

    最後に、男女別の度数分布表とヒストグラムを作成してみる(層別ヒストグラム)。

    ① ピボットテーブルで作成した表またはグラフをクリックして、画面右側にピボットテーブルのフィールドを表示させる。

    フィールドリストから性別をドラッグして列ラベルのフィールドへドラッグ。

    ② クロス集計表(§5 参照)と集合縦棒グラフができる(グラフの種類は履歴による)。グラフの種類は、グラフをクリッ

    クして、ピボットトグラフツール → デザイン → グラフの種類の変更で、出てくるメニューから選択できる。

  • 15

    §2. 記述統計量

    §1 では、度数分布表とヒストグラムを作成することによってデータがどのあたりにどのくらいの幅で分布しているの

    かを見た。ここでは「どのあたり」や「どのくらいの幅」などの目安を数値で表すことを考える。そのようなデータを特徴

    付ける指標として以下のような記述統計量(基本統計量)がある。

    1. 代表値

    データを代表する値である。次のようなものがある。

    ・平均値 (平均、期待値): データ数

    データの合計 一般に最も良く用いられる。

    (5%トリム平均: データを大きさの順に並べ、その上位下位 5%を除いたデータの平均)

    ・中央値(メディアン): データを大きさの順に並べたときの真ん中の値

    ・最頻値(モード): 度数の最も多いデータ値あるいは階級値

    これらの 3 つの値はいずれも下図のようにデータの中央付近に来る。特に、データの分布が 1 つのピークを持ち左

    右対称であるときには3 つの値はピークのところの値に一致する。しかしながら、下図のようにデータの分布が左右非

    対称な場合は異なったものとなる。特に、分布が右に広く裾を引いているときには下図のような順番に位置する。

    ・平均値 m の計算式

    データ:x1, x2, ・・・, xN (N:データ数)

    平均値:

    N

    n

    nN x

    NN

    xxxm

    1

    21 1

    2. 散布度

    データの散らばりの度合いを表わす指標には次のようなものがある。

    ・分散: 偏差(データ値-平均値)の 2 乗の平均値

    ・標準偏差: 分散の平方根

    ・範囲: 最大値-最小値

    このうち、標準偏差が一般に最も良く用いられる。正規分布の場合には、データの割合は次図のようになる。

  • 16

    ・分散 s2 (σ2)、標準偏差 s (σ)の計算式

    データ:x1, x2, ・・・, xN (N:データ数), 平均値:m

    分散 (標本分散、不偏分散):

    N

    n

    nN mx

    NN

    mxmxmxs

    1

    222

    2

    2

    12 )(1

    1

    1

    )()()(

    標準偏差 (標本標準偏差):2ss

    分散 (母分散):

    N

    n

    nN mx

    NN

    mxmxmx

    1

    222

    2

    2

    12 )(1)()()(

    σ

    標準偏差 (母標準偏差):2σσ

    偏差:(xi - m)が大きいほどデータは平均値から離れている。そのため、その平均的な大きさがデータの散らばりの

    度合いの指標となるが、偏差は正のものと負のものの両方があるのでそのまま平均を取れば 0 になってしまう。そこ

    で、偏差を 2 乗して全て正にしたものの平均を考える。この「偏差の 2 乗の期待値」が分散である。

    分散は単位も 2 乗になっていて、例えば、身長データの場合、100cm2 等の値になって散らばりの度合いが直感的に

    分かりにくい。そのため、その平方根を取ったものが標準偏差である。(分散:100cm2 → 標準偏差:10cm となる。)

    計算において、平均値をデータから計算している場合(N

    xxxm N

    21 )には、2 通りの定義がある。

    ・標本分散、標本標準偏差:「データ数 − 1」(N – 1)で割るもの

    ・母分散、母標準偏差:データ数(N)で割るもの

    ただし、定義は本や人によって異なる(逆になっている)ので注意が必要である。ここでの定義はエクセルで用いられて

    いるものと同じであるが、高校数学の教科書のものとは異なっている。

    特に、偏差値の計算には一般的に母標準偏差(データ数(N)で割ったもの)が用いられるようである。

    ただし、両者の差異は 1/N のオーダーであるので、データ数(N)が大きければどちらを用いてもほとんど問題は無い

    と考えられる(計算例参照)。

    平均:m

    分散:s2

    標準偏差:s

    m xi

    xi – m > 0

    xj

    xj – m < 0

    16% 34% 34% 16%

    m - s m m + s

  • 17

    このとき、 N

    mE2

    2 σ)μ( となっている。

    ・2 通りの分散、標準偏差について

    推測統計における母集団と標本の考え方に基づく。

    母平均:

    pN

    n

    n

    p

    xN 1

    1μ 標本平均:

    N

    n

    nxN

    m1

    1 (標本ごとに異なる)

    ・データ = 標本 と見る場合: 母分散 σ2 の値を標本データから推定する。

    標本分散(不偏分散):

    N

    n

    n mxN

    s1

    22 )(1

    1 → 母分散 σ2 の不偏推定量 (

    22 σ][ sE )

    222

    1

    22

    1

    2

    1

    22

    1

    2

    1

    22

    )μ(σ)μ()μ(μ/2σ)μ()μ)(μ(21

    σ

    )μ()μ)(μ(2)μ(1

    )]μ()μ[(1

    )(1

    mmmNxmmxN

    mmxxN

    mxN

    mxN

    s

    N

    n

    n

    N

    n

    n

    N

    n

    nn

    N

    n

    n

    N

    n

    np

    22

    22 σ1σ

    σN

    N

    NsE p

    , 2222 σσ1

    11

    N

    N

    N

    Ns

    N

    NEsE p

    直感的には、母平均 μの代わりに標本平均 m を用いているので分散が小さく見積もられてしまうということ。つまり、N

    − 1 個のデータの値と標本平均 m が与えられると、残りの 1 個のデータの値は自動的に決まってしまうので、データ

    は実質的に N − 1 個しかないことになる。この意味で、「データ数 − 1」(N − 1)のことを自由度という。

    ・データ = 母集団 と見る場合:母分散、母標準偏差を用いる。

    3. その他

    ほとんど使われることはないが、分布の 3 次以上の統計量として以下のものがある。

    ・歪度(わいど): データの分布のゆがみ(非対称性)を表わす指標

    ピークが左に偏っているとき + 正規分布のとき 0 ピークが右に偏っているとき -

    ・尖度(せんど): データの分布のとがり(裾の広がり)を表わす指標

    裾が長いとき + 正規分布のとき 0 裾が短いとき-

    母集団 (Np (∞)個)

    対象とするもの全体 標本 1 標本 2 ・・・ 標本 3

    標本抽出

    推定、検定

    母分散:

    pN

    n

    n

    p

    xN 1

    22 )μ(1

    σ 標本平均の平均(集合平均): μ][ mE → 母平均 μ の不偏推定量

    このとき、 となっている。

  • 18

    エクセルの分析ツールを用いた記述統計量の計算

    §2.1 のシートは表 1.1 の女性 50 人の脈拍数のデータである。この記述統計量を分析ツールを用いて求める。

    ① リボンからデータを選択して、データ分析をクリックする。

    ② 基本統計量を選択して、OK をクリックする。

    ③ 入力範囲にデータの範囲 B1:B51 を入力する。マウスでセルを選択できる。

    先頭行をラベルとして使用にチェックを入れる。これは B1 のセルをラベルとして用いることを指定する。

    出力先にチェックを入れ、D1 と入力する。マウスでセルを選択できる。これにより、出力される記述統計量の表の

    左上が D1 のセルの位置になるようにする。

    統計情報と平均の信頼区間の出力にチェックを入れる。(統計情報のチェックは必須である。)

    OK をクリック。

  • 19

    ④ 次のような表が作成される。

    ⑤ 平均値と標準偏差は、それぞれ上から 1 番目と 5 番目のセルに表示されている。

    列の幅を広げ、下の図のボタンを用いて数字の表示桁数を有効数字を考えて変更する。

    表内の統計量の意味を確認せよ。なお、上から 2 番目の「標準誤差」と 1 番下の「信頼区間」は、後半で行う推測統計

    のところで説明する。

    *最頻値(モード)が「#N/A」となることがあるが間違いではない。N/A は該当なし(not applicable)あるいは利用できな

    い(not available)の略である。これは、連続値を取るデータの場合に同じ値のものがないことを意味している。例えば、

    10 人の身長のデータ(mm 単位)の場合など。このような場合、たとえ同じ身長の人がいたとしてもたまたまそうなった

    だけで、それを代表値としての最頻値と見做すことは意味がない。

    注:分析ツールの基本統計量で計算される分散と標準偏差はそれぞれ標本分散(不偏分散)と標本標準偏差であり、

    「データ数 − 1」で割ったものである。母分散と母標準偏差(データ数で割ったもの)を求めるには次の関数を用いる。

    ・標本分散 (不偏分散):

    N

    n

    n mxN

    s1

    22 )(1

    1 関数:VAR.S ・標本標準偏差:s 関数:STDEV.S

    ・母分散:

    N

    n

    n mxN 1

    22 )(1

    σ 関数:VAR.P ・母標準偏差:σ 関数:STDEV.P

    (S は標本(Sample)、P は母集団(Population)を表している。)

    (旧 VAR) (旧 STDEV)

    (旧 STDEVP) (旧 VAR)

  • 20

    B51 まで

    関数を用いる方法

    平均値・分散・標準偏差は次のような関数を使って求めることもできる。

    平均値:AVERAGE

    分散 (variance):VAR.S (旧 VAR)

    標準偏差 (standard deviation):STDEV.S (旧 STDEV)

    注:ここでは標本分散(不偏分散)と標本標準偏差を求める。母分散と母標準偏差を求めるにはそれぞれ VAR.P (旧

    CARP)と STDEV.P (旧 STDEVP)を用いる。(S は標本(Sample)、P は母集団(Population)を表している。)

    §2.1 のシートで以下のように行う。まず、適当なセルに下図のように名前を入力しておく。

    ・平均値

    ① H1 のセルをクリックしておき、リボンの数式 → オート SUM の右側のボタン → 平均をクリック。

    ② データの範囲を B2:B51 に選択し直して Enter キーで確定する。

    ③ この場合は良いが、小数点以下が多く出て来たときには有効数字を考えて小数点以下を 1~2 桁に変更するこ

    と。

  • 21

    ・分散

    ① H2 のセルをクリックしておき、リボンの数式 → その他の関数 → 統計 → バーを下にスクロールして VAR.S を

    クリック。

    ② 数値 1 を B2:B51 に選択し直して OK をクリック。

    ③ 小数点以下を 1~2 桁に変更する。

    ・標準偏差

    ① H3 のセルをクリックしておき、リボンの数式 → その他の関数 → 統計 → バーを下にスクロールして STDEV.S

    をクリック。

    ② 数値 1 をデータの範囲の B2:B51 に選択し直して OK をクリック。

    ③ 有効数字を考えて、小数点以下を 1~2 桁に変更する。

    演習 2

    1. §2.2 のシートの 50 人の被験者の拡張期血圧と収縮期血圧の記述統計量を分析ツールを用いて求めよ。2 つを一

    緒に選択して行うことができる。

    2. §2.3 のシートの 50 人の被験者の体温の平均値・分散・標準偏差を関数を用いて求めよ。また、母分散(VAR.P)と

    母標準偏差(STDEV.P)も求めてみよ。

    (解答 1. 拡張期血圧: m = 70.3mmHg, s2 = 137mm(Hg)2, s = 11.7mmHg,;

    収縮期血圧: m = 129.0mmHg, s2 = 186mm(Hg)2, s = 13.6mmHg

    2. m = 36.2℃, s2 = 0.106℃2, s = 0.325℃; 母分散・母標準偏差: σ2 = 0.103℃2, σ = 0.322℃)

  • 22

    §3. 散布図と相関係数

    表 3.1 は 25 人の被験者の身長と体重のデータである。このような対になった 2 種類のデータがあるときには、それら

    の間の関係を調べてみることが大切である。

    1. 散布図:2 種類のデータ(x, y)の分布状態を表したグラフ。1 組のデータ(xn, yn)を平面上の 1 点として

    プロットしたもの。データ数 N 個の点が平面上にプロットされている。散布図によってデータの分布を見

    ることができる。

    No. x y

    1 x1 y1

    2 x2 y2

    N xN yN

    2 種類のデータに関係がないときには、散布図は平面上に広く散らばって分布する(下図左)。それに対して、2 種類

    のデータに何らかの関係があるときには、散布図には 1 次元的な構造が見られる(下図右)。

    表 3.1 25 人の被験者の身長と体重

    図 3.1 表 3.1 の身長と体重の散布図

    x

    y

    x

    y

    x

    y

    被験者No. 身長 (cm) 体重 (kg)1 177.5 70.12 154.5 54.03 169.6 57.44 144.3 46.95 160.8 56.86 142.3 46.27 153.1 44.28 162.7 57.89 160.4 43.210 152.1 50.711 162.3 60.812 145.2 41.113 160.1 51.214 149.0 50.315 172.4 63.316 177.5 61.417 169.1 66.718 142.2 45.219 166.8 56.920 155.8 49.121 152.1 44.122 169.9 60.723 167.5 59.224 147.0 45.425 156.8 47.5

    30

    40

    50

    60

    70

    80

    130 140 150 160 170 180 190

    体重

    (kg)

    身長 (cm)

  • 23

    2. 相関:2 つのデータの間の関係性

    ・相関係数:ρ (-1 ≦ ρ ≦ 1):線形な相関(散布図上で直線的な関係)の強さを表す指標であり、-1 と 1 の間の値を

    取る。(「ロー」と読む。)

    データ:(x1, y1), (x2, y2), ・・・, (xN, yN,) (N:データ数)

    平均値:(mx,, my), 標準偏差:(sx,, sy)

    相関係数:

    yx

    yNxNyxyx

    yNyyxNxx

    yNxNyxyx

    ss

    Nmymxmymxmymx

    mymymymxmxmx

    mymxmymxmymx

    )1/()})(())(())({(

    )()()()()()(

    ))(())(())((ρ

    2211

    22

    2

    2

    1

    22

    2

    2

    1

    2211

    = (x と y の共分散)/(x の標準偏差)(y の標準偏差)

    データ値-平均値 ((xn – mx), (yn – my)) のことを偏差という(§2 参照)。相関係数 ρは、x と y の偏差の積((xn – mx)(yn

    – my))の平均(共分散という)を x と y の標準偏差(sx,, sy)で割って規格化したものである。

    下図のように、散布図において、データ(xn, yn,)が平均値(mx,, my)の右上または左下にあるときには偏差は正、逆に、

    左上または右下にあるときには偏差は負になる。従って、データが平均値の回りに右上がりの直線に沿って分布して

    いるときには相関係数は正、逆に、右下がりの直線に沿って分布しているときには相関係数は負になる。

    ・散布図との対応

    完全な正の相関 強い正の相関 弱い正の相関 無相関 弱い負の相関 強い負の相関 完全な負の相関

    ただし、以下のような非線形(曲線的)な関係は取り出せない。

    m x

    my

    (xn – mx)(yn – my) > 0

    (xn – mx)(yn – my) < 0

    +

    +

    -

    -

    ρ > 0

    ρ < 0

    → ρ ≈ 0

  • 24

    0.0

    10.0

    20.0

    30.0

    40.0

    50.0

    60.0

    70.0

    80.0

    0.0 50.0 100.0 150.0 200.0

    体重 (kg)

    エクセルによる散布図の作成と相関係数の計算

    §3.1 のシートで以下のように行う。

    ・散布図

    ① データの範囲 B1:C26 を選択しておく。

    ② リボンから挿入を選択して、グラフの散布図の中の左上のものをクリックする。

    ③ 次の左側のようなグラフができる。これを修正して右側のようにする。

    ・タイトル「体重」を削除する。(右クリック → 削除)

    ・全体を正方形に近い形にする。

    30

    40

    50

    60

    70

    80

    130 140 150 160 170 180 190

    体重

    (kg)

    身長 (cm)

  • 25

    マーカーを右クリックしてメ

    ニューのデータ系列の書式

    設定をクリックしても良い

    ・横軸と縦軸のラベルをつける。

    グラフツール → デザイン → グラフ要素を追加 → 軸ラベル → 第 1 横軸

    グラフツール → デザイン → グラフ要素を追加 → 軸ラベル → 第 1 縦軸

    横軸のラベル:「軸ラベル」 → 「身長 (cm)」に変更

    縦軸のラベル:「軸ラベル」 → 「体重 (kg)」lに変更

    ・マーカーを黒丸●にしてサイズを少し大きくする。

    マーカーを左クリックして選択 (丸ポチが付く)

    リボンのグラフツール → 書式 → 選択対象の書式設定をクリック

    右側に出て来るメニューデータ系列の書式設定で、まず塗りつぶしと線 → マーカー

    マーカーのオプション → 組み込み → 種類:● → サイズ:7

    塗りつぶし → 塗りつぶし(単色)→ 色:■(黒)

    枠線 → 線(単色)→ 色:■(黒)

  • 26

    ・横軸と縦軸の目盛の範囲と間隔を変えて、データがほぼ中央に配置されるようにする。

    横軸の上で左クリックして右側のメニューを軸の書式設定に変更

    軸のオプション → 軸のオプション

    最小値:固定:130, 最大値:固定:190, 目盛間隔:固定:10 注:データに合わせて決める。

    表示形式 → 小数点以下の桁数:0

    縦軸の上で左クリックして右側のメニューを軸の書式設定(縦軸用)に変更

    軸のオプション → 軸のオプション

    最小値:固定:30, 最大値:固定:80, 目盛間隔:固定:10 注:データに合わせて決める。

    表示形式 → 小数点以下の桁数:0

  • 27

    ・相関係数 (関数:CORREL を用いる。)

    ① D1 のセルに「相関係数」と入力しておく。

    ② D2 のセルをクリックしておき、リボンの数式 → その他の関数 → 統計 → CORREL をクリック。

    ③ 配列 1 に身長のデータの範囲 B2:B26 を入力する。マウスでセルを選択できる。

    ④ 配列 2 に体重のデータの範囲 C2:C26 を入力する。マウスでセルを選択できる。

    ⑤ OK をクリックすると D2 のセルに相関係数の値が求まる。小数点以下を 2 桁程度にしておく。

    散布図と相関係数から分かること

    ・身長が高いほど体重も大きい傾向がある。

    ・相関係数は 0.86 で、身長と体重の間には強い正の相関がある。

  • 28

    分析ツールを用いた相関係数の計算

    分析ツールを用いると、3 種類以上のデータの相関係数をまとめて表にして作成できる。§3.2 のシートは 50 人の生

    徒の科目 A~E の試験の得点のデータである。このシートで以下のように行う。

    ① リボンからデータを選択して、データ分析をクリックする。

    ② 相関を選択して、OK をクリックする。

    ③ 入力範囲にデータの範囲 B1:F51 を入力する。マウスでセルを選択できる。

    先頭行をラベルとして使用にチェックを入れる。これは B1~F1 のセルをラベルとして用いることを指定する。

    出力先にチェックを入れ、H1 と入力する。マウスでセルを選択できる。これにより、出力される記述統計量の表の

    左上が H1 のセルの位置になるようにする。

    ④ 次のような科目 A~E の各科目間の相関係数の表が作成される。利用するときには小数点以下を 2 桁程度にし

    ておく。

    演習 3

    1. §3.3 のシートの 25 人の被験者の拡張期血圧と収縮期血圧の散布図を作成し、相関係数を求めよ。

    2. §3.4 のシートの 30 人の被験者の年齢と骨密度の散布図を作成し、相関係数を求めよ。

    (解答 1: ρ = 0.76, 2: ρ = –0.57)

    国語 英語 数学 物理 化学国語 1英語 0.685123 1数学 0.300921 0.499193 1物理 0.185178 0.38785 0.808477 1化学 0.368679 0.440042 0.766627 0.74995 1

    国語 英語 数学 物理 化学国語 1英語 0.69 1数学 0.30 0.50 1物理 0.19 0.39 0.81 1化学 0.37 0.44 0.77 0.75 1

  • 29

    §4. 回帰分析

    表 4.1 は 50 人の被験者の HbA1c とその測定前の 1 ヶ月間の平均血糖値のデータである。HbA1c の値は過去 1~2

    ヶ月間の血糖値の影響を受けて変化することが知られている。血糖値は食事等による変動があるためその平均的な

    値を知るためには頻回の測定が必要である。そのため、1 回の測定で得られる HbA1c の値が平均血糖値の指標とし

    て用いられている。すなわち、HbA1c の値から平均血糖値を推定するわけであるが、このような場合に用いられる手

    法が回帰分析である。

    1. 回帰分析

    上記のような 2 種類のデータの間の関係を調べる手法が回帰分析であるが、このとき、一方のデータを説明変数

    (独立変数)といい、もう一方のデータを目的変数(従属変数)という。そして、目的変数の値は説明変数によってどのよ

    うに変化するか、あるいは、説明変数の変化が目的変数にどのような影響を与えるかという観点をとる。この対応付

    けには以下のような場合がある。

    ・目的変数の値を説明変数の値から推定したい場合

    説明変数 → 目的変数

    HBA1c 平均血糖値

    血中アルコール濃度 前日の飲酒量

    表 4.1 50 人の被験者の HbA1c と平均血糖値

    被験者No. HbA1c (%) 平均血糖値 (mg/dl) 被験者No. HbA1c (%) 平均血糖値 (mg/dl)1 5 76 26 8.3 1892 7.3 213 27 8.5 2623 8.4 225 28 8.7 1924 7.9 195 29 6.2 1315 8.3 186 30 7 1736 10 254 31 6.5 1727 7.9 210 32 8 1788 6.2 144 33 7.7 1969 5.8 130 34 8.8 20410 8.4 189 35 7.3 15011 9.8 222 36 7.8 19312 9.8 235 37 6.9 15413 7 149 38 7.5 18314 8.9 218 39 6.2 15015 9.4 243 40 6.9 14916 8.3 219 41 8 20417 7.3 161 42 8.4 22018 8.7 182 43 6.2 10219 6.8 138 44 7.8 21420 9.8 258 45 8.3 19521 9 182 46 9.6 23022 10.1 242 47 7.3 18523 9.3 211 48 8.5 22624 8.2 214 49 9.8 26225 6.3 114 50 7.7 178

  • 30

    ・説明変数の値を変えることによって目的変数の値を変えたい場合

    説明変数 → 目的変数

    健康指導プログラムにおける平均歩行数 BMI、体重

    赤ワインの飲酒量 収縮期血圧

    ・あるいは、単に一方のデータが他方のデータとどのように関係するかを知りたい場合

    説明変数 → 目的変数

    身長 体重

    年齢 骨密度

    具体的には次のようにデータを最も良く近似する回帰直線を最小二乗法によって求める。そして、説明変数の値を

    変えることによって目的変数の値がどのように変化するか、すなわち、目的変数に対して説明変数がどのような影響・

    効果を与えるかを推測することができる。

    2. 回帰直線

    説明変数を x、目的変数を y とし、データ:(x1, y1), (x2, y2), ・・・, (xN, yN,) (N:データ数) とする。このとき、次の散布図

    のようにデータの y と ax + b の差の二乗和を最小にするような x – y 平面上の直線:y = ax + b が回帰直線である。

    赤の線分の長さの二乗の和

    22

    22

    2

    11 )}({)}({)}({ baxybaxybaxye NN → 最小

    計算式は省略するが、回帰直線は平均値:mx,, my、標準偏差:sx,, sy、相関係数:ρ を用いて以下のように得られる。

    )(ρ xx

    y

    y mxs

    smy すなわち、a = ρ

    x

    y

    s

    s、b = yx

    x

    ymm

    s

    s となる。

    回帰直線の傾き a は、説明変数 x の値が 1 だけ増えたときに目的変数 y の値がどれだけ増えるか(a がマイナスの

    ときはどれだけ減るか)を表し、回帰係数という。

    3. 回帰直線による推定・予測

    回帰直線を y = ax + b とする。右辺の説明変数 x に値を代入すると、目的変数 y の推定値(予測値)を得ることがで

    きる。

    x

    y

    y = ax + b 予測値

  • 31

    0

    50

    100

    150

    200

    250

    300

    0 2 4 6 8 10 12

    平均血糖値 (mg/dl)

    エクセルによる散布図からの回帰直線の求め方

    §4.1 のシートで以下のように行う。この場合も散布図を作成し、データの傾向を目で見てみることが大切である。回

    帰直線は、散布図のオプションとして求めることができる。

    ① §3 と同様にして HbA1c と平均血糖値の散布図を作成する。

    ② リボンのグラフツール → デザイン → グラフ要素を追加 → 近似曲線 → その他の近似曲線オプションをクリ

    ックし、右側に出て来るメニュー近似曲線の書式設定で線形近似にチェックが入っていることを確認し、グラフに

    数式を表示するにチェックを入れる。

    ③ グラフ内に回帰直線とその式が表示される。

    式の上で左クリックして右側のメニューを近似曲線ラベルの書式設定に変更

    ラベルオプション → ラベルオプション

    表示形式 → 数値 → 小数点以下の桁数:1 注:データに合わせて決める。

    余裕があれば§3 のように散布図を修正しておく。

    回帰直線

  • 32

    回帰直線から分かること

    HbA1c と平均血糖値の回帰直線の傾きは正(30.3)であり、HbA1c の値が 1%だけ増えると平均血糖値は約 30mg/dl

    高くなる。また、例えば HbA1c の値が 5%のときは平均血糖値は約 100mg/dl である。

    回帰直線による推定・予測

    得られた回帰直線の式を用いて HbA1c から平均血糖値の推定値を計算する。

    ・A52 のセルに 推定 と入力する。

    ・B52 に HbA1c の値を入れることにして、計算式を C52 のセルに =30.3*B52-50.9 と入力する。

    ・B52 のセルに例えば 11 と入力すると、C52 のセルに HbA1c の値が 11%のときの平均血糖値の推定値が 282mg/dl

    と求まる。

    ・B52 のセルの値をいろいろと変えてみて推定値の変化を確認すること。

    演習 4

    1. §4.2 のシートは 20 人の被験者の血中アルコール濃度と前日に飲んだワインの量である。散布図を作成し、血中

    アルコール濃度を説明変数 x とし、ワインの摂取量を目的変数 y として回帰直線を求めよ。そして、血中アルコール濃

    度が 0.15%であるときのワインの摂取量の推定値を求めよ。

    (解答 回帰直線:y = 6372x − 44, 推定値:912ml)

    2. §4.3 のシートは、15 人の被験者に対して 1 ヶ月の健康指導を行ったときの 1 日の平均歩行数と指導前後の BMI

    の差、および、収縮期血圧の差である。平均歩行数に対する BMI の差、および、平均歩行数に対する収縮期血圧の

    差の散布図をそれぞれ作成せよ。(離れたセルを含むグラフを作成するには、まず普通に片方のセルを選択し、次に

    コントロールキー(Ctrl)を押しながら離れたセルを選択する。)

    そして、平均歩行数を説明変数 x とし、BMI の差、および、収縮期血圧の差を目的変数 y として、それぞれ回帰直線

    を求めよ。また、平均歩行数が 3000 歩であるときの BMI の差、および、収縮期血圧の差の予測値を求めよ。

    (解答 BMI の差 回帰直線:y = –0.0014x + 0.57, 予測値:–3.63kg/m2

    収縮期血圧の差 回帰直線:y = –0.015x + 7.0, 予測値:–38mmHg)

    これは回帰直線の式

    y = 30.3x – 50.9

    で x に B52 のセルの値を入れたもの

  • 33

    §5. アンケートとクロス集計表

    30 人の入院患者さんに対して以下のようなアンケート調査を行い、その結果をまとめたものが表 5.1 である。

    性別: 1. 男性 2. 女性

    病棟: 1. A-北 2. A-南 3. B-北 4. B-南

    設問 1:あなたは看護師の態度に満足していますか?

    1. 不満 2. やや不満 3. どちらともいえない 4. やや満足 5. 満足

    設問 2:あなたは当院の食事に満足していますか?

    1. 不満 2. やや不満 3. どちらともいえない 4. やや満足 5. 満足

    設問 3:あなたはインフォームドコンセプトが十分実施されていると思いますか?

    1. そう思わない 2. あまり思わない 3. どちらともいえない 4. やや思う 5. そう思う

    表 5.1 入院患者さんに対するアンケートの集計

    被験者No. 性別 病棟 設問1 設問2 設問31 1 1 2 1 22 1 1 3 2 23 2 2 3 3 34 2 4 4 2 4

    5 2 1 4 4 36 1 2 3 2 47 2 3 3 2 18 1 2 1 2 39 1 2 4 2 310 2 4 3 4 511 1 1 2 2 312 2 4 5 3 413 2 3 5 4 314 2 4 4 1 415 1 2 5 5 316 1 2 3 1 317 1 1 1 5 518 2 4 1 2 219 1 2 2 5 520 1 3 3 5 221 1 1 2 3 322 1 1 1 4 123 1 2 3 4 224 2 3 3 2 525 2 4 2 3 526 1 1 3 3 427 2 3 4 2 428 1 2 4 1 329 2 3 5 5 230 2 4 4 2 3

  • 34

    ・クロス集計表とステレオグラム

    この場合も、まずは設問ごとの回答の分布や平均値を求めるなどして設問ごとの満足度を調べることになる。そして、

    その次は、性別によって設問 1 の看護師の態度に対する満足度が異なるかどうか、といった、異なるデータ間の関係

    を調べることが考えられる。このような多肢選択型のデータに対しては、次のようなクロス集計表(分割表)にまとめる

    ことができる。また、その 3 次元的な棒グラフをステレオグラムという。

    クロス集計表の見方は容易に分かるであろう。この場合、性別の回答は 1(男性)と 2(女性)の 2 通り、設問 1 の回答

    は 1(不満)から 5(満足)までの 5 通りで、2 行 5 列からなる表になる。これを 2×5 のクロス集計表という。また、最右列

    は性別の回答の合計、最下行は設問 1 の回答の合計である。

    このクロス集計表とステレオグラムから、女性(2)の方が男性(1)よりも看護師の態度に対する満足度がやや高いこと

    が見て取れる。

    表 5.2 性別と設問 1 の回答のクロス集計表

    図 5.1 性別と設問 1 のクロス集計表のステレオグラム

    1 2 3 4 5 計1 3 4 6 2 1 162 1 1 4 5 3 14

    計 4 5 10 7 4 30

    性別

    設問1

  • 35

    エクセルによるクロス集計表とステレオグラムの作成

    エクセルではクロス集計表はピボットテーブルという。まず、表 5.1 のデータのうち性別と設問 1 のクロス集計表を作

    成する。表 5.1 全体を対象としてピボットテーブルを作成することにより、後から行と列の項目を入れ替えて異なるクロ

    ス集計表を作成することもできる。

    §5.1 のシートで以下のように行う。

    ① 表内のどれかのセル(A1 のセルで良い)をクリックして選択しておく。

    ② リボンの挿入 → ピボットテーブルをクリック。

    ③ メニューで表 5.1 全体が選択されていることを確認し、OK をクリック。

    ④ Sheet1 という名前で以下のようなピボットテーブルのシートが§5.1 のシートの左に新しくできる。

  • 36

    ⑤ フィールドリストから性別をドラッグして行ラベルのフィールドへドラッグ。

    ⑥ フィールドリストから設問 1 をドラッグして列ラベルのフィールドへドラッグ。

    ⑦ フィールドリストから被験者 No.をドラッグして値のフィールドへドラッグ。

    ⑧ 以下のようなクロス集計表ができる。この場合、表には被験者番号の合計が計算されているので、次の⑨で修正

    する。

    ⑨ 値フィールドの合計/被験者 No.をクリックし、メニューの値フィールドの設定ボタンをクリックしてメニューを開く。選

    択したフィールドのデータを合計からデータの個数に変更して OK をクリック。

  • 37

    1

    2

    3

    4

    5

    0

    2

    4

    6

    1 2

    1

    2

    3

    4

    5

    ⑩ 以下のようなクロス集計表ができる。

    ⑪ ステレオグラムを作成する。リボンのピボットテーブルツール → 分析 → ピボットグラフ → 縦棒 → 右端の 3

    次元棒グラフを選択して OK をクリック。

    ⑫ 以下のようなステレオグラムができる。

    *作成したクロス集計表は、項目(フィールド)のドラッグ&ドロップによって自由に作り変えることができる。

    *ステレオグラムは 3 次元的に回転させることができる(グラフの上で右クリック → メニュー → 3-D 回転)。

    各自試してみること。

  • 38

    演習 5

    1. §5.2 のシートの 50 人の被験者の年代と看護満足度に関するクロス集計表とステレオグラムを作成せよ。

    注意:この場合、看護満足度の項目を後から並び替える必要がある。以下のようにして行う。

    ・E4 のセル(不満)をクリックし、カーソルをセルの端に持って行き、形が矢印付きの十字型 になるようにする。ドラ

    ッグしてコピーするときの矢印無しの黒十字✛とは違うので注意すること。

    ・その状態でマウスをドラッグして B4 のセル(どちらでもない)と C4 のセル(やや不満)の間に持って行くと、E 列(不満)

    が C 列に移動する。(間違って黒十字✛で操作して数式という項目ができてしまったときは、列ラベルの右のボタンを

    クリックして、メニュー内の数式のチェックを外すと表から消える。削除するには、リボンのピボットテーブルツール

    → 分析 → フィールド/アイテム/セット → 解決の順序 → 数式を削除する。)

    ・同様にして、B4 のセル(どちらでもない)を D4 のセル(やや不満)と E4 のセル(やや満足)の間にドラッグして、B 列(どち

    らでもない)を D 列に移動させる。

    ・これにより、左から、不満、やや不満、どちらでもない、やや満足、満足の順番に並び替わる。

    ・作成例

  • 39

    §6. 区間推定 (母平均の推定)

    表 6.1 は 15 人の 50 歳男性の被験者の体重と BMI の測定結果である。これを標本データとして、50 歳男性の体重と

    BMI の母平均の 95%信頼区間を求める。母平均の区間推定の考え方については別途プリントを参照のこと。

    ・母平均の区間推定

    母集団が母平均と母分散が共に未知の正規分布に従うものとすると、次の推定統計量 T は自由度 N – 1 の t 分布

    に従う(N は標本データ数)。なお、ここでは母平均を μ、標本平均を m としている。

    Ns

    mT

    μ

    標本データ:x1, x2, ・・・, xN

    データ数:N

    標本平均: N

    xxxm N

    21

    標本分散(不偏分散): 1

    )()()( 2222

    12

    N

    mxmxmxs N

    標本標準偏差:2ss

    母平均: μ (ミュー)

    (T の分母のN

    sは標準誤差と言う)

    今、標本データ数は N = 15 であるので、推定統計量 T

    は右図のような自由度 15 – 1 = 14 の t 分布に従う。

    表 6.1 15 人の被験者の体重と BMI

    標本 (データ数:N)

    標本平均:m 標本分散:s2

    母集団 (正規分布)

    母平均:μ

    母平均:μ の 95%信頼区間の推定

    t 分布 (自由度14)

    0

    0.1

    0.2

    0.3

    0.4

    0.5

    -5 -4 -3 -2 -1 0 1 2 3 4 5t

    被験者No. 体重 (kg) BMI (kg/m2)1 64.0 25.22 67.4 22.93 56.9 20.14 66.8 22.95 56.2 21.76 54.2 21.67 67.8 25.28 53.2 16.19 60.7 25.210 70.8 29.311 51.1 23.712 61.2 22.513 60.3 21.614 73.3 26.315 69.2 28.4

  • 40

    t分布のグラフは自由度によって下図のように少し形が変わる。自由度が小さいほど分布の裾が広く、大きいほど裾

    が狭くなる。そして、自由度が無限大のとき標準正規分布 N(0, 1)に一致する。

    エクセルファイルの表 6.1 のシートの右に t 分布という名前のシートがある。自由度の値をいろいろ変えてグラフの形

    の変化を見てみよ。

    ここで、自由度 N – 1 の t分布の両側 5%点を±t0.05(N - 1)と表すことにする。両側5%点とはT の値がそれより外側(絶

    対値の大きな値)になる確率が 5%であるような値である。逆にいえば、T の値がその内側になる確率が 95%となるよう

    な値である。今、自由度 14 の場合、t0.05(N - 1) ≒ 2.145 である。

    上記のエクセルのシートの K3 と K6 のセルに t0.05(N - 1)と-t0.05(N - 1)を求めている。セルをクリックしてみれば分か

    るように、TINV(0.05, 自由度) という関数で計算することができる。

    また、両側 5%点±t0.05(N - 1)は t 分布のグラフ内に赤線で表示するようにしている。自由度が小さいと t0.05(N - 1)は

    大きく、自由度が大きいと t0.05(N - 1)は小さくなる。そして、自由度が無限大のとき、標準正規分布の両側 5%点の値

    (≒ 1.96)に等しくなる。

    これより、推定統計量 T は 95%の確率で

    -t0.05(N - 1) < T < t0.05(N - 1) の範囲に入る。

    Ns

    mT

    μ であるので、変形すれば、

    NsNtmNsNtm /)1(μ/)1( 05.005.0

    となる。これが母平均 μ の 95%信頼区間である。

    参考:自由度 φ の t 分布の式

    2

    1φ2

    φφ

    1

    2

    φΓφπ

    2

    1φΓ

    )(

    t

    tf ただし、

    0

    1)(Γ dttex xt (ガンマ関数)である。

    中央部分の面積が 0.95

    t 分布

    0

    0.1

    0.2

    0.3

    0.4

    0.5

    -5 -4 -3 -2 -1 0 1 2 3 4 5t

    自由度 1

    自由度 2

    自由度 3

    自由度 5

    自由度 10

    正規分布

    外側部分の面積が 0.05

  • 41

    エクセルの分析ツールを用いた母平均の区間推定

    母平均の信頼区間は分析ツールの基本統計量を用いて求めることができる。(§2 で用いたものであり、それと同様

    に行えば良い。) ここでは§6.1 のシートで表 6.1 の体重と BMI について一緒に行う。なお、分析ツールは別途プリント

    を参照して組み込んでおくこと。

    ① リボンのデータ → 分析ツールをクリックし、メニューから基本統計量を選択して OK。

    ② 入力範囲にデータの範囲 B1:C16 を入力する。マウスでセルを選択できる。

    先頭行をラベルとして使用にチェックを入れる。これは B1 と C1 のセルをラベルとして用いることを指定する。

    出力先にチェックを入れ、E1 と入力する。マウスでセルを選択できる。

    統計情報と平均の信頼区間の出力にチェックを入れる。隣の BOX 内が 95 となっていることを確認する。(これが

    95%信頼区間を求めることを意味する。)

    OK をクリック。

    デフォルトで 95 となっており、

    95%信頼区間が求まる。

    ここで指定した値の信頼区間

    を求めることができる。

  • 42

    ③ 左下のように腹囲と体重の基本統計量の表が作成される。右のように列幅・有効数字を修正すること。

    ④ 母平均の 95%信頼区間は、平均 − 信頼区間(95.0%) ~ 平均 + 信頼区間(95.0%) となる。次のように計算式を

    入力して求める。

    E18 のセルに「上側信頼限界」、E19 のセルに「下側信頼限界」と入力しておく。

    F18 のセルに =F3+F16 と入力。F19 のセルに =F3-F16 と入力。

    これで腹囲の母平均の 95%信頼区間の境界値が求まる。体重についてはコピーすれば良い。

    ⑤ これから、それぞれの母平均の 95%信頼区間は、58.4kg < 体重 < 66.0kg, 21.7kg/m2 < BMI < 25.3kg/m2 と求まる。

    データ数が 15 と少ないため、それぞれ 6kg、4kg/m2程度のかなり広い区間としてしか推定できないことが分かる。

    演習 6

    1. §6.2 のシートは 40 歳代の男性 20 人の骨密度と体脂肪率の

    測定結果である。それぞれの母平均の 95%信頼区間を求めよ。

    (解答 骨密度:95.6 − 104.1(g/cm3), 体脂肪率:22.5 − 23.7(%))

    2. §6.1 のシートの 15 人の 50 歳男性の被験者の体重と BMI の

    データから、それぞれの母平均の 99%信頼区間を求めよ。

    それが 95%信頼区間よりも広くなることを確認せよ。

    (解答 体重:56.9 − 67.5 (kg), BMI:21.0 − 26.1(kg/m2))

    体重 (kg) BMI (kg/m2)

    平均 62.2 平均 23.5標準誤差 1.8 標準誤差 0.9中央値 (メジアン) 61.2 中央値 (メジアン) 22.9最頻値 (モード) #N/A 最頻値 (モード) 25.2標準偏差 6.9 標準偏差 3.3分散 47.7 分散 10.9尖度 -1.20 尖度 0.82歪度 -0.06 歪度 -0.28範囲 22.2 範囲 13.2最小 51.1 最小 16.1最大 73.3 最大 29.3合計 933.1 合計 352.7標本数 15 標本数 15信頼区間(95.0%) 3.8 信頼区間(95.0%) 1.8

    コピー & 貼り付け

  • 43

    §7. 仮説検定 (母平均の差の検定)

    ここでは母平均の差の有無について2つの異なる型の検定を行う。型によって用いる手法が異なるので注意が必要

    である。なお、有意水準を 5%とする両側検定を用いるものとする。仮説検定の考え方については別途プリントを参照

    のこと。

    1. 対応のある母平均の差の検定

    表 8.1 は、ある経口血糖降下薬を 15 人の 2 型糖尿病患者さんに服用してもらったときの服用前と 2 ヶ月後の HbA1c

    の測定結果である。これを標本データとして、血糖降下薬前後で HbA1c の値に差が生じたと言えるかどうか、服用前

    後の母平均の差について有意水準 5%で両側検定を行う。ここでは、このように 2 つのデータ間に対応がある場合を対

    象とする。(対応のない 2つの母集団の母平均の差の検定は 2.で扱う。) この場合、服用前後の差 = 服用後 – 服用

    前 が零に等しいか否かの検定になる。

    検定を行う前に、まず 15 人の血糖降下薬前後の HbA1c の差の平均値を求め、それが負である、すなわち、補給に

    よって HbA1c の平均値が減少していることを確認しよう。また、下図 8.1 のような服用前後の差の棒グラフを作成して、

    HbA1c の値が服用後に減少する傾向があることを見ておこう。やみくもに検定を行う前に、このようにまず標本データ

    の性質を見ておくことが大切である。

    検定の手順

    一般に、対応のある2つの母集団の平均をμ1, μ2 とし、共に正規分布に従うものとする。そして、それぞれの標本デ

    ータの平均を m1, m2、データ数を N (共通)とする。また、両方合わせた 2N 個のデータの標準偏差を s とする。

    1. 帰無仮説を H0: μ1 = μ2 とする。また、対立仮説を H1: μ1 ≠ μ2 とする(両側検定)。有意水準は 5%とする。

    2. 帰無仮説の下で、次の検定統計量 T は自由度 N − 1 の t 分布に従う。

    Ns

    mmT 21

    -

    3. 標本データから得られる検定統計量 T の両側有意確率 p(|T|)を求める。両側有意確率とは、次ページの図のように

    t の絶対値が|T|よりも大きくなる確率のことである。これは、そのような検定統計量の値が得られる確率を意味する。

    図 8.1 15 人の被験者の血糖降下薬服用前後

    の HbA1c の差

    表 8.1 血糖降下薬服用前後の HbA1c の変化

    服用前 服用後 服用後-服用前1 10.3 9.5 -0.82 10.8 9.6 -1.23 9.9 9.3 -0.64 11.3 9.5 -1.85 9.4 10.3 0.96 9.2 8.5 -0.77 8.9 9.6 0.78 12.0 10.9 -1.19 11.7 12.6 0.910 11.5 11.7 0.211 9.7 9.7 012 11.9 10.0 -1.913 9.3 7.7 -1.614 8.4 8.6 0.215 9.7 7.4 -2.3

    平均値 10.3 9.7 -0.6

    HbA1c (%)被験者No.

    -2.5

    -2

    -1.5

    -1

    -0.5

    0

    0.5

    1

    1.5

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

    HbA

    1cの

    差 (

    %)

  • 44

    4. 得られた両側有意確率の値が有意水準(5%)よりも小さければ帰無仮説を棄却して対立仮説を採用する。すなわち、

    2 つの母集団の平均には差があると言える。(そのような小さな確率でしか生じ得ないような検定統計量の値が出て来

    たということは最初に仮定した帰無仮説がおかしいと判定するわけである。)

    p(|T|) ≤ 0.05 → H1: μ1 ≠ μ2 を採用

    逆に、両側有意確率の値が有意水準(5%)よりも大きければ帰無仮説を棄却することはできない。よって、2 つの母集

    団の平均には差があるとは言えない。

    p(|T|) > 0.05 → H0: μ1 = μ2 は棄却できない

    得られた検定統計量 T に対して、

    青色の部分の面積が両側有意確率 p(|T|)

    棄却限界(両側 5%点)

    (= ±t0.05(N – 1))

    この外側の面積が 0.05

    すなわち有意水準(5%)

    従って、検定統計量 T は

    ±t0.05(N – 1)の外側にある。

    |T | ≥ t0.05(N – 1)

    検定統計量 T は

    ±t0.05(N – 1)の内側にある。

    |T | < t0.05(N – 1)

  • 45

    エクセルの分析ツールを用いた対応のある母平均の差の検定

    エクセルの分析ツールには母平均の差の検定が 4 種類ある。ここでは、「t 検定:一対の標本による平均の検定」を

    用いるので間違えないこと。§7.1 のシートで以下のように行う。

    ① 先に述べたように、データの平均値を確認し、グラフ(図 8.1)を作成する。

    ② データ → 分析ツール → t 検定: 一対の標本による平均の検定を選択して OK をクリック。

    ③ 変数 1 の入力範囲に鉄剤補給前のデータの範囲 B1:B16 を入力する。マウスでセルを選択できる。

    変数 2 の入力範囲に鉄剤補給後のデータの範囲 C1:C16 を入力する。マウスでセルを選択できる。

    仮説平均との差異のボックスは空白にしておく。デフォルトは 0 で、μ1 – μ2 = 0 を検定する。

    ラベルにチェックを入れる。これは先頭行 B1, C1 のセルをラベルとして用いることを指定する。

    α のボックスが 0.05 であることを確認する。ここで有意確率 5%を指定する。

    出力先にチェックを入れ、F18 と入力する。マウスでセルを選択できる。

    OK をクリック。

    ④ 下図のような表ができる。列幅と有効数字を修正して右図のようにする。また、求まった両側有意確率の値に基

    づいて結論を導く。

    t-検定 : 一対の標本による平均の検定ツール

    服用前 服用後平均 10.27 9.66分散 1.40 1.89観測数 15 15ピアソン相関 0.67仮説平均との差異 0自由度 14t 2.23 ←検定統計量P(T

  • 46

    確認

    今、検定統計量の値は T = 2.23 である。また、作成した表の最下行にある t 境界値 両側の値が棄却限界(両側 5%

    点)であるので、±t0.05(N − 1) ≒ ±2.14 である。よって、|T| ≥ t0.05(N − 1) となっている。すなわち、下図のように検定統

    計量 T の値は t0.05(N − 1)の外側にある。このように、検定統計量の値と棄却限界(両側 5%点)の値との比較で帰無仮

    説の採択・棄却を判定することもできる。

    |T| ≥ t0.05(N – 1) ↔ p(|T|) ≤ 0.05 → 帰無仮説 H0:を棄却して、対立仮説 H1: μ1 ≠ μ2 を採用

    |T| < t0.05(N – 1) ↔ p(|T|) > 0.05 → 帰無仮説 H0: μ1 = μ2 は棄却できない

    また、検定統計量は、(変数 1 − 変数 2)の平均値をもとにして計算されている。従って、検定統計量の値が正である

    ということは (変数 1 の平均値) > (変数 2 の平均値) であることを意味する。今の場合、変数 1:血糖降下薬服用前、

    変数 2:血糖降下薬服用後であるので、服用後の方が服用前よりも HbA1c の値が減少する方向に母平均の差が生じ

    ている。すなわち、血糖降下薬は好ましい効果を有していることになる。なお、このことは表の 1 行目の平均の値を見

    て確認することができる。

    注意

    データによっては帰無仮説 H0: μ1 = μ2 を棄却できない場合もある。そのときは以下のように結論する。

    両側有意確率 有意水準 (5%)0.11 > 0.05

    帰無仮説は棄却できない。よって、変数1と変数2の平均には差があるとは言えない。

    t-検定 : 一対の標本による平均の検定ツール

    服用前 服用後平均 10.27 9.66分散 1.40 1.89観測数 15 15ピアソン相関 0.67仮説平均との差異 0自由度 14t 2.23 ←検定統計量P(T

  • 47

    2. 対応のない 2 つの母平均の差の検定

    表 8.2 は、30 歳の男性 15 人と 50 歳男性 15 人の中性脂肪、HDL コレステロール、および、LDL コレステロールの測

    定結果である。これを標本データとして、30 歳の男性と 50 歳の男性のそれぞれの母集団のそれぞれの平均値に差

    があるかどうか有意水準 5%で両側検定を行う。この場合、2 つのグループのデータの間に 1.のような対応関係はな

    い。

    検定を行う前に、やはりそれぞれの平均値を見ておこう。そうすると、中性脂肪と LDL コレステロールは 50 歳の男性

    の方の値が大きく、逆に HDL コレステロールは 30 歳の男性の方の値が大きいことが分かる。

    検定の手順

    一般に、対応のない2つの母集団の平均をμ1, μ2 とする。共に正規分布に従い、2 つの母分散は未知であるがあま

    り差はないと仮定できるものとする。そして、それぞれの標本データの平均を m1, m2、標準偏差を s1, s2、データ数を

    N1, N2 とする。

    1. 帰無仮説を H0: μ1 = μ2 とする。また、対立仮説を H1: μ1 ≠ μ2 とする(両側検定)。有意水準は 5%とする。

    2. 帰無仮説の下で、次の検定統計量 T は自由度 N1 + N2 – 2 の t 分布に従う。

    sNN

    mmT

    21

    21

    11

    - ただし、

    2

    )1()1(

    21

    2

    22

    2

    112

    NN

    sNsNs (2 つのデータ全体の分散)である。

    3. 標本データから得られる検定統計量 T の両側有意確率 p(|T|)を求める。

    4. 得られた両側有意確率の値が有意水準(5%)よりも小さければ帰無仮説を棄却して対立仮説を採用する。すなわち、

    2 つの母集団の平均には差があると言える。

    p(|T|) ≤ 0.05 → H1: μ1 ≠ μ2 を採用

    逆に、両側有意確率の値が有意水準(5%)よりも大きければ帰無仮説を棄却することはできない。よって、2 つの母集

    団の平均には差があるとは言えない。

    p(|T|) > 0.05 → H0: μ1 = μ2 は棄却できない

    表 8.2 30 歳男性 15 人と 50 歳男性 15 人の中性脂肪、HDL コレステロールおよび LDL コレステロール値

    被験者No. 中性脂肪 HDL-C LDL-C 被験者No. 中性脂肪 HDL-C LDL-C

    1 115 56 159 1 79 63 1432 68 43 154 2 84 62 1193 67 76 95 3 116 30 1574 52 68 127 4 119 17 1275 73 90 73 5 121 33 108

    6 52 20 116 6 89 52 1737 81 72 111 7 111 41 1498 100 38 160 8 110 32 1149 66 44 116 9 90 54 18510 70 79 119 10 101 64 14811 72 41 168 11 106 45 17712 101 30 132 12 67 50 138

    13 62 36 137 13 94 71 15714 70 74 140 14 92 38 14515 58 51 103 15 38 51 79

    平均値 74 55 127 平均値 94 47 141

    30歳男性 (mg/dl) 50歳男性 (mg/dl)

  • 48

    エクセルの分析ツールを用いた 2 つの母平均の差の検定

    ここでは、「t 検定:等分散を仮定した 2 標本による検定」を用いるので間違えないこと。

    §7.2 のシートで、まず中性脂肪について有意水準 5%で両側検定を行う。

    ① 先に述べたように、データの平均値を確認する、

    ② データ → 分析ツール → t 検定: 等分散を仮定した 2 標本による平均の検定を選択して OK をクリック。

    ③ 変数 1 の入力範囲に鉄剤補給前のデータの範囲 B2:B17 を入力する。マウスでセルを選択できる。

    変数 2 の入力範囲に鉄剤補給後のデータの範囲 C2:C17 を入力する。マウスでセルを選択できる。

    仮説平均との差異のボックスは空白にしておく。デフォルトは 0 で、μ1 − μ2 = 0 を検定する。

    ラベルにチェックを入れる。これは先頭行 B2, C2 のセルをラベルとして用いることを指定する。

    αのボックスが 0.05 であることを確認する。ここで有意確率 5%を指定する。

    出力先にチェックを入れ、F18 と入力する。マウスでセルを選択できる。

    OK をクリック。

    ④ 下図のような表ができる。列幅と有効数字を修正して右図のようにする。また、30 歳男性と 50 歳男性がどちらか

    分かるように記しておく。そして、求まった両側有意確率の値に基づいて結論を導く。

    t-検定: 等分散を仮定した2標本による検定30歳男性 50歳男性

    中性脂肪 中性脂肪平均 74 94分散 335 486観測数 15 15プールされた分散 411

    仮説平均との差異 0自由度 28t -2.79 ←検定統計量P(T

  • 49

    HDL コレステロールと LDL コレステロールについても同様に有意水準 5%で両側検定を行う。結果は以下のようにな

    る。

    演習 8

    対象データが 2 つの型(対応のある場合、対応のない場合)のうちどちらであるかを考えて行うこと。

    1. §7.3 のシートは、高脂血症の被験者 20 人に対して 1 ヶ月間の健康指導を行ったときの、その前後の中性脂肪、

    HDL コレステロール、および、LDL コレステロールのデータである。まず、指導前後でのそれぞれの値の差を求め、図

    8.1 のような棒グラフを作成せよ。(グラフは 3 つ一緒に作って良い。) 次に、健康指導前後の中性脂肪、HDL コレステ

    ロール、および、LDL コレステロールの母平均に差があるかどうか、それぞれ有意水準 5%で両側検定を行え。

    (解答 中性脂肪:差があるとは言えない。(検定統計量 T = 1.75, 有意確率 p(|T|) = 9.54%); HDL コレステロール:差が

    あると言える。(検定統計量 T = –2.33, 有意確率 p(|T|) = 3.11%); LDL コレステロール:差があると言える。(検定統計量

    T = 2.59, 有意確率 p(|T|) = 1.78%))

    2. §7.4 のシートは、30 歳代の男性 16 人と 30 歳代の女性 18 人の赤血球数と白血球数を測定した結果である。30

    代男性と 30 代女性の 2 つの母集団において赤血球数と白血球数の母平均に差があるかどうか、それぞれ有意水準

    5%で両側検定を行え。

    (解答 赤血球数:差があると言える。(検定統計量 T = 2.73, 有意確率 p(|T|) = 1.02%); 白血球数:差があるとは言え

    ない。(検定統計量 T = 1.73, 有意確率 p(|T|) = 9.34%))

    t-検定: 等分散を仮定した2標本による検定 t-検定: 等分散を仮定した2標本による検定30歳男性 50歳男性 30歳男性 50歳男性

    HDL-C HDL-C LDL-C LDL-C平均 55 47 平均 127 141分散 431 227 分散 707 804観測数 15 15 観測数 15 15プールされた分散 329 プールされた分散 755

    仮説平均との差異 0 仮説平均との差異 0自由度 28 自由度 28t 1.16 ←検定統計量 t -1.39 ←検定統計量P(T

  • 50

    分析ツールの組み込み方

    ④ 設定をクリック

    ② オプションをクリック

    ③ アドインをクリック

    ⑤ 分析ツールの□にチェックを

    入れて OK をクリック

    ⑥ データメニューに分析ツールが表

    示される

    ① ファイルボタンをクリック

  • 51

    参考図書

    「よくわかる統計学 看護医療データ編」,宮武・中川・久保田・石村,東京図書 (2008)

    「よくわかる統計学 介護福祉・栄養管理データ編」,慮・広田・石村,東京図書 (2007)

    「Excel でやさしく学ぶ統計解析 (第 2 版)」,室・石村,東京図書 (2004)

    「Excel によるメディカル/コメディカル統計入門」,勝野・井川,共立出版 (2003)

    「よくわかる医療・看護のための統計入門」,石村・萬里小路,東京図書 (2001)

    「すぐわかる統計処理」,石村貞夫,東京図書 (1994)

    「看護学系の統計入門」,水野恭之,培風館 (1985)

    演習 1 ヒストグラム作成例 (あくまでも例であり、異なっても良い。)

    0

    2

    4

    6

    8

    10

    12

    14

    16

    18

    41-50 51-60 61-70 71-80 81-90 91-100

    人数

    血圧 (mmHg)

    50人の拡張期血圧

    0

    2

    4

    6

    8

    10

    12

    人数

    体温 (℃)

    50人の体温