データ解析

東京大学　医学系研究科倉橋一成

データ解析

データはあるけどどうやって解析したら良いの？

　　東京大学医学系研究科倉橋一成

2

解析方法データの形による解析

データの形が決まれば解析もある程度決まる研究デザインによる解析

研究、実験のデザインに沿った解析推定、検定

方法は数えきれない程あるよく使われる検定はそんなに多くない現在得ているデータを記述する

予測推定の延長将来得られる観測値を推定する

欠測一部のデータが欠測している場合の推定、補完方法

変数の要約調査票の解析、遺伝子データの解析など多くの変数を要約する変数に縮小する

変数間の構造因果関係とは？ベイズ統計

データの形による解析


3

変数順序（数値データ）

連続体重、身長、血圧など

離散調査票の回答など

名義（クラスデータ）性別、世代など

生存時間特殊な解析

結果変数 ×説明変数

解析をする際はどのような視点を持てば良いか？


4

説明変数と結果変数変数を説明変数と結果変数に分類各変数の型

数値正規性（正規性を仮定した漸近的なモデルを利用）非正規性（ノンパラメトリックな解析）

クラス群の数

各変数の数 1つ：単変量 2つ以上：多変量

変数の型と数によって分析方法がほぼ決まる

結果変数×説明変数の分類例


5

説明変数＼結果変数数値クラス

数値変数同士の関連、予測クラス予測

クラス群間比較分割表

説明変数＼結果変数単変量多変量

単変量 2変量の解析多変量解析

多変量多変量回帰多変量解析、パス解析

各変数の型（種類）での分類例

各変数の数での分類例

大部分のデータでは結果変数は単変量である

以降結果変数が単変量、多変量である場合に分けて説明

数値×数値


6

単変数記述

相関係数 Searsonの積率相関係数 Spearmanの順位相関係数 Kendallの順位相関係数

予測単回帰

多変数重回帰

線形回帰非線形回帰

移動平均 Spline Locally Weighted Scatterplot Smoother（ LOESS）

結果変数：単変量

数値×クラス


7

単変量 2群比較

検定 t検定

• 等分散性を仮定した t検定• Welchの検定

符号検定• Wilcoxsonの符号付順位和検定（Mann-WhitenyのU検定）

並べ替え検定多群比較

検定分散分析 Kluskal-Wallis検定

推定線形回帰

多変量重回帰多変量分散分析（MANOVA）


等分散性の検定


8

クラス間の等分散性 Levene検定 Bartlett検定 Harley検定

有意でない •t検定•分散分析

有意である •Welchの検定•Kluskal-Wallis検定

等分散性の検定


検定の多重性は常に気に留めておく


9

多重性の問題検定を何度も行うと α errorが増大する

個々の検定の α errorが 5%であるから、何度も行うと全体の α error（ Family-wise type I error）が増える

古典的な調整実験データで多用

• Bonferroni• Tukey• Dunnet• Williams

False Discovery Rate（ Benjamini, 1995, JRSS）遺伝子データの分野

Closed testing（Marcus, 1976, Biometrika） Gatekeeping procedure（ Bauer, 1998, Stat Med）

臨床試験の分野

クラス×数値


10

判別 Fisherの線形判別分析 Nearest Neighbor Neural Network Support Vector Machine Bagging 決定木

回帰ロジスティック回帰ポアソン回帰 Spline回帰 Locally Weighted Scatterplot Smoother（ LOESS）


クラス×クラス（分割表）


11

単変量 χ2検定 Fisherの正確検定 Cochran-Armitage傾向検定

多変量 Chocran-Mantel-Haenszel検定（交絡の調整）

リスク差リスク比オッズ比

Breslow-Day検定（オッズ比の均一性の検定）条件付きロジスティック回帰




12

以上を統一するモデル Generalized Linear Model（GLIM、一般化線形モデル）

Generalized Estimating Equation（GEE、一般化推定方程式）で解く Generalized Additive model（GAM、一般化加法モデル）

モデルの構造サンプリングモデル

結果変数の従う分布族の指定指数型分布族

• 正規分布、二項分布、ポアソン分布など平均構造のモデル

説明変数と結果変数の関係リンク関数によって結果変数を変換

• Identical link, log link, logit link

生存時間解析は少し特殊


13

記述 Kaplan-Meier法 Log-log plot

Proportional Hazard（比例ハザード）性の確認検定

Logrank検定一般化Wilcoxson検定

推定 Cox回帰

変数間の構造を見たい（多変量×多変量）


14

パス解析 Structural equation model（ SEM、構造方程式モデル、共分散構造分析）

結果変数：多変量

経時データはどのように考える？


15

結果変数は単変量か多変量か？単変量

時間変数を説明変数に加える GLIM, GAM等で解析経済時系列解析

• Autoregressive moving average model（ ARMA、自己回帰移動平均モデル）自己回帰（ AR）と移動平均（MA）を組み合わせたモデルNARMA：非線形～ARIMA：自己回帰和分移動平均モデル（ integrated）

多変量それぞれの時点での結果変数は相関した別々の変数

SEM等で解析

時間依存性共変量


16

属性（説明変数、共変量）が時間と共に変化する

変数の縮約（変数が多すぎる！！）


17

説明変数、結果変数の数を減らしたい変数選択

Stepwise法 Least Angle Resression（ LARS, Efron and Hastie. 2004. Annals of Stat.）

縮約、縮小 Principal Component Analysis（主成分分析） Factor Analysis（因子分析） Partial Least Squares（ PLS）

グループ分け（Clustering）階層型

Ward法凝集法

非階層型 K-means法

Self Organization Map（SOM）

予測


18

正解率（感度、特異度）を評価する検定？推定

Cross-Validation Leave-one-out CV N-fold CV

Bootstrap Adaptive bootstrap ABC法 .632 bootstrap .632+ bootstrap

閾値を変化させた際の挙動を見たい Receiver Operating Characteristic（ROC）曲線 IDI

欠測


19

欠測の過程 Missing Completely at Random Missing at Random Missing not at Random

補完 Multiple Imputation

Propensity Score Markov Chain Monte Carlo（MCMC）法

推定補完はしない

Propensity Score法 Inverse Probability of Censoring Weight（ IPCW）法 Doubly Robust法

研究デザインによる解析


20

実験研究 Factorial design（要因実験） Randomized block design（乱塊法）

臨床試験デザイン

並行群間 Cross-over研究層別ランダム化

中間解析疫学研究

Cohort Case control Nested case control Case cohort 2-stage case control Case specula Case only

実験研究


21

Fisherの 3 原則1. 繰り返し2. ランダム化3. 局所管理

要因実験総組み合わせ法

乱塊法ブロックに分けてランダム化する 1 ～ 3全て満たすことが出来る

臨床試験


22

デザイン並行群間

単純に 2群比較を行う Cross-over研究

対象者の節約が可能食品や生活習慣に係わる要因は避けたほうが良い

Wash-out 期間が長いと思われる層別ランダム化

実験研究での乱塊法と同じ中間解析

試験途中でも以下の場合はそれ以上の試験は中止十分な結果が得られた続けても効果が見られない有害事象が多くみられる

疫学研究


23

Cohort 全ての疫学研究の理想形時間、予算、患者数などの問題で種々のデザイン

Case control Nested case control Case cohort 2-stage case control Case specula Case only

因果関係とは？


24

因果関係正しく制御されたランダム化試験

得られた結果は因果関係を表すそれ以外の全ての研究

Hillの必要条件を満たさないと因果関係と言えない時間的順序

• 唯一完全に分かる可能性がある交絡を受けている可能性が高い

Directed Acyclic Graph（ DAG）因果関係を有向グラフ（矢線）で表現交絡を解析によって除去できる

DAGによる表現


25

X Y

Z

Z: colliderClosed passUnconditional d-separation

X Y

ZW

Z: confounderOpen passconditional d-separation

DAGから open passを消すと X-Y間の交絡が無くなる交絡変数を説明変数に加えて調整する因果推論的な解析を行う（直接効果の推定）

ベイズ統計


26

確率には 2種類ある頻度論（客観確率）

確率論の公理（ Andrey Kolmogorov, 『確率論の基礎概念』）全ての事象の確率は 0以上 1以下である全ての事象の確率を足すと 1である排反事象の和集合が起こる確率は、個々の事象の確率の和である

これまでのスライドの内容ほとんど全てベイズ統計（主観確率）

確率論が定式化される以前に Thomas Bayesが考えていた（ 1764, Essay toward solving a problem in the doctrine of chances）

事後確率は事前確率に尤度（データの情報）をかけたもの実生活での知識、情報の更新に近い頻度論の解析手法はベイズ流の手法に修正可能事前確率の設定について客観的な基準は無い

以上の内容を SASと Rで解析していこう


27

SAS Statistical Analysis System 世界的に信頼されている解析ソフトプログラミング技術が無くても解析は容易多くの論文で利用されている幅広い解析に対応できる

パッケージ行列計算をプログラミング

高価なため個人的な利用は難しい R

インターネット上で無料配布ダウンロードしてすぐ利用できる！

世界中の統計家が常に新しいパッケージを開発、公開最新の論文で提案された手法も解析可能グラフィックに強いため思い通りの図を描ける SASと同等の質の結果を得ることができるプログラミングは少々わかり辛い

データ解析

Documents