データ解析

27
東東東東 東東東東東東 東東 デデデデデ

Upload: issei-kurahashi

Post on 10-Jun-2015

5.750 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: データ解析

東京大学 医学系研究科倉橋一成

データ解析

Page 2: データ解析

データはあるけどどうやって解析したら良いの?

   東京大学 医学系研究科 倉橋一成

2

解析方法 データの形による解析

データの形が決まれば解析もある程度決まる 研究デザインによる解析

研究、実験のデザインに沿った解析 推定、検定

方法は数えきれない程ある よく使われる検定はそんなに多くない 現在得ているデータを記述する

予測 推定の延長 将来得られる観測値を推定する

欠測 一部のデータが欠測している場合の推定、補完方法

変数の要約 調査票の解析、遺伝子データの解析など 多くの変数を要約する変数に縮小する

変数間の構造 因果関係とは? ベイズ統計

Page 3: データ解析

データの形による解析

   東京大学 医学系研究科 倉橋一成

3

変数 順序(数値データ)

連続体重、身長、血圧など

離散調査票の回答など

名義(クラスデータ) 性別、世代など

生存時間 特殊な解析

結果変数 ×説明変数

Page 4: データ解析

解析をする際はどのような視点を持てば良いか?

   東京大学 医学系研究科 倉橋一成

4

説明変数と結果変数 変数を説明変数と結果変数に分類 各変数の型

数値正規性(正規性を仮定した漸近的なモデルを利用)非正規性(ノンパラメトリックな解析)

クラス群の数

各変数の数 1つ :単変量 2つ以上 :多変量

変数の型と数によって分析方法がほぼ決まる

Page 5: データ解析

結果変数×説明変数の分類例

   東京大学 医学系研究科 倉橋一成

5

説明変数\結果変数 数値 クラス

数値 変数同士の関連、予測 クラス予測

クラス 群間比較 分割表

説明変数\結果変数 単変量 多変量

単変量 2変量の解析 多変量解析

多変量 多変量回帰 多変量解析、パス解析

各変数の型(種類)での分類例

各変数の数での分類例

大部分のデータでは結果変数は単変量である

以降結果変数が単変量、多変量である場合に分けて説明

Page 6: データ解析

数値×数値

   東京大学 医学系研究科 倉橋一成

6

単変数 記述

相関係数 Searsonの積率相関係数 Spearmanの順位相関係数 Kendallの順位相関係数

予測 単回帰

多変数 重回帰

線形回帰 非線形回帰

移動平均 Spline Locally Weighted Scatterplot Smoother( LOESS)

結果変数:単変量

Page 7: データ解析

数値×クラス

   東京大学 医学系研究科 倉橋一成

7

単変量 2群比較

検定 t検定

• 等分散性を仮定した t検定• Welchの検定

符号検定• Wilcoxsonの符号付順位和検定(Mann-WhitenyのU検定)

並べ替え検定 多群比較

検定 分散分析 Kluskal-Wallis検定

推定 線形回帰

多変量 重回帰 多変量分散分析(MANOVA)

結果変数:単変量

Page 8: データ解析

等分散性の検定

   東京大学 医学系研究科 倉橋一成

8

クラス間の等分散性 Levene検定 Bartlett検定 Harley検定

有意でない •t検定•分散分析

有意である •Welchの検定•Kluskal-Wallis検定

等分散性の検定

結果変数:単変量

Page 9: データ解析

検定の多重性は常に気に留めておく

   東京大学 医学系研究科 倉橋一成

9

多重性の問題 検定を何度も行うと α errorが増大する

個々の検定の α errorが 5%であるから、何度も行うと全体の α error( Family-wise type I error)が増える

古典的な調整 実験データで多用

• Bonferroni• Tukey• Dunnet• Williams

False Discovery Rate( Benjamini, 1995, JRSS) 遺伝子データの分野

Closed testing(Marcus, 1976, Biometrika) Gatekeeping procedure( Bauer, 1998, Stat Med)

臨床試験の分野

Page 10: データ解析

クラス×数値

   東京大学 医学系研究科 倉橋一成

10

判別 Fisherの線形判別分析 Nearest Neighbor Neural Network Support Vector Machine Bagging 決定木

回帰 ロジスティック回帰 ポアソン回帰 Spline回帰 Locally Weighted Scatterplot Smoother( LOESS)

結果変数:単変量

Page 11: データ解析

クラス×クラス(分割表)

   東京大学 医学系研究科 倉橋一成

11

単変量 χ2検定 Fisherの正確検定 Cochran-Armitage傾向検定

多変量 Chocran-Mantel-Haenszel検定(交絡の調整)

リスク差 リスク比 オッズ比

Breslow-Day検定(オッズ比の均一性の検定) 条件付きロジスティック回帰

結果変数:単変量

Page 12: データ解析

結果変数:単変量

   東京大学 医学系研究科 倉橋一成

12

以上を統一するモデル Generalized Linear Model(GLIM、一般化線形モデル)

Generalized Estimating Equation(GEE、一般化推定方程式)で解く Generalized Additive model(GAM、一般化加法モデル)

モデルの構造 サンプリングモデル

結果変数の従う分布族の指定 指数型分布族

• 正規分布、二項分布、ポアソン分布など 平均構造のモデル

説明変数と結果変数の関係 リンク関数によって結果変数を変換

• Identical link, log link, logit link

Page 13: データ解析

生存時間解析は少し特殊

   東京大学 医学系研究科 倉橋一成

13

記述 Kaplan-Meier法 Log-log plot

Proportional Hazard(比例ハザード)性の確認検定

Logrank検定 一般化Wilcoxson検定

推定 Cox回帰

Page 14: データ解析

変数間の構造を見たい(多変量×多変量)

   東京大学 医学系研究科 倉橋一成

14

パス解析 Structural equation model( SEM、構造方程式モデル、共分散構造分析)

結果変数:多変量

Page 15: データ解析

経時データはどのように考える?

   東京大学 医学系研究科 倉橋一成

15

結果変数は単変量か多変量か? 単変量

時間変数を説明変数に加える GLIM, GAM等で解析 経済時系列解析

• Autoregressive moving average model( ARMA、自己回帰移動平均モデル)自己回帰( AR)と移動平均(MA)を組み合わせたモデルNARMA:非線形~ARIMA:自己回帰和分移動平均モデル( integrated)

多変量 それぞれの時点での結果変数は相関した別々の変数

SEM等で解析

Page 16: データ解析

時間依存性共変量

   東京大学 医学系研究科 倉橋一成

16

属性(説明変数、共変量)が時間と共に変化する

Page 17: データ解析

変数の縮約(変数が多すぎる!!)

   東京大学 医学系研究科 倉橋一成

17

説明変数、結果変数の数を減らしたい 変数選択

Stepwise法 Least Angle Resression( LARS, Efron and Hastie. 2004. Annals of Stat.)

縮約、縮小 Principal Component Analysis(主成分分析) Factor Analysis(因子分析) Partial Least Squares( PLS)

グループ分け(Clustering) 階層型

Ward法 凝集法

非階層型 K-means法

Self Organization Map(SOM)

Page 18: データ解析

予測

   東京大学 医学系研究科 倉橋一成

18

正解率(感度、特異度)を評価する 検定? 推定

Cross-Validation Leave-one-out CV N-fold CV

Bootstrap Adaptive bootstrap ABC法 .632 bootstrap .632+ bootstrap

閾値を変化させた際の挙動を見たい Receiver Operating Characteristic(ROC)曲線 IDI

Page 19: データ解析

欠測

   東京大学 医学系研究科 倉橋一成

19

欠測の過程 Missing Completely at Random Missing at Random Missing not at Random

補完 Multiple Imputation

Propensity Score Markov Chain Monte Carlo(MCMC)法

推定 補完はしない

Propensity Score法 Inverse Probability of Censoring Weight( IPCW)法 Doubly Robust法

Page 20: データ解析

研究デザインによる解析

   東京大学 医学系研究科 倉橋一成

20

実験研究 Factorial design(要因実験) Randomized block design(乱塊法)

臨床試験 デザイン

並行群間 Cross-over研究 層別ランダム化

中間解析 疫学研究

Cohort Case control Nested case control Case cohort 2-stage case control Case specula Case only

Page 21: データ解析

実験研究

   東京大学 医学系研究科 倉橋一成

21

Fisherの 3 原則1. 繰り返し2. ランダム化3. 局所管理

要因実験 総組み合わせ法

乱塊法 ブロックに分けてランダム化する 1 ~ 3全て満たすことが出来る

Page 22: データ解析

臨床試験

   東京大学 医学系研究科 倉橋一成

22

デザイン 並行群間

単純に 2群比較を行う Cross-over研究

対象者の節約が可能 食品や生活習慣に係わる要因は避けたほうが良い

Wash-out 期間が長いと思われる 層別ランダム化

実験研究での乱塊法と同じ中間解析

試験途中でも以下の場合はそれ以上の試験は中止 十分な結果が得られた 続けても効果が見られない 有害事象が多くみられる

Page 23: データ解析

疫学研究

   東京大学 医学系研究科 倉橋一成

23

Cohort 全ての疫学研究の理想形 時間、予算、患者数などの問題で種々のデザイン

Case control Nested case control Case cohort 2-stage case control Case specula Case only

Page 24: データ解析

因果関係とは?

   東京大学 医学系研究科 倉橋一成

24

因果関係 正しく制御されたランダム化試験

得られた結果は因果関係を表す それ以外の全ての研究

Hillの必要条件を満たさないと因果関係と言えない時間的順序

• 唯一完全に分かる可能性がある 交絡を受けている可能性が高い

Directed Acyclic Graph( DAG) 因果関係を有向グラフ(矢線)で表現 交絡を解析によって除去 できる

Page 25: データ解析

DAGによる表現

   東京大学 医学系研究科 倉橋一成

25

X Y

Z

Z: colliderClosed passUnconditional d-separation

X Y

ZW

Z: confounderOpen passconditional d-separation

DAGから open passを消すと X-Y間の交絡が無くなる 交絡変数を説明変数に加えて調整する 因果推論的な解析を行う(直接効果の推定)

Page 26: データ解析

ベイズ統計

   東京大学 医学系研究科 倉橋一成

26

確率には 2種類ある 頻度論(客観確率)

確率論の公理( Andrey Kolmogorov, 『確率論の基礎概念』) 全ての事象の確率は 0以上 1以下である 全ての事象の確率を足すと 1である 排反事象の和集合が起こる確率は、個々の事象の確率の和である

これまでのスライドの内容ほとんど全て ベイズ統計(主観確率)

確率論が定式化される以前に Thomas Bayesが考えていた( 1764, Essay toward solving a problem in the doctrine of chances)

事後確率は事前確率に尤度(データの情報)をかけたもの 実生活での知識、情報の更新に近い 頻度論の解析手法はベイズ流の手法に修正可能 事前確率の設定について客観的な基準は無い

Page 27: データ解析

以上の内容を SASと Rで解析していこう

   東京大学 医学系研究科 倉橋一成

27

SAS Statistical Analysis System 世界的に信頼されている解析ソフト プログラミング技術が無くても解析は容易 多くの論文で利用されている 幅広い解析に対応できる

パッケージ 行列計算をプログラミング

高価なため個人的な利用は難しい R

インターネット上で無料配布 ダウンロードしてすぐ利用できる!

世界中の統計家が常に新しいパッケージを開発、公開 最新の論文で提案された手法も解析可能 グラフィックに強いため思い通りの図を描ける SASと同等の質の結果を得ることができる プログラミングは少々わかり辛い