uplift modelling 入門(1)
TRANSCRIPT
Uplift Modelling入門(1)
@yokkuns: 里 洋平[email protected]
2012.03.10 第21回Tokyo.R
- 費用対効果の最大化を目的とした最新データマイニング手法 -
2012年3月10日土曜日
AGENDA
◆ Uplift Modellingとは
◆ 自己紹介
2012年3月10日土曜日
AGENDA
◆ Uplift Modellingとは
◆ 自己紹介
2012年3月10日土曜日
時系列解析や異常検知などの方法論を実ビジネスに適用するデータマイニングエンジニア
◆ 名前: 里 洋平
◆ 職業: データマイニングエンジニア
◆ ID : yokkuns
◆ 統計解析 パターン認識 機械学習 データマイニング NLP 金融工学などを勉強中
自己紹介
2012年3月10日土曜日
Tokyo.R主催
パッケージ本執筆しました!
活動例: 勉強会の主催・執筆
2012年3月10日土曜日
閲覧されている動画の情報を用いておすすめ動画を表示する
活動例: 動画レコメンド
2012年3月10日土曜日
Web上の情報から市場予測
活動例: 市場予測
2012年3月10日土曜日
異常な振る舞い
複数時系列の異常検知
時系列A
時系列B 時系列C
ケースA
ケースB
ケースC
例2:CM効果のノイズ除去
異常な振る舞いの時系列を検出
異常な振る舞いをしているケースを除外して、CMの効果を算出する
CM効果トラフィックA
トラフィックB
トラフィックC
例1:トラフィック異常検知
異常な振る舞いをしているトラフィックの原因を調査する
調査
AB
C
時系列のモデリング
時系列A
時系列B
時系列C
Anomaly detection
複数時系列から異常な振る舞いを検知する
85
活動例: 異常検知
2012年3月10日土曜日
-117.0000
1912.2500
3941.5000
5970.7500
8000.0000
4/4週4/11週4/18週4/25週5/2週5/9週5/16週5/23週5/30週6/6週6/13週6/20週6/27週7/4週7/11週7/18週7/25週-3.0000
-2.2500
-1.5000
-0.7500
0
0.7500
1.5000
2.2500
3.0000
t
異常スコア推移
異常値モデル構築
異常スコアの算出
◇例 : ARIMAモデル
◇例 : 対数損失
Anomaly detection
新しいデータと過去時系列モデルの乖離から異常検出
86
活動例: 時系列解析と異常検知
2012年3月10日土曜日
87
CM時系列
各KPIの時系列
CM
新規登録
ARPU
ARPPU
継続率
ケース
イベント
その他外部要因
TV Commercial Effects
時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
活動例: 時系列解析と影響分析
2012年3月10日土曜日
活動例: データマイニングCROSS
2012年3月10日土曜日
AGENDA
◆ Uplift Modellingとは
◆ 自己紹介
2012年3月10日土曜日
あまのじゃく 無関心
テッパン 説得可能!
介入を受けた場合の反応
介入を受けなかった場合の反応YES
No
YES
No
Uplift Modellingとは費用対効果の最大化を目的とした最新のデータマイニング手法
介入による行動変化をモデル化し効果を最大化する
介入による4つの行動パターン
2012年3月10日土曜日
これまでのマーケティングモデル顧客を有望な顧客とそうでない顧客に分類し
有望な顧客だけをターゲットにする事で費用対効果を向上させる
◆ 浸透モデル
◆ 購入モデル
◆ レスポンスモデル
・既に製品を購入した顧客を特徴づけるモデル
・最近購入した顧客を特徴づけるモデル・浸透モデルに似てるが、最近の履歴に注目し、顧客の特性の変化を捉える
・マーケティング活動に反応して購入した顧客を特徴づけるモデル
2012年3月10日土曜日
これまでのマーケティングモデル顧客を有望な顧客とそうでない顧客に分類し
有望な顧客だけをターゲットにする事で費用対効果を向上させる
◆ 浸透モデル
◆ 購入モデル
◆ レスポンスモデル
・既に製品を購入した顧客を特徴づけるモデル
・最近購入した顧客を特徴づけるモデル・浸透モデルに似てるが、最近の履歴に注目し、顧客の特性の変化を捉える
・マーケティング活動に反応して購入した顧客を特徴づけるモデル
2012年3月10日土曜日
処置群
Training Data 従来のレスポンスモデリング
予測対象
分類結果“反応あり”の場合良いターゲット
レスポンスモデリング処置群の反応データを用いて
レスポンスをモデル化し、ターゲットを決める
処置群
反応なし 反応あり
2012年3月10日土曜日
処置群
Training Data 従来のレスポンスモデリング
予測対象
分類結果“反応あり”の場合良いターゲット
レスポンスモデリングの課題
処置群
反応なし 反応あり
無関心
あまのじゃく
テッパン
説得可能!
処置群だけで学習しているため介入による行動変化を考慮出来ていない
2012年3月10日土曜日
処置群
Training Data 従来のレスポンスモデリング
予測対象
分類結果“反応あり”の場合良いターゲット
レスポンスモデリングの課題
処置群
反応なし 反応あり
無関心
あまのじゃく
テッパン
説得可能!
処置群だけで学習しているため介入による行動変化を考慮出来ていない
介入しなければ反応した
介入しなくても反応した
2012年3月10日土曜日
処置群
Training Data
予測対象
処置群と対照群を用いた学習
処置群
反応なし 反応あり
処置群と対照群の両方を学習データとする事で介入による行動変化を捉える
対照群
対照群
無関心
あまのじゃく
テッパン
説得可能!
無関心
説得可能!
テッパン
あまのじゃく
2012年3月10日土曜日
処置群
Training Data
予測対象
処置群と対照群を用いた学習
処置群
反応なし 反応あり
処置群と対照群の両方を学習データとする事で介入による行動変化を捉える
対照群
対照群
無関心
あまのじゃく
テッパン
説得可能!
無関心
説得可能!
テッパン
あまのじゃく
2012年3月10日土曜日
処置群
Training Data
予測対象
処置群と対照群を用いた学習
処置群
反応なし 反応あり
処置群と対照群の両方を学習データとする事で介入による行動変化を捉える
対照群
対照群
無関心
あまのじゃく
テッパン
説得可能!
無関心
説得可能!
テッパン
あまのじゃく
2012年3月10日土曜日
処置群
Training Data Response Uplift Modelling
予測対象
Uplift Modelling
処置群
L R
単純な”反応あり”・”反応なし”ではなく介入による行動変化をモデル化しターゲットを決める
対照群
対照群
無関心
あまのじゃく
テッパン
説得可能!
無関心
説得可能!
テッパン
あまのじゃく
分類結果“R”の場合
良いターゲット
2012年3月10日土曜日
分割基準行動変化によるレスポンス率増とその重要性を最大化する分割を行う
処置群(T)
L R
対照群(C)
無関心
あまのじゃく
テッパン
説得可能!
無関心説得可能!
テッパン
あまのじゃく
URUL
2012年3月10日土曜日
分割基準行動変化によるレスポンス率増とその重要性を最大化する分割を行う
処置群(T)
L R
対照群(C)
無関心
あまのじゃく
テッパン
説得可能!
無関心説得可能!
テッパン
あまのじゃく
URUL
◆ 行動変化によるレスポンス率の増分
◆ 重要性 (t統計量の2乗)
2012年3月10日土曜日
分割基準行動変化によるレスポンス率増とその重要性を最大化する分割を行う
処置群(T)
L R
対照群(C)
無関心
あまのじゃく
テッパン
説得可能!
無関心説得可能!
テッパン
あまのじゃく
URUL
◆ 行動変化によるレスポンス率の増分
◆ 重要性 (t統計量の2乗)
2012年3月10日土曜日
分割基準行動変化によるレスポンス率増とその重要性を最大化する分割を行う
処置群(T)
L R
対照群(C)
無関心
あまのじゃく
テッパン
説得可能!
無関心説得可能!
テッパン
あまのじゃく
URUL
L
L R
◆ 行動変化によるレスポンス率の増分
◆ 重要性 (t統計量の2乗)
2012年3月10日土曜日
介入による行動変化の定式化
処置群(T)L R
対照群(C)
URUL
介入による効果
グループ効果
相互作用
介入による効果
グループ効果
相互作用
介入による効果
グループ効果
相互作用
介入による効果
グループ効果
相互作用
※Cの介入効果 = Lのグループ効果 = CR相互作用 = TL相互作用 = CL相互作用 = 0 とおく
介入による行動変化を介入効果とグループ効果の相互作用として表現
2012年3月10日土曜日
介入による行動変化の推定
処置群(T)L R
対照群(C)
URUL
介入による効果
グループ効果
相互作用
介入による効果
グループ効果
相互作用
介入による効果
グループ効果
相互作用
介入による効果
グループ効果
相互作用
※Cの介入効果 = Lのグループ効果 = CR相互作用 = TL相互作用 = CL相互作用 = 0 とおく
相互作用はRグループとLグループの増分の差で推定される
2012年3月10日土曜日
介入による行動変化の推定値の誤差と重要性
T:1, C:0 R:1, L:0 Xi1Xi2
基準値
介入効果
グループ効果
相互作用
介入による行動変化は回帰係数として算出されその重要性はt統計量で与えられる
◆ t統計量の2乗◆ 標準誤差の算出
2012年3月10日土曜日
分割基準行動変化によるレスポンス率増とその重要性を最大化する分割を行う
処置群(T)
L R
対照群(C)
無関心
あまのじゃく
テッパン
説得可能!
無関心説得可能!
テッパン
あまのじゃく
URUL
L
L R
◆ 行動変化によるレスポンス率の増分
◆ 重要性 (t統計量の2乗)
2012年3月10日土曜日
AGENDA
◆ Uplift Modellingとは
◆ 自己紹介
2012年3月10日土曜日
Rでの実行は?
2012年3月10日土曜日
Rでの実行は?
まだパッケージが存在しない
2012年3月10日土曜日
Rでの実行は?
まだパッケージが存在しない
2012年3月10日土曜日
Rでの実行は?
まだパッケージが存在しない
iAnalysisと共同開発予定!
2012年3月10日土曜日
謝辞Uplift Modellingの存在はisseing333さんが教えてくださいました!
ありがとうございます!
2012年3月10日土曜日
次回以降の
発表者・LTを募集しています!
2012年3月10日土曜日
ご清聴ありがとうございました!
2012年3月10日土曜日
以下参考資料
2012年3月10日土曜日
http://en.wikipedia.org/wiki/T-statistic
http://ja.wikipedia.org/wiki/%E7%B7%9A%E5%BD%A2%E5%9B%9E%E5%B8%B0
参考資料
◆ t統計量
◆ 線形回帰
http://stochasticsolutions.com/sbut.html
◆ Real-World Uplift Modelling with Significance-Based Uplift Trees
2012年3月10日土曜日