sano hmm 20150512
Post on 25-Jul-2015
964 Views
Preview:
TRANSCRIPT
ネット広告で機械学習Hivemallの活用例
2015/05/12(火 )19:00第一回 Hivemall Meetup
アジェンダ
• 自己紹介• FreakOut• 分析チームの紹介• 機械学習 – Hivemall の活用例
自己紹介
• 佐野正和 ( さのまさかず , @Masa_S3)
• FreakOut のデータマイニングエンジニア
• 5年くらいネット広告分野で分析業務を担当
• バックグラウンドは素粒子物理学
• FreakOut
FreakOut
• ネット広告の会社です。
• 広告入札システムを提供しています。
ネット広告売買の世界: Real Time Bidding(RTB)• SSP(Supply-Side Platform)が impressionのオークションを仕切って、それに複数の DSP(Demand-Side Platform )がセリに参加するイメージ。
DSP1
DSP2
DSP3
SSP
いくらで配信するの?
¥10
¥30
¥20
DSP2を配信
ユーザ ID, 広告サイズ等を開示
6
DSP ( Demand-Side Platform)とは
7
これまで 現在
広告枠
広告主
広告枠
メディア
ユーザ
広告枠
?広告主のロジックでの買い付けが可能に
ネット広告のパラダイムシフト取引対象が、「広告枠」から「人」へ変化
手売りでの広告販売
RTB による自動買い付け
広告枠
50ms or die.フリークアウトの Tech チームが掲げるミッション。
月間 2200 億のリクエスト、
その 1 つ 1 つに対して 50ms でレスポンスを返さない
と、
事業そのものが成り立たない
50ms でやっていること
広告主側のロジックで、必要な枠、必要な人、必要な瞬間だけをリアルタイムに判定して入札↓入札ロジックの洗練が利益に直結
分析チームの紹介
分析チームの紹介
• 5 名 +3 名アルバイト ( 現時点 )
• FreakOut と M.T.Burn( スマホ向けアドネットワーク ) のプロダクト改善
• 広告配信アルゴリズム改善のための分析に関わること全般を担当
• メンバーは実装できることが必須。
分析チームの紹介
• 使用言語は自由:よく使われているのは Python, Perl, C++
• 集計には Hive を活用
• 機械学習などの論文を参考にモデルを実装
• 検証 ( オンライン・オフライン ) を繰り返す
• 必要に応じて集計ベースの仮説検証も実施
• 機械学習 – Hivemall の活用例
• FreakOut では常時複数のアルゴリズムが実行・検証されています
• 使用されているアルゴリズムの一例としてクリック予測モデルを例に Hivemall の活用例を紹介します
ロジックの一例:クリック予測モデル
Hivemall のロジスティック回帰を活用
• 操作がとても簡単。 jar を読み込んですぐ使える
• Hue からも使えるので、コーディングが得意ではない人も簡単に使える
• 大規模データに対して学習可能
• Hive で学習から検証まで実行することができるようになり作業効率が良い
• 学習用のログは直近数日分の impression & click log
• 学習時間は数時間程度
学習器
Impression log
click log
Hivemallで学習(ロジスティ回
帰 )
Clickする確率
ユーザ
入札価格の決定
Feature - weight
実配信
Hiveの操作
学習器
Impression log
click log
Hivemallで学習(ロジスティ回
帰 )
Clickする確率
検証
Hiveの操作
評価
ロジックの一例:クリック予測モデル工夫した点
• amplify を使うと処理の途中過程で学習データが 10 倍程度になる ( 設定による ) 。
• オンプレ環境ではデータ容量を大きくできない
• 使用容量が多いと特徴量の種類を増やすことも容易ではない
• 精度を落とさず容量を減らしたい
ロジックの一例:クリック予測モデル
Subsampling の導入Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES]
NegativeSamples
(impresion log)PositiveSamples(click log)
ロジックの一例:クリック予測モデル
Subsampling の導入Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES]
Negativesamples
Positivesamples
Subsampling rate r(<1)で negative sample からサンプリング。
subsampling
学習器
Impression log
click log
Hivemallで学習(ロジスティ回
帰 )
Clickする確率
ユーザ
入札価格の決定
Feature - weight
実配信
Hiveの操作
subsampling
ロジックの一例:クリック予測モデル
• 学習データを作る部分で Subsampling の導入
• Hive 内の処理で完結するので Hivemall と合わせて簡単に使うことができる
精度をほぼ変えずに消費リソースの削減を実現• r=0.2• 60-80% の消費リソース減少• 学習時間も半分以下に
まとめ
• Hivemall の利用は簡単
• 大規模データに対して機械学習が簡単にできます
• Hive query が使えれば複雑な実装をしなくてもよい
top related