mmds 8.1 - 8.3
TRANSCRIPT
MMDs 8.1 - 8.3
19-03-2014 Shota Horii
Chapter 8. Advertising on the Web
Chapter 8. ウェブ広告
Chapter 8. Advertising on the Web
【21世紀:Web applica,onsの収入源が購読よりも広告に】
• 検索エンジンでの広告 -‐ ウェブ広告において圧倒的に儲かる -‐ 有効性: 検索クエリを広告と結びつける’アドワーズ’モデル
• オンラインストアでの広告 -‐ いつどの商品を広告するのか -‐ 協調フィルタリング: これは9.3. で扱う
• 検索クエリと広告とのマッチング方法を最適化 • アルゴリズムについての二つの論点
-‐ 貪欲アルゴリズム -‐ ‘オンライン’アルゴリズム
【チャプタ8の主な内容】
Chapter 8. Advertising on the Web
8.1.1. 種々のウェブ広告
• 特定のサイトに直接広告を配置する。(有料、無料 or 手数料) • 様々なサイトにディスプレー広告を表示する。
-‐ 広告主はインプレッション毎に決まった額を支払う -‐ インプレッション: ユーザがサイトを訪れて広告が一回表示される事 -‐ 通常、同じページ/同じユーザであっても二度目は異なる広告が表示
• オンラインストアでの広告 -‐ 広告は商品の製造主でなく、オンラインストアが行う
-‐ ユーザが商品に興味を持つ可能性が最も高くなるように選定
• 検索広告 -‐ 検索クエリによる検索結果と共に表示される -‐ 広告主は、特定のクエリで広告を表示させる権利に対して入札 -‐ 広告がクリックされた場合のみ支払いが発生する -‐ 表示広告の選定: クエリ、入札額、クリック率、広告主の総予算などによる
Chapter 8. Advertising on the Web
8.1.2. 広告の直接配置
(サイト内に入力フォームやプルダウンメニューがある事を想定している?)
【クエリに対応して広告を表示する】
• 検索エンジンのように転置インデックスを用いる -‐ クエリに含まれる全ての語を含む広告を表示
• 広告主がパラメータを指定 -‐ プルダウンメニューなどで特定の選択肢が選ばれた時に表示
-‐ 例えば中古車の広告なら、特定の車のタイプをプルダウンで指定 された場合に、表示する広告を決定する。
Chapter 8. Advertising on the Web
8.1.2. 広告の直接配置
1. 広告の表示位置が結果に大きく影響する。 2. クエリによって広告の魅力度は異なる。 3. クリックされる確率が近似的に評価されるまでは、全広告が表示されるべき。
【広告をランキングする】
• Webサイトにおけるリンクのように重要性を示唆する指標が無い • 戦略1: 最新の広告を最も高く評価
-‐ 少ないバリエーションの広告を頻繁にポストされた場合公平性失う
• 戦略2: 広告の魅力度を測る -‐ 広告が表示される度に、クエリを投げたユーザがクリックしたかどうか記録 -‐ 魅力的な広告がクリックされやすいと考えられる -‐ 広告の評価に際して考慮されるべき3つのポイント
Chapter 8. Advertising on the Web
8.1.3. ディスプレー広告の論点
従来メディアでもWebでも、 インプレッション(一回の表示)に対して高い額をチャージできる。
【広告を表示する媒体】
• NY ,mes などの非専門紙 -‐ 読者が広告の商品に対して興味を持つとは限らない -‐ Yahoo! トップに表示される広告も同様の観点で非効率
• ゴルフ誌などの専門誌 -‐ 読者の興味が明らかなので効率的に広告できる -‐ Webでも同様に関連サイトでの広告の方が、インプレッション毎の価値は大きい
Chapter 8. Advertising on the Web
8.1.3. ユーザの情報を利用する
【ページ情報だけでなくユーザ情報を利用して表示広告を決定】
• 利用できるユーザ情報 -‐ Facebookでゴルフ関連のグループに属している。 -‐ Gmailアカウントで、頻繁に”ゴルフ”と書いている。 -‐ Yahoo!ゴルフのページを長時間利用している。 -‐ ゴルフ関連のクエリでよく検索している。
-‐ ゴルフコースのサイトをブックマークしている。
【プライバシーの問題】
• ここではその解決策などについては触れない • もし広告が表示されるなら、ユーザに関連する広告の方が望ましい • コンピュータの外に出て人間の手に渡ることは危険
Chapter 8. Advertising on the Web
8.2.1. On-Line and Off-Line Algorithms
【オフラインアルゴリズム】
• 必要なデータが最初に全て与えられる • 任意の順序でデータにアクセスでき、結果を返す
【オンラインアルゴリズム】
• 全てのデータが得られる前に何らかの決断を下さなければならない • 特に、ストリームエレメントが得られる度に(その後の全てのデータの
情報無しに)何らかの出力をするものがオンラインアルゴリズム • (‘on the Internet’ の意味ではない)
* ここから、検索エンジンでの検索クエリと広告のマッチングについて
Chapter 8. Advertising on the Web
8.2.1. On-Line and Off-Line Algorithms
今後一ヶ月分の検索クエリが分かっていればオフラインアルゴリズムで最適化できる が、一ヶ月分の検索クエリを先に知ることはできない。 -‐> オンラインアルゴリズム
【検索クエリが来た時に表示広告をどう決めるか】
• 既知の情報 -‐ 各広告主の月間予算、検索語に対する入札額
• 過去の情報は用いることができる -‐ 広告主が予算を既に使い切っているかどうか -‐ これまで、その広告が表示された時にどの程度の割合でクリックされたか
• 未来の情報は用いることができない -‐ 今後、どのような検索クエリがどれだけ来るか
【オフライン or オンライン】
Chapter 8. Advertising on the Web
e.g. 8.1. 未来のクエリを知れたらなぜ良いか
10cent/”chesterfield” ”chesterfield”クエリに 1000回分広告表示できる。
20cent/”chesterfield” 20cent/”sofa” ”chesterfield” or “sofa”クエリに 500回分広告表示できる。
A社
$100
B社
$100
【”chesterfield”: 100, ”sofa”: 0】
A社
$100
B社
$100
$20
入札額の高いB社に全て与える事が最適。検索エンジンは$20の儲け。
Chapter 8. Advertising on the Web
e.g. 8.1. 未来のクエリを知れたらなぜ良いか
【”chesterfield”: 100, ”sofa”: 500】
A社
$100
B社
$100
$10
先に ”chesterfield” クエリが100回来ても、後に ”sofa” クエリが500回以上来ることが 分かっていれば ”chesterfield” クエリはA社に割り当てるのが最適。
この例では、どちらかのクエリが一ヶ月間に500回以上来ることがわかっていれば まずその余剰分をA社にまわすことが最適となる。
Chapter 8. Advertising on the Web
8.2.2. 貪欲アルゴリズム
e.g. 8.1. のシチュエーションにおける貪欲アルゴリズム -‐> 予算が残っている広告主の中で、最も高い入札をした広告主の広告を選択する。
【インプットに対する決断を、インプット/既知情報のみから下す】
【”chesterfield”: ?, ”sofa”: ?】
A社
$100
B社
$100
20cent
Query {“chesterfield”}
Chapter 8. Advertising on the Web
8.2.2. 貪欲アルゴリズム 【まず500のchesterfieldクエリが来て、次に500のsofaクエリが来るケース】
オフラインアルゴリズム(最適) 【”chesterfield”: 500, ”sofa”: 500】
A社
$100
B社
$100
$50
オンラインアルゴリズム 【”chesterfield”: ?, ”sofa”: ?】
A社
$100
B社
$100
無駄になる
Chapter 8. Advertising on the Web
8.2.3. 競争率
• オンラインアルゴリズムの問題 -‐ 同問題においてベストなオフラインアルゴリズム程良い結果だせない
• オンラインアルゴリズムの競争率 -‐ どのようなインプットに対しても、少なくとも最適オフラインアルゴリズム
の結果のc倍(c<1)の結果を得られると言えるcが存在する場合 -‐ このcをオンラインアルゴリズムの競争率と呼ぶ
【最も悪いケース】 先の例では、$100:$150で競争率は2/3以下である事が分かった。 が、更に悪いケースが存在する。
Aの入札額 = Bの入札額 -‐ Δ (Δ → 0) とすると、同じ例では$100:$200となり競争率は1/2以下である事が分かる。
Chapter 8. Advertising on the Web
8.3 マッチング問題
【検索クエリと広告とを結びつける”最大マッチング”問題】
• この問題を二部グラフにおける最大マッチング問題と捉える • 二部グラフ
-‐ 二つのノードセットから成る。 -‐ グラフ内の全てのエッジは別のセットのノード同士をつなぐ
Chapter 8. Advertising on the Web
8.3.1. マッチと完全マッチ
{(1, a), (2, b), (3, d)} {(1, c), (2, b), (3, d), (4, a)}
• マッチ -‐ エッジのサブセット
-‐ 全てのエッジにおいて端点のノードが他のどのエッジの端点でもない
• 完全マッチ -‐ マッチにおいて、グラフ内の全てのノードが含まれている場合 -‐ 二つのノードセットのサイズが等しい場合のみ完全マッチが可能
完全マッチ
Chapter 8. Advertising on the Web
8.3.1. 最大マッチ • 最大マッチ
-‐ 最も大きいマッチを”maximal”と言う -‐ 全ての完全マッチはmaximal
Maximal Maximal ではない
• 最大マッチを探すオフラインアルゴリズム -‐ ノード数nのグラフに対してほぼO(n^2)の性能
Chapter 8. Advertising on the Web
8.3.2. 最大マッチを探す貪欲アルゴリズム
先のグラフを例に (1, a), (1, c), (2, b), (3, b), (3, d), (4, a)の順でエッジを見ていく。
結果は{(1, a), (2, b), (3, d)}となる。(これは真の最大マッチではない)
• 最大マッチを探す貪欲アルゴリズム -‐ グラフ内の全エッジについて、与えられた順に以下の処理を行う -‐ エッジ(x, y)について、 x, y 両端のノードがこれまでにマッチに含まれた
エッジの端点でなければこのエッジをマッチに加える。Else スキップ。
Chapter 8. Advertising on the Web
8.3.2. 最大マッチを探す貪欲アルゴリズム
• 更に悪いケースが存在する -‐ エッジは与えられた順に見ていくので、順序によって結果が異なる。 -‐ この例では、(1, a)と(3, b)が最初に処理されると二つのエッジしかマッチ
に入らない。
Chapter 8. Advertising on the Web
8.3.3. 貪欲アルゴリズムの競争率 e.g.8.2より: この問題におけるオンラインアルゴリズムの競争率は1/2以下。 ここで最大マッチング問題における貪欲アルゴリズムの競争率を考える。
M 0
M g
: 最大マッチ
: 貪欲アルゴリズムの発見したマッチ
L : 最大マッチに含まれ、貪欲アルゴリズムのマッチには含まれない左端ノードのセット
R : L内のノードのいずれかとエッジで繋がっている右端ノードのセット
M 0 M g
L
R
Chapter 8. Advertising on the Web
8.3.3. 貪欲アルゴリズムの競争率
M 0 M g
L
R
この時、R内のノードは全て に含まれることがわかる。 もしL内のノードlとR内のノードrが共に に含まれていなければ以下の様になる。
M g
M g
L
R M g
L
R
M g
Chapter 8. Advertising on the Web
8.3.3. 貪欲アルゴリズムの競争率
M 0
M g
: 最大マッチ
: 貪欲アルゴリズムの発見したマッチ
L : 最大マッチに含まれ、貪欲アルゴリズムのマッチには含まれない左端ノードのセット
R : L内のノードのいずれかとエッジで繋がっている右端ノードのセット
|L| ≦ |R| L内の全てのノードは最大マッチに含まれていて、Rはこれを下回らない。
|R| ≦ | | R内の全てのノードは に含まれていて はこれ以外にもエッジを持つことができる。
M g M g M g
| | ≦ | | + |L| 左端のノードの中で に含まれていて に含まれないのはL内のノードのみ。 つまり| |と| |の差は|L|以下。
M g M 0
M 0 M g
M 0 M g
以下の三つの不等式を導くことができる。
Chapter 8. Advertising on the Web
8.3.3. 貪欲アルゴリズムの競争率
M 0
M g
: 最大マッチ
: 貪欲アルゴリズムの発見したマッチ
L : 最大マッチに含まれ、貪欲アルゴリズムのマッチには含まれない左端ノードのセット
R : L内のノードのいずれかとエッジで繋がっている右端ノードのセット
と より、 |L| ≦ |R| |R| ≦ | | M g |L| ≦ | | M g
| | ≦ | | + |L| M g M 0 より、 | | ≦ 2| | M g M 0
• 式より、この貪欲アルゴリズムの競争率は1/2以上である • 8.2で、競争率は1/2以下であるとわかっている • 故に貪欲アルゴリズムの競争率は正確に1/2である
Chapter 8. Advertising on the Web
まとめ
• Webにおける広告 • 広告の表示媒体として、関連性の高いページを選ぶのが効率的
• Webにおいては、ページ情報だけでなく、ユーザ情報も考慮する
• 検索クエリを広告と結びつける’アドワーズ’モデル
• 検索エンジンでのクエリと広告のマッチング • クエリに対して広告を割り当てる段階で、未来の情報を用いることができない
• (貪欲な)オンラインアルゴリズムを使う
• オフラインに対するオンラインアルゴリズムの最悪性能の比を競争率と呼ぶ
• クエリと広告とをマッチ: 二部グラフの最大マッチング問題
• この貪欲アルゴリズムの競争率は1/2である
• 最悪のケースで最適なマッチングの1/2の性能