recsys2016勉強会資料

Contrasting Offline and Online Results when Evaluating Recommendation

Algorithms

神嶌敏弘 RecSys2016勉強会

1

概要

2

推薦システムはオフラインでホールドアウトデータに対して評価されることが一般的だが，その結果はオンライン評価と異なるという報告

↓ 既存研究では，オフライン・オンライン評価で利用者が違っていたので，同一利用者集団での評価を試みる

研究課題 1. 利用者中心評価での相対順位を，オフラインの予測精度に基づくア

ルゴリズムによって予測できるか？ 2. ロングテールアイテムに対する予測精度のオフラインの評価尺度に

基づく順位は，利用者中心の評価のそれと同等か？ 3. 利用者中心評価における推薦の効用をオフライン評価尺度で予測で

きるか？

データと被験者

3

Movielens 1M データの映画に詳細情報を付加した自作サイトオフライン評価：被験者は大学のメーリングリストで募集，241人が平均137件のフィードバック→ 4種類のアルゴリズムを訓練オンライン評価：4種のアルゴリズムの推薦結果を一つのリストに集約し映画情報と共に提示→ 100人が全アイテムについて見たいと思うかなどを回答

比較手法

4

POP：最も人気のあるものを推薦するベースライン手法．利用者個人の嗜好は無視 MF80：[12]の行列分解，因子数 80，オフラインの評価は最もよい MF400：[2] に基づき，因子数を400に増やしてロングテールアイテムを対象にした行列分解 I2ICF：[10] のアイテムベースのメモリベース手法．他のアルゴリズムとは異なった推薦の傾向

全アイテムについての評価

5

オフラインで統計的に有意な差が観測されても，それをオンラインの結果を確認することはできなかった

MF400 MF80

POP I2I

p = 0.05 p = 0.05 p = 0.05

MF80 MF400

POP I2I

p = 0.05 p = 0.05 p = 0.1

Algorithm Offline OnlineI2I 0.438 0.546

MF80 0.504 0.598MF400 0.454 0.604POP 0.340 0.516

Offlineprecisionallitems

Onlineprecisionallitems

勝ってる方から負けてる方に矢印

ロングテールアイテムに対する評価

6

オンラインとオフラインで結果は一致オフラインでは，MF80のロングテールへの精度は，MF400 や I2ICF よりずっと悪く，データ全体での評価とは大きく異なる

MF80

MF400

POP

I2I

p = 0.05p = 0.05

p = 0.05p = 0.05

p = 0.05

p = 0.05

Offline=Onlineprecisionlongtailitems

Algorithm Offline OnlineI2I 0.280 0.356

MF80 0.018 0.054MF400 0.360 0.628POP 0.000 0.000

有用性の比較

7

オフライン評価で良かったMF80が，有用な推薦では有意に悪い

まだ知らなくて適合するアイテムを推薦したとき有用と見なす

MF400I2I

POP

p = 0.05 p = 0.05MF80

p = 0.05 p = 0.05

p = 0.05

Usefulrecommendations

Algorithm OnlineI2I 0.126

MF80 0.082MF400 0.116POP 0.026

recsys2016勉強会 資料

Data & Analytics

recsys2016勉強会資料