recsys2016勉強会 資料
TRANSCRIPT
Contrasting Offline and Online Results when Evaluating Recommendation
Algorithms
神嶌 敏弘 RecSys2016勉強会
1
概要
2
推薦システムはオフラインでホールドアウトデータに対して評価されることが一般的だが,その結果はオンライン評価と異なるという報告
↓ 既存研究では,オフライン・オンライン評価で利用者が違っていたので,同一利用者集団での評価を試みる
研究課題 1. 利用者中心評価での相対順位を,オフラインの予測精度に基づくア
ルゴリズムによって予測できるか? 2. ロングテールアイテムに対する予測精度のオフラインの評価尺度に
基づく順位は,利用者中心の評価のそれと同等か? 3. 利用者中心評価における推薦の効用をオフライン評価尺度で予測で
きるか?
データと被験者
3
Movielens 1M データの映画に詳細情報を付加した自作サイト オフライン評価:被験者は大学のメーリングリストで募集,241人が平均137件のフィードバック→ 4種類のアルゴリズムを訓練 オンライン評価:4種のアルゴリズムの推薦結果を一つのリストに集約し映画情報と共に提示→ 100人が全アイテムについて見たいと思うかなどを回答
比較手法
4
POP:最も人気のあるものを推薦するベースライン手法.利用者個人の嗜好は無視 MF80:[12]の行列分解,因子数 80,オフラインの評価は最もよい MF400:[2] に基づき,因子数を400に増やしてロングテールアイテムを対象にした行列分解 I2ICF:[10] のアイテムベースのメモリベース手法.他のアルゴリズムとは異なった推薦の傾向
全アイテムについての評価
5
オフラインで統計的に有意な差が観測されても,それをオンラインの結果を確認することはできなかった
MF400 MF80
POP I2I
p = 0.05 p = 0.05 p = 0.05
MF80 MF400
POP I2I
p = 0.05 p = 0.05 p = 0.1
Algorithm Offline OnlineI2I 0.438 0.546
MF80 0.504 0.598MF400 0.454 0.604POP 0.340 0.516
Offlineprecisionallitems
Onlineprecisionallitems
勝ってる方から 負けてる方に矢印
ロングテールアイテムに対する評価
6
オンラインとオフラインで結果は一致 オフラインでは,MF80のロングテールへの精度は,MF400 や I2ICF よりずっと悪く,データ全体での評価とは大きく異なる
MF80
MF400
POP
I2I
p = 0.05p = 0.05
p = 0.05p = 0.05
p = 0.05
p = 0.05
Offline=Onlineprecisionlongtailitems
Algorithm Offline OnlineI2I 0.280 0.356
MF80 0.018 0.054MF400 0.360 0.628POP 0.000 0.000
有用性の比較
7
オフライン評価で良かったMF80が,有用な推薦では有意に悪い
まだ知らなくて適合するアイテムを推薦したとき有用と見なす
MF400I2I
POP
p = 0.05 p = 0.05MF80
p = 0.05 p = 0.05
p = 0.05
Usefulrecommendations
Algorithm OnlineI2I 0.126
MF80 0.082MF400 0.116POP 0.026