第3回関西nips読み会:temporal regularized matrix factorization for high dimensional time...
TRANSCRIPT
Temporal Regularized Matrix Factorization
for High-dimensional Time Series Prediction
Hsiang-Fu Yu*, Nikhil Rao**, Inderjit S. Dhillon**University of Texas at Austin
**Technicolor Research
発表者:林勝悟
NIPS2016 読み会@立命茨木2017/03/18
自己紹介• 発表者:林 勝悟
現所属:阪大産業科学研究所沼尾研 M2 年4 月から:京大鹿島研 D1
• 研究興味:異常検知・変化検知 in 構造データ
• 趣味:スケボー,日本茶(南部鉄器で沸かしたお湯を,ガラスの茶海で冷まし,常滑焼の急須で淹れ,有田焼の湯呑みで頂くのが直近の夢)
2
時系列データ• 高次元化する時系列データ– 数千次元に上るデータの予測の計算コストは莫大
• ノイジーかつ欠損値が多い• 高次元かつ欠損値にも対応できるモデルが必要
3*1 https://climatedataguide.ucar.edu/climate-data/gpcp-monthly-global-precipitation-climatology-project
1979-2010 年に観測された降雨量 *1
既存時系列モデル• Autoregressive (AR) Models• Dynamic Linear Models– e.g. Kalman filter
• 計算コストと欠損値の扱いが問題– n 次元 T 時系列データに対する L 次 AR model の
O(Ln^2) のパラメータ推定の計算オーダーはO(TL^2n^4+L^
– Kalman filter はパラメータアップデートに ( k は潜在次元数)
– AR は欠損値扱いが困難 [1]4
Matrix Factorization (MF)• 計算コストは次元数 n の線形オーダー• 欠損値対応可• 以下の目的関数を最適化することにより得られる
F , X から Y を予測
5
二乗誤差 正則化項
n
kT
時系列行列の分解
MF の時間正則のためのグラフ正則
6
グラフ
依存時系列差集合 (lag
set)エッジ重み
のグラフ
グラフ正則の問題• のため逆相関を扱えない• グラフ構造が自明なケースは少ない– = {1} が多用されるが,予測精度に問題– エッジ重みの学習が難しい• 以下の最適化問題を解くと = を得てしまう
• の正則化項 を設けても, = 1 である,ワンホットベクトル を得てしまう.ここで,
7
Temporal Regularized Matrix Factorization (TRMF)
著者らは時系列モデルに基づく正則化項の導入を提案
• データドリブンに時間構造を学習• ( 既存 MF と同様に )– 欠損値対応可– スケーラブル
• 既存ソルバーが適用可• 逆相関も学習可
8
のある時系列モデルを想定
以下の正則化項を MF の目的関数に導入
9
ガウシアンノイズ と をパラメータとする時系列モデル
Temporal Regularized Matrix Factorization (TRMF) (cont.)
• の目的関数はある種の MAP 推定であるため,既存アルゴリズムで適切に推定可能
• で を予測した後, により,予測
• = で欠損値補間
10
Temporal Regularized Matrix Factorization (TRMF) (cont.2)
TRMF AR Models (TRMF-AR)TRMF の AR モデルを提案. とする.ここで,
このとき, AR に基づく正則化項を以下の用に記述.
なお, , ,
11
TRMF AR Models (TRMF-AR) (cont.)
をそれぞれ対角行列に制約.– パラメータ数 →– 過学習を回避– 解釈性が向上
以降, 列が の対角成分であり,それ以外の成分が 0 である と表記.以下のように正則化項を変形.
ここで, を の r 行, を の r 行.
12
TRMF AR Models (TRMF-AR) (cont.2)• がそれぞれ対角行列になっても, を通し
て, の各次元間の構造学習が可能(逆に言うと,潜在空間の各次元が他次元と独立なAR となるように を学習する)
• はドメイン知識を自由組み込んだり長期間に設定可e.g. 1 日単位のデータの季節周期
13
グラフ正則と TRMF-AR の関係
となるように,
, とする.このとき,ある対角行列 と重み符号付きグラフ が存在し,
となる.また, , において
,である.
14の場合のグラフ
定理1
TRMF-AR のパラメータ最適化
交互最適化法により最適化可能
各パラメータの計算コスト•
Alternating Least Squaresや Coordinate Descent で• – Graph Regularization と同じ形式で表現できるため,
GRALS[4] が適用可能で•
フロベニウスノルム の場合,コレスキー分解で,
15
既存 Temporal MF と TRMF-AR の関係
TRMF-AR は既存 Temporal MF の一般化に相当• Temporal Collaborative Filtering[23] は• Nonnegative Matrix Factorization[5] は,
を使って ,となる
• [6,7] は に対して
16
Gaussian Markov Random Fields とTRMF-AR の関係
GMRF :
任意の , において, TRMF-AR に対応するGMRF の共分散行列 は,定理1の と同様の非対角成分の非零パターンを持ち,
である.
17
e.g.
系1
Gaussian Markov Random Fields とTRMF-AR の関係 (cont.)
とすると, [4] の Theorem 1 と系 1 より,を用いて以下の重み付き核型ノルムを記述できる.
ここで, , である. とするとき,以下の凸緩和問題 (1) を考える.
ここで, , は low spikiness[4] な行列集合である.このとき, [4] の Theorem 2 より,続く系 2 を得る.
18
・・・ (1)
Gaussian Markov Random Fields とTRMF-AR の関係 (cont.2)
をランク で 時系列の正解行列とする. を,分散 のガウスノイズがのり,ランダムに観測され である行列とする.凸緩和問題(1) で得られた確信度の高い を用いて,
であり, が与えられている場合,
である.ここで, は正定数であり, は に依存する.
19
系2
実験設定データセットの統計
各手法の
k と λ は時系列交差検証で決定し, Normalized Deviationと Normalized Root Mean Squared Error を評価 20
手法 synthetic electricity traffic walmart-1 walmart-2
TRMF-AR {1,…,8} {1,…,24}U {7×24,…,8×24-1} {1,…,10}U {50,…56}SVD-AR(1) 1 1 1 1 1
TCF[23] 1 1 1 1 1
AR(1) 1 1 1 1 1
DLM 1 1 1 1 1
Mean all all all all all
synthetic electricity traffic walmart-1 walmart-2n 16 370 963 1,350 1,582T 128 26,304 10,560 187 187
欠損比 0% 0% 0% 55.3% 49.3%
スケーラビリティの実験結果
• n=50000 では, 2 オーダー早い21
(T=512)
予測の実験結果
22
Matrix Factorization Models Time Series Models
TRMF-AR SVD-AR(1) TCF AR(1) DLM R-DLM Mean
synthetic 0.373/0.487 0.444/0.872 1.000/1.424 0.928/1.401 0.936/1.391 0.996/1.420 1.000/1.424electricity 0.255/1.397 0.257/1.865 0.349/1.838 0.219/1.439 0.435/2.753 -/- 1.410/4.528traffic 0.187/0.423 0.555/1.194 0.624/0.931 0.275/0.536 0.639/0.951 -/- 0.560/0.826
walmart-1 0.533/1.958 -/- 0.540/2.231 -/- 0.602/2.293 -/- 1.239/3.103
walmart-2 0.432/1.065 -/- 0.446/1.124 -/- 0.453/1.110 -/- 1.097/2.088
欠損値なしデータ
欠損値ありデータ
欠損値補間の実験結果
23
ある割合のデータを欠損値として予測
結論• 著者らは,欠損値を含む高次元データにも有効な
Temporal Regularized Matrix Factorization(TRMF)及び AR に基づく TRMF-AR を提案
• TRMF は自動で時間依存性を学習• TRMF-AR と既存研究を関連付けた• 高いスケーラビリティと精度を実証
24
レビュー
5 2-Confident (read it all; understood it all reasonably well) 1 1-Less confident (might not have understood significant parts)
6レビュー全て割りとべた褒めで,提案や論文構成に対するネガティブなコメントは特に無し
25
コメント
Pros• 論文構成や既存研究との関連付けが綺麗
Cons• AR(7)等の予測精度と比較・議論すべきでは?比較手法が提案法に多少都合の良いように設定された印象
• 逆相関を持つ人工データも実験すればもっと提案法の主張を強められたのでは?
26
参考文献[1] O. Anava, E. Hazan, and A. Zeevi. Online time series prediction with missing data. In Proceedings of the International Conference on Machine Learning, pages 2191–2199, 2015.[3] L. Xiong, X. Chen, T.-K. Huang, J. G. Schneider, and J. G. Carbonell. Temporal collaborative filtering with Bayesian probabilistic tensor factorization. In SIAM International Conference on Data Mining, pages 223–234, 2010.[4] N. Rao, H.-F. Yu, P. K. Ravikumar, and I. S. Dhillon. Collaborative filtering with graph information:Consistency and scalable methods. In Advances in Neural Information Processing Systems 27, 2015.[5] Z. Chen and A. Cichocki. Nonnegative matrix factorization with temporal smoothness and/or spatial decorrelation constraints. Laboratory for Advanced Brain Signal Processing, RIKEN, Tech. Rep, 68, 2005. [6] M. Roughan, Y. Zhang, W. Willinger, and L. Qiu. Spatio-temporal compressive sensing and internet traffic matrices (extended version). IEEE/ACM Transactions on Networking, 20(3):662–676, June 2012.[7] Y. Zhang, M. Roughan, W. Willinger, and L. Qiu. Spatio-temporal compressive sensing and internet traffic matrices. SIGCOMM Comput. Commun. Rev., 39(4):267–278, Aug. 2009. ISSN 0146-4833.
27
予備• [3]
• Spikiness[4] :
•
• 28