a forward-backward splitting method with component-wise lazy evaluation for online structured convex...

A Forward-Backward Splitting Methodwith Component-wise Lazy Evaluation

for Online Structured Convex Optimization

最適化数理分野��

1

鋒幸洋�

数理工学専攻修士論文発表会 2016年2月18日鋒幸洋プレゼン資料　

平成28年度数理工学専攻説明会

第１回：平成２８年５月７日(土) １３：３０～第２回：平成２８年５月３０日(月) １７：００～

場所、プログラムの詳細は以下の専攻ＨＰをご覧ください。http://www.amp.i.kyoto-u.ac.jp

＊説明会は教員とのコネクションを作るチャンスです。＊本説明会は修士課程の説明会も兼ねています。

京都大学大学院情報学研究科数理工学専攻

博士後期課程の学生募集

http://www.amp.i.kyoto-u.ac.jp/

問題設定�

2

例2：統計・確率計画�

�� . ただしは確率変数のサンプル．�

‣  は微分可能な凸関数，も凸関数�

例1：機械学習�

��はデータのサンプル数を表す．は番目のデータによる�損失関数，はL1正則化項などの正則化項とする． �

は正則化項や制約集合の標示関数とする．�

問題設定�

3

‣  さらに以下の性質を持つ問題を考える. �

(i)  は非常に大きい正の数.�→サンプル数に対応し, ビッグデータを扱う問題などが該当する. �

�

問題設定�

4



�(ii)  はの各成分に対して分解可能. i.e. �

→機械学習などの分野で一般的に用いられる正則化項が該当. �

問題設定�

5



�(ii)  はの各成分に対して分解可能. i.e. �

→機械学習などの分野で一般的に用いられる正則化項が該当. ��(iii)  の多くの成分が0である.�

→応用先でのデータに依存する.�

6

‣  データを分類する機械学習の問題において, ロジスティック損失 � を用いることが多い.��

�

ここで, はサンプル目の特徴ベクトル, はクラスを表す. �

��

問題設定( がスパースとなる問題)�


7


�

★  すなわち, 特徴がスパースであれば, 勾配もスパースとなる.�


��

8


�

★  すなわち, 特徴がスパースであれば, 勾配もスパースとなる.�

✦  の次元は数十万と非常に大きい.� �✦  一方で, ひとつのテキストには数百程度の単語しか登場しないため,�� はスパースなベクトルとなる. (非ゼロ成分は0.1%程度) � �

✦  は番目のテキストデータに単語が登場する回数を表す. �

例：テキストデータの特徴�


��


Forward-Backward Splitting Method

9

Forward-Backward Splitting Method (FOBOS)

‣  が大きな問題に対し, 目的関数の一部のみを用いて更新する. �

‣  に対する勾配法とに対する近接点法を組み合わせた FOBOS�が一般的に用いられる. �


10




FOBOSによる更新�

(勾配法)�

(近接点法)�


11





(勾配法)�

(近接点法)�


12

‣  勾配法と近接点法では同じステップサイズが用いられる. �



(勾配法)�

(近接点法)�




13



(勾配法)�

(近接点法)�

‣  勾配の成分が0であれば, 勾配法はとなり, 計算の必要がない. �



‣  とすると, 勾配法は , 近接点法は . �


14



(勾配法)�

(近接点法)�



‣  勾配の成分が0であれば, 勾配法はとなり, 計算の必要がない. �

Forward-Backward Splittingと遅延評価�

15

‣  FOBOSの更新の一部を遅延評価する手法も知られている[Langford, 09]. �

勾配法の更新�

近接点法の更新�



…�

通常のFOBOS �

1回の�反復�


16






…�




勾配法の更新�…

�…

�

通常のFOBOS � 遅延評価するFOBOS �

‣  遅延評価を行うFOBOSをL-FOBOSと呼ぶ. �

1回の�反復�

反復�続けて更新�



17






…�





�…

�

‣  近接点法を遅延評価する場合, 勾配法と同じステップサイズを用いる.�


1回の�反復�




18






…�





�…

�


1回の�反復�


�


�


19






…�





�…

�


1回の�反復�

1反復に�まとめて更新�

�


�

‣  がに依らないため, 近接点法の遅延評価の更新はで�計算できることが知られている[Duchi,09]. �


20






…�





�…

�


1回の�反復�

‣  L-FOBOSはの情報を無視した, 性質の悪い点列を生成してしまう. �

1反復に�まとめて更新�

�


�

成分ごとに遅延評価するFOBOS(提案手法)�

21

‣  具体的に, の更新を後の反復に遅らせ, 各反復で � に対する勾配法と遅延評価を行う. ��

‣  が分解可能であることを利用して, 成分ごとに� を遅延評価する.��


22

‣  このアルゴリズムをCL-FOBOSと呼ぶ.�

成分ごとに遅延評価するFOBOS (CL-FOBOS)

(勾配法)�

(遅延評価)�

‣  ここで, は前回が更新された反復以降のステップサイズの和. �




23

‣  CL-FOBOSは各反復でを考慮することができ, 反復あたりの�計算量もで行うことができる. ��

成分ごとに遅延評価するFOBOS (CL-FOBOS)

(勾配法)�

(遅延評価)�




24

仮定2:� のすべての成分は少なくとも回に一度の反復で�遅延評価される．�

とする. 仮定1, 2が満たされるとき，�

ただし，であり, � はその最適値である. �

仮定1: FOBOSの解析で用いられる仮定が成り立つ.�

CL-FOBOSによる最適値についての定理�

数値実験�

25

Amazonレビューの2クラス分類を行い, L-FOBOSとCL-FOBOSを比較. �

‣  ロジステック損失とL1正則化項を使用したモデル.�

‣  によってのスパース性を制御する. �

l 学習モデル�

数値実験�

26

Amazonレビューの2クラス分類を行い, L-FOBOSとCL-FOBOSを比較. �

l 学習モデル�

サンプル数( )� 特徴数( ) � 非ゼロ成分の割合�

4,465� 332,440� 0.06%�

‣  100,000サンプルをランダムに抽出して学習に使用.�

‣  ロジステック損失とL1正則化項を使用したモデル.�

‣  によってのスパース性を制御する. �

l データセットの概要�

数値実験�

27

•  のとき�(L-FOBOS) を変えたときにトレードオフの関係が成立.�(CL-FOBOS) 同じ実行時間の既存手法より関数値が小さい.�

実行時間(秒)�

点�列�に�よ�る�関�数�値�

数値実験�

28

•  のとき�正則化項の影響が小さく, トレードオフの関係は不成立.�

実行時間(秒)�

点�列�に�よ�る�関�数�値�

数値実験�

29

•  のとき�(L-FOBOS) の遅延評価を行うときだけ点列がスパースになる.�(CL-FOBOS) 常にスパースな点列を生成する.�

非�ゼ�ロ�成�分�の�割�合�

反復数�

まとめ�

30

• 成分ごとに遅延評価を行うFOBOSを提案した.�

• 提案手法に対する収束性の解析を行った.�

• 数値実験を行い, がある程度大きいモデルに対して�提案手法の優位性を確認した. �

a forward-backward splitting method with component-wise lazy evaluation for online structured convex...

Presentations & Public Speaking