意思決定に役立てるデータ分析の最新技術と事例ご紹介 ·...

Copyright © 2013 NTT DATA Corporation

株式会社 NTTデータ数理システム

データビジネス創造フォーラム

＠ベルサール汐留

2014年9月25日株式会社 NTTデータ数理システム雪島正敏

意思決定に役立てるデータ分析の最新技術と事例ご紹介

2 Copyright © 2013 NTT DATA Corporation

内容

紹介

自己紹介

会社紹介

パッケージ紹介

業務紹介

最新の機械学習

オンライン学習

Deep Learning

ノンパラメトリックベイズ

適用事例

画像識別（Deep Learning）

価格プライシングモデル（State Space Model）

動的クラスタリング（Dynamic Topic Model）


自己紹介

1999年株式会社数理システム（現株式会社NTTデータ数理システム）入社

弊社パッケージソフト Visual Mining Studio（VMS）の開発に従事

その後、VMSを用いマーケティング、製造、金融、エネルギー、インターネットなど様々な業種のデータ分析・モデル構築に従事

現在に至る


NTTデータ数理システムとは

製品開発・販売受託・カスタマイズ・コンサルティング

数理計画ソリューション

シミュレーションソリューション

データマイニングソリューション

科学技術ソリューション

知識工学ソリューション

1982年設立東京都新宿区従業員数 90名弱資本金 5,600万円

総務部

社長

営業部

BI推進センタ

取締役会

科学技術部

数理計画部

データマイニング部

知識工学部

数理科学とコンピューターサイエンス。 2つの接点で独創的な技術を育み、科学技術の発達と産業の高度化に貢献しています。

シミュレーション＆マイニング部


ソリューションの基盤となる数理システムパッケージ製品

• 需要予測・傾向分析・クラスタリングデータマイニング

Visual Mining Studio

• ネガポジ分析・特徴分析・話題分析テキストマイニング

Text Mining Studio

• スケジューリング・組み合わせ最適化数理計画・最適化

Numerical Optimizer

• ポートフォリオ最適化・シナリオ発生金融工学 FIOPT

• 回帰・検定・多変量解析統計解析 S-PLUS

• イベント・連続系・エージェントシミュレーションシミュレーション S４

• 大規模データモデリング・オンラインアルゴリズムビッグデータ

Big Data Modoule

半導体TCADシミュレータ ParadiseWorld II

超高速シミュレーションツール Monaco

ベイジアンネットワーク構築 Bayonet 他

数理科学を活かしたその他製品


株式会社 NTTデータ数理システム業務紹介

データマイニング×最適化×シミュレーション

⇒ 世界トップクラスのテクニカルコンサルテーション

⇒ 新規性のある課題への挑戦

自社開発パッケージによる開発・チューニング

⇒ 小回りの利く素早い対応、カスタマイズも容易

豊富な受託分析・システム開発経験

⇒ 年間50本以上のデータマイニング・最適化案件

⇒ ビジネスからアカデミックまで幅広い分野で活躍

http://www.msi.co.jp/bdmodule/

Copyright © 2013 NTT DATA Corporation 7

データ分析×数理計画×シミュレーション


各種ビッグデータ

コンタクトログ（音声／テキスト） IVR フラグ

時刻 etc…

コンタクトセンターのログ記録

Webアクセスログ

POSデータ

製造装置からの製造ログデータ

気象センサーデータ

活用するって？

TwitterやブログなどのSNSからのテキスト、画像、動画情報


活用するとはどういうこと？

コンタクトセンターの問い合わせクレームの中で、頻出製品及び問題点の関連性を抽出し、製品改善に活かす

例えば

アクセスログから、閲覧行動のセグメンテーションを行い、効率よく閲覧行動が行えるように、Webページの構成を見直す

例えば

ID付きPOSデータから、併売関係を抽出し、ある商品の購入者に、併売確率の高い商品をレコメンドすることで売上アップを行う

例えば

自然界のセンサーデータから、降雨量を予測し、水不足に備える

例えば


分析して意思決定を行える情報を見出す事が重要

データ収集

分析

情報をもとに計画

計画をシミュレーション

実行

ビッグデータ活用のためのPDCAサイクル

①

② ③


データ分析レコメンデーション

レコメンドする商品は・・・

購買履歴データからアイテムごとの購買確率を求める

出来た確率表から、どの商品に興味をもっているかがわかる

• 協調フィルタリング、行列分解、二項ソフトクラスタリング、etc.

実際にどの商品を推薦するか・・・

確率の高い商品を推薦すればよさそうだが

さらに

数理計画

• 様々な制約条件化での最適な配分を求める

シミュレーション

• 不確実要因を定量的に評価

0.0 0.3 0.1

0.0 0.2 0.1

0.2 0.3 0.0

0.1 0.3 0.0

0.0 0.1 0.3


数理計画バランスを考慮したレコメンデーション

レコメンドのむつかしさ・・・・

単純に確率の高い商品を推薦すると、

既に既知な商品が推薦されてしまう ⇒ すでに購入した商品は推薦しない

誰にでも同じ商品が推薦されてしまう ⇒ 全体を見てバランスよく推薦

いつも同じ商品が推薦されてしまう ⇒ 全体を見てバランスよく推薦

単純なルールベースではなく、もう少し複雑なバランス感覚が要求される

0.0 0.3 0.1

0.0 0.2 0.1

0.3 0.4 0.0

0.1 0.3 0.0

0.0 0.1 0.3

0.0 0.3 0.1

0.0 0.2 0.1

0.3 0.4 0.0

0.1 0.3 0.0

0.0 0.1 0.3

数理計画により制約付きのレコメンドを実現！！


シミュレーションレコメンデーション結果の評価

レコメンドのむつかしさ・・・・

各商品の売上期待値をある金額（1000円）以上にするように推薦すると

実際にはその商品を購入するかどうかは確率的にしかわからないため、結果はある範囲にばらつく

0.0 0.3 0.1

0.0 0.2 0.1

0.3 0.3 0.0

0.1 0.3 0.0

0.0 0.1 0.3

3600 × 0.3 = 1080円

2000 × (0.3 + 0.3) = 1200円

3000 × (0.1 + 0.3) = 1200円

購入金額

ランダム配信

最適化に基づく配信

結果のばらつき＝ロバスト性

確率

シミュレーションにより、結果のロバスト性を評価する


データ分析最新手法紹介


内容

データ分析に注目して、その最新手法を紹介する

オンライン学習

• 確率的勾配効果法

• 状態空間モデル

Deep Learning

• 表現学習


• 自動化


データ分析に必要な事

手順

データ整形

特徴量抽出 ←実は非常に重要

分類モデル作成 ←大規模データでも高速に学習したい

評価 ←モデル選択

特徴量抽出はかなり属人的な作業

変数選択あたりはある程度自動化可能（組み合わせ最適化問題として解くなど）

そもそもどんな特徴量を用いる？

表現学習（Deep Learning、Sparse Coding、etc.）

分類モデル作成

オンライン学習 ⇒ 確率的勾配降下法

状態空間モデル

モデル選択問題

分類モデルには様々なパラメータが存在

パラメータを様々に変えたときのモデルを評価して（AICとか）モデルを選択することは可能

モデル自体の複雑度も学習できたら ⇒ ノンパラメトリックモデル


オンライン学習確率的勾配降下法

ビッグデータがよりビッグになったら・・・

そもそもstorageできない

streamで処理する必要がある

1データ（少量のデータ）ずつ処理できるオンライン学習が有効

確率的勾配降下法（Stochastic Gradient Descent）

最適化問題へのアプローチとしてみた場合（バッチ学習と比べて）

小メモリ、小計算量 ⇒ 高速

経験損失を最小化するという意味ではかなわない

本当に欲しいのは期待損失（汎化誤差）最小化なので構わない

dzzpzwlwL )(),()(

),(1 tttttt zwlCww )(1 ttttt wLCww

損失関数の期待値

勾配

一部のデータを用いて計算


オンライン学習確率的勾配降下法

環境の変化が速くなってきている・・・

モデル学習のためのデータを蓄積している時間がない

蓄積しているうちにまた変化するかもしれない

逐次的にモデルを更新する必要がある

1データ（少量のデータ）ずつ処理できるオンライン学習が有効

動的モデル更新としてみた場合

時間と共に変化していく環境に対応

逐次的にモデル（仮説）を更新していく

累積損失を最小化

例

近隣に大きなマンションが建った

今までの需要予測モデルは使えない

新たな環境でのデータがたまるまで需要予測ができないとすると・・・

オンライン学習によりマンション建築後のデータを逐次的に学習させ、モデルを逐次的に更新する


オンライン学習状態空間モデル

状態空間モデルとは

観測方程式とシステム方程式で記述される

観測される量と観測されない量を用いてモデル化する

• 観測値に欠損があっても推定可能（時間発展はシステム方程式で記述するので）

観測値は状態を観測したもので何かしらの観測ノイズが含まれる。

• ノイズを除去する = 状態を推定

ttttt

tttt

vGxFx

wxHy

1

観測方程式

システム方程式

ナイル川の水位



動的線形モデル

観測方程式における Ht を線形回帰における共変量とみなすと、xt は時間と共に変化する偏回帰係数とみなすことが出来る。

データ同化

対象の時間発展を記述する基礎方程式（観測方程式、システム方程式）がある程度決まる場合、実際に観測されたデータをうまく説明するように方程式のパラメータを推定する

• 状態が何を表すかがある程度自明であるケース

そうでないとモデルの自由度が高すぎるために何を求めたのかわからなくなる

後で紹介・・・

ttttt

tttt

vGxFx

wxHy

1

ttt wHy 線形回帰モデル Ht が共変量でβが偏回帰係数

動的線形モデル Ht が共変量で xt が偏回帰係数（時間とともに変化）



状態推定

フィルタと1期先予測を繰り返し状態を推定する

モデルが動的に変わる（時刻とともに偏回帰係数が変化する回帰モデル）ような場合に逐次的にモデル更新できるオンライン学習が可能である。

前述のSGDによるオンライン学習では静的なモデルをオンライン学習していたが、状態空間モデルは動的なモデルである点が異なる。

ttttt

tttttt

tttttt

dxyxpxxp

dxyxpyxxp

dxyxxpyxp

)|()|(

)|(),|(

)|,()|(

:11

:1:11

:11:11

tttt

ttt

tt

ttt

ttttt

dxyyxp

yyxp

yyp

yyxp

yyxpyxp

)|,(

)|,(

)|(

)|,(

),|()|(

1:1

1:1

1:1

1:1

1:1:1

予測フィルタ


Deep Learning 概要

Deep Learningとは

多層のNeural Network（= Deep Neural Network）を用いた学習

問題は

過剰学習が起きてしまう

多層で学習させると、（Backpropagationなどでは）一部の層のみでデータを表現可能となり全体では学習できない


Deep Learning 概要

ブレイクスルー

pre-training （unsupervised learning） + fine tuning （supervised learning）

pre-trainingでは、それぞれの層ごとに学習を行う

• なるべく元の情報を保存するように学習

• その層の出力を次の層の入力として再学習

pre-trainingは特徴抽出を行っていると考えられる

• その意味で表現学習（representation learning）とも言われる

Auto Encoder Restricted Boltzmann Machine Sparse Coding, etc.


Deep Learning 学習方法

fine tuning

pre trainingの後、教師ありデータで全パラメータを調整

他の分類器の利用

pre trainingの後、Neural Networkの出力を特徴量として Support Vector Machineなどの他の分類器で学習

最初から教師あり学習

pre trainingがブレイクスル―のきっかけではあるが、最初から学習させてもうまくいくことがわかってきた

得られたパラメータを初期値として用いる

ニューラルネットの出力を特徴量として用いる

ＳＶＭなど


Deep Learning その他

表現学習

大量のデータから事前知識を獲得する

• 何か適当にデータを突っ込むと、特徴を学習してくれる・・・・

Convolutional Neural Network

人間の脳神経の仕組みをモデル化（局所受容野など）

後で紹介・・・

Transfer Learning

事前知識をうまく与えることでより複雑なタスクをこなしてくれる

• 自己教示学習(対象となるデータ以外のデータで事前学習)

サブタスクを学習させることで複雑なタスクをこなしてくれる

• Curriculum Learning

複数のタスクを同時に行う事でよりロバストなモデルが構築できる

• Multitask Learning


ノンパラメトリックベイズ概要

モデルの複雑さ(ex. クラスタ数)を事前に決めるのは困難。

データからモデルの複雑さも学習（推定）したい。

パラメトリックベイズ

複雑さが異なる複数のモデルを用意 => 各モデルの良さを評価し、最も良いものを選択


データに応じていくらでも複雑さが大きくなり得るモデルを一つ用意する。

モデルの複雑さも推定する。

ノンパラベイズによ

る推定

自動でクラスタ数=3と決定


ノンパラメトリックベイズモデリング

ノンパラメトリックベイズの主流は生成モデル的アプローチ。

1.モデル化：データがどのように生成されるかを確率モデルで表す。

• P(推定したい変数Y , 値が既知の変数X, その他の変数W )

2. 推論：ベイズの公式から導出される P(Y | X)に基づいて、推定を行う。

• 多くの場合、P(Y | X)の計算は近似的に行われる。(変分ベイズ、MCMC, etc.)

モデル化の際に、複雑さKも確率的に決まるようにするのがポイント。

• 事後確率P(K|X)から複雑さが推定できる。

クラスタリングにおけるモデル化の例

X=データ, Z=クラスタID, U=クラスタの中心, K=クラスタ数, N=データ数

パラメトリック（クラスタ数Kが固定）

• p(X, U, Z | K, N) = p(X | U, Z, N)p(U | K)p(Z | N, K)

ノンパラメトリック（クラスタ数が確率変数)

• p(X, U, Z, K | N) = p(X | U, Z, N)p(U | K)p(Z, K | N)

クラスタ数がデータ数に応じて確率的に決まる様子をモデル化

メモ以降では

1.モデル化の話のみ書いています


ノンパラメトリックベイズ中華レストラン過程

中華レストラン過程～ p(Z, K | N)の代表的な例～

レストランにN人の客が順次到着する。

レストランにはテーブルが無限個用意されている。

ｎ番目に到着した客は、以下の確率に従って座るテーブルを選択する。

• m人の先客がいるテーブルに座る確率 (m – 1) /(a + n – 1)

• 新しいテーブルに座る確率 a /(a + n – 1)

中華レストラン過程のポイント

テーブル数は潜在的には無限個あるが、N人の客が占めるのはそのうちの有限個(K個)。

客数が増えるにつれて、テーブルの個数が増える。=> データ数に応じたクラスタ数の増加

ただし、テーブルの個数は無暗には増えない。(K=a loｇ N 程度)=> 簡潔なモデルを優先

注意

テーブル数を制御するパラメータ a は存在する。

=> 経験ベイズ法により a も学習可能

客＝データテーブル＝クラスタ


ノンパラメトリックベイズその他のモデル・応用例

無限状態隠れマルコフモデル

品詞推定 (品詞の数も推定)

単語の分割 (語彙数も推定)

HDP-LDA(階層ディリクレ過程ＬＤＡ)

文書・単語のクラスタリング（LDA）

HDP-LDA ではクラスタ数を指定することなくクラスタリング（LDA）が行える。

機械学習のアルゴリズムを利用すると、コンビニでの売れ高を予測することが可能になる。

副詞

助詞

名詞

私はとても

私はとても嬉しいです


事例紹介


内容

画像識別

Convolutional Networkを用いた画像識別器の作成

価格変動モデル

Particle Filterを用いた価格変動モデルの推定と予測

動的クラスタリング

動的トピックモデルを用いた時間とともに変化するクラスタの推定


画像識別

画像識別のむつかしさ

何処に ⇒ 特徴量抽出問題

何が ⇒ 分類問題

映っているのか、という２つの問題を同時に解く必要あり


画像識別 Bag of keypoints

画像を局所特徴量の集合と捉えた手法である。局所特徴量ベクトルを量子化（クラスタリング）し、visual wordと呼ばれる特徴ベクトル（クラスタの代表的なベクトル）を生成する。それらをまとめたものをcode bookと呼び、それを記述子として画像の特徴ベクトルを生成する。

個々の局所特徴量は最も近いvisual wordに割り当てられる。それぞれ割り当てられた頻度を計数し、ヒストグラムを生成する。画像はvisual wordの集合（bag）として表現される。

このヒストグラムを用いて、画像の分類、識別を行う（識別器は様々な分類アルゴリズムが使われる）

図 bag of keypointsの流れ

※ 藤吉弘亘一般物体認識のための局所特徴量(SIFTとHOG)2008 より引用

局所特徴量としてはSHIFT特徴量、SURF特徴量、HOG特徴量などが存在する。局所特徴量を用いることで画像の回転普遍性や拡大縮小などに対する普遍性を担保する。


画像識別 Convolutional Neural Network

脳の視覚野の構造（Sparse Connectivity、Shared Weight）や、脳で視覚情報を処理するときの処理の仕方（Encoding）を模倣したNeural Network

Encoding Pooling

今回は繰り返しはないが、Deep Convolutional Neural NetworkではConvolutionとPoolingを繰り返すことで様々な変換に対する普遍性を獲得する。


画像識別 Convolutional Neural Network

Normalization, Whitening

Encoding

Pooling

Standardization

AutoEncoder (option)

Sparse Connectivity

EncodingにはSparse Codingを利用した。

特徴量を抽出してその結果を共変量としてSupport Vector Machineで分類した


画像識別局所画像のエンコーディング

𝑗

𝑗

𝐼 ∈ 𝑅𝑚, 𝑚 = 𝑑 ∙ 𝑗 ∙ 𝑗, 𝑑: 𝑐ℎ𝑎𝑛𝑛𝑒𝑙𝑠

𝐼: 局所画像

𝐼1, … , 𝐼𝑛: データセットからランダム抽出．

𝑅𝑚 ×

× ×

× ×

×

K-means, Sparse Coding, OMP, RBM, Auto Encoder…

𝐷: 𝑑𝑖𝑐𝑡𝑖𝑜𝑛𝑎𝑟𝑦

𝑓𝐷: 𝑅𝑚 → 𝑅𝑘 , 𝐸𝑛𝑐𝑜𝑑𝑒𝑟

=

𝑛𝑎𝑡𝑢𝑟𝑎𝑙,𝑇ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑,

𝑆𝑝𝑎𝑟𝑠𝑒 𝐶𝑜𝑑𝑖𝑛𝑔,𝑂𝑀𝑃,𝑒𝑡𝑐 …


画像識別 Encoderの種類

Sparse Coding

s = argmin𝑠 1

2𝑥 − 𝐷𝑠 2 + 𝜆 𝑠 1

Threshold 𝑠𝑙 = max 0, 𝐷𝑙

𝑇𝑥 − 𝜆

RBM, AutoEncoder 𝑠 = 𝜎 𝐷𝑇𝑥 + 𝑏 , 𝜎: 𝑠𝑖𝑔𝑚𝑜𝑖𝑑

Tanh 𝑠𝑙 = max 0, tanh 𝐷𝑙

𝑇𝑥


価格変動モデル背景

参考) 経済産業省資源エネルギー庁 HPより

2000年より電力の大口事業者への小売自由化が始まり、地域の電力会社以外の電力小売事業に新規参入した事業者も電気の供給を行っている。2016年度を目途に家庭などへの小売事業を自由化する（小売全面自由化）が行われます。


価格変動モデル概要

エネルギー、金属、穀物といったコモディティ（商品）の価格変動は、財の消費に本質的な価値が存在する実物資産であり、金融資産とは異なった価格変動パターンを示す。例えば、原資産の需給が引き締まっている状況では先物カーブにバックワーデーションという現象が生じやすく、また、貯蔵が困難な財（エネルギーなど）ではスパイク現象が生じることが知られている。こうした価格変動の特徴は株や債券などの金融資産に対するプライシングモデルではとらえられずコモディティのためのモデルが開発されている。

特徴

平均回帰と回帰水準のシフト

高ボラティリティ

スパイク、ジャンプ

モデル

ボラティリティ変動モデル

潜在変数モデル

ジャンプ過程モデル


価格変動モデル 2 factor model

tYtYt

tXttXt

X

t

dBdtYLdY

dBdtXYdX

eS t

S：Spot price B:ブラウン運動 Yt：long term mean

参考文献） Martin Barlow, Yuri Gusev and Manpo Lai, Calibration of Multifactor Models in Electricity Markets, International Journal of Theoretical And Applied Finance, (2003).

tYtYtt

tXttXtt

X

t

YLYY

XYXX

eS t

1

1

tttt

ttttt

vYFY

wAXYHX

1

1

X

Xt

YY

t

tt

A

H

LF

XX

1

0

1 0

1

Log Spot price Mean Reverting to Ornstein-Uhlenbeckモデル

確率微分方程式表現

状態空間表現

カルマンフィルタ表現


動的クラスタリング背景

商品や顧客が時間とともに変化するのに伴い、顧客や商品により構成されるクラスタも時間とともに変化する。そのクラスタの時間発展の様子を分析する方法を動的クラスタリングと呼ぶ。

新商品や新サービスが発売されたとき、既存のユーザが異なるグループに移動したり、新たなグループを形成したりする。

しかし、事前にどのような商品やサービスが発売されるかわからない（また、ユーザがそれに対してどう反応するかわからない）ため、クラスを事前に作成することはできない。


動的クラスタリング概要

クラスタの時間発展を記述する方法には、大きく2つの方法が考えられる。

クラスタの性質は不変であるとする

全ての期間を通して共通のクラスタ（性質）が存在する

そこに含まれる顧客が時間とともに変化していく

商品の入れ替わりが激しい場合など、事前にクラスタを用意することが難しい

• 期間により存在するクラスタが分かれてしまう

• 全ての性質を盛り込むには多くのクラスタが必要

クラスタの性質が時間とともに変化していく

それぞれの時間（間隔）でクラスタと、そのクラスタ間の時間発展を確率モデルとして記述

期間ごとにクラスタリングを行うと期間同士の対応が難しくなる

クラスタの時間発展をモデル化する

どの要素を時間発展させるかで様々なモデルが存在


動的クラスタリングイメージ

クラスタ不変

クラスタは不変でそこに含まれる顧客が時間とともに変化していく

クラスタ変化

クラスタ自体も時間とともに変化していく

クラスタ①

クラスタ②

クラスタ①

時刻 T1 T２ T3

時刻 T1 T２ T3

顧客

クラスタ


動的クラスタリング Topic Tracking Model

トピック（クラス）の確率分布を時間発展させるモデル

ユーザのトピック分布（φ）とトピックの商品分布（θ）を直接時間発展させる。

パラメータの推定は古い期間のものから順に貪欲的に行うため、現在の購買データは過去の期間のクラスタリングに反映されない。

n z

nnn PZPZItemPPdUserP )|()|(),|()|(),|(

時間発展する項

トピック分布トピック内での商品の分布

時間発展は以下の通り。現在のユーザの興味は過去のユーザの興味と新たに観測されたデータにより決定される、というモデル。

),(~),|(

),(~),|(

11

11

ttttt

ttttt

DirichletP

DirichletP


まとめ

今後、更に多くの多様なデータが集まってくる

無目的に集められたデータにはそれほど情報はないかもしれない

それでもより複雑なモデリングが可能になると期待

データが蓄積されるに従ってモデルが更新されていくような仕組みが必要

NTTデータ数理システムでは

数理的なアプローチでこれらに取り組んでいる（力技ではなく・・・）

分析だけではなく、数理計画やシミュレーションなども合わせ技で


まとめその他のトピック

非構造化データの分析

文書、画像、音声、動画などの非構造データ分析

ソーシャルメディアやニュースにあるテキスト情報を自然言語処理、画像識別、動画識別、音声認識などなど。

セマンティックデータベースの活用・・・

メカニズムの解明

個々の顧客の反応の有無だけでなく、SNSなどでのつながりなど、様々な要因の関連性とそれに対するレスポンスなど、情報の伝播メカニズムをモデル化し、現象をシミュレートする

意思決定に役立てるデータ分析の 最新技術と事例ご紹介 ·...

Documents

意思決定に役立てるデータ分析の最新技術と事例ご紹介 ·...