意思決定に役立てるデータ分析の 最新技術と事例ご紹介 ·...

47
Copyright © 2013 NTT DATA Corporation 株式会社 NTTデータ数理システム データビジネス創造フォーラム @ベルサール汐留 2014年9月25日 株式会社 NTTデータ数理システム 雪島 正敏 意思決定に役立てるデータ分析の 最新技術と事例ご紹介

Upload: others

Post on 09-Nov-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

Copyright © 2013 NTT DATA Corporation

株式会社 NTTデータ数理システム

データビジネス創造フォーラム

@ベルサール汐留

2014年9月25日 株式会社 NTTデータ数理システム 雪島 正敏

意思決定に役立てるデータ分析の最新技術と事例ご紹介

Page 2: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

2 Copyright © 2013 NTT DATA Corporation

内容

紹介

自己紹介

会社紹介

パッケージ紹介

業務紹介

最新の機械学習

オンライン学習

Deep Learning

ノンパラメトリックベイズ

適用事例

画像識別(Deep Learning)

価格プライシングモデル(State Space Model)

動的クラスタリング(Dynamic Topic Model)

Page 3: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

3 Copyright © 2013 NTT DATA Corporation

自己紹介

1999年株式会社数理システム(現 株式会社NTTデータ数理システム)入社

弊社パッケージソフト Visual Mining Studio(VMS)の開発に従事

その後、VMSを用いマーケティング、製造、金融、エネルギー、インターネットなど様々な業種のデータ分析・モデル構築に従事

現在に至る

Page 4: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

4 Copyright © 2013 NTT DATA Corporation

NTTデータ数理システムとは

製品開発・販売 受託・カスタマイズ・ コンサルティング

数理計画 ソリューション

シミュレーション ソリューション

データマイニング ソリューション

科学技術 ソリューション

知識工学 ソリューション

1982年設立 東京都新宿区 従業員数 90名弱 資本金 5,600万円

総務部

社長

営業部

BI推進センタ

取締役会

科学技術部

数理計画部

データ マイニング部

知識工学部

数理科学とコンピューターサイエンス。 2つの接点で独創的な技術を育み、 科学技術の発達と産業の高度化に貢献しています。

シミュレーション& マイニング部

Page 5: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

5 Copyright © 2013 NTT DATA Corporation

ソリューションの基盤となる数理システムパッケージ製品

• 需要予測・傾向分析・クラスタリング データマイニング

Visual Mining Studio

• ネガポジ分析・特徴分析・話題分析 テキストマイニング

Text Mining Studio

• スケジューリング・組み合わせ最適化 数理計画・最適化

Numerical Optimizer

• ポートフォリオ最適化・シナリオ発生 金融工学 FIOPT

• 回帰・検定・多変量解析 統計解析 S-PLUS

• イベント・連続系・エージェントシミュレーション シミュレーション S4

• 大規模データモデリング・オンラインアルゴリズム ビッグデータ

Big Data Modoule

半導体TCADシミュレータ ParadiseWorld II

超高速シミュレーションツール Monaco

ベイジアンネットワーク構築 Bayonet 他

数理科学を活かしたその他製品

Page 6: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

6 Copyright © 2013 NTT DATA Corporation

株式会社 NTTデータ数理システム 業務紹介

データマイニング×最適化×シミュレーション

⇒ 世界トップクラスのテクニカルコンサルテーション

⇒ 新規性のある課題への挑戦

自社開発パッケージによる開発・チューニング

⇒ 小回りの利く素早い対応、カスタマイズも容易

豊富な受託分析・システム開発経験

⇒ 年間50本以上のデータマイニング・最適化案件

⇒ ビジネスからアカデミックまで幅広い分野で活躍

Page 7: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

Copyright © 2013 NTT DATA Corporation 7

データ分析×数理計画×シミュレーション

Page 8: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

8 Copyright © 2013 NTT DATA Corporation

各種ビッグデータ

コンタクトログ(音声/テキスト) IVR フラグ

時刻 etc…

コンタクトセンターのログ記録

Webアクセスログ

POSデータ

製造装置からの 製造ログデータ

気象センサーデータ

活用するって?

TwitterやブログなどのSNSからの テキスト、画像、動画情報

Page 9: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

9 Copyright © 2013 NTT DATA Corporation

活用するとはどういうこと?

コンタクトセンターの問い合わせクレームの中で、 頻出製品及び問題点の関連性を抽出し、製品改善に活かす

例えば

アクセスログから、閲覧行動のセグメンテーションを行い、 効率よく閲覧行動が行えるように、Webページの構成を見直す

例えば

ID付きPOSデータから、併売関係を抽出し、ある商品の購入者に、 併売確率の高い商品をレコメンドすることで売上アップを行う

例えば

自然界のセンサーデータから、降雨量を予測し、水不足に備える

例えば

Page 10: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

10 Copyright © 2013 NTT DATA Corporation

分析して意思決定を行える情報を見出す事が重要

データ収集

分析

情報をもとに計画

計画をシミュレーション

実行

ビッグデータ活用のためのPDCAサイクル

② ③

Page 11: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

11 Copyright © 2013 NTT DATA Corporation

データ分析 レコメンデーション

レコメンドする商品は・・・

購買履歴データからアイテムごとの購買確率を求める

出来た確率表から、どの商品に興味をもっているかがわかる

• 協調フィルタリング、行列分解、二項ソフトクラスタリング、etc.

実際にどの商品を推薦するか・・・

確率の高い商品を推薦すればよさそうだが

さらに

数理計画

• 様々な制約条件化での最適な配分を求める

シミュレーション

• 不確実要因を定量的に評価

0.0 0.3 0.1

0.0 0.2 0.1

0.2 0.3 0.0

0.1 0.3 0.0

0.0 0.1 0.3

Page 12: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

12 Copyright © 2013 NTT DATA Corporation

数理計画 バランスを考慮したレコメンデーション

レコメンドのむつかしさ・・・・

単純に確率の高い商品を推薦すると、

既に既知な商品が推薦されてしまう ⇒ すでに購入した商品は推薦しない

誰にでも同じ商品が推薦されてしまう ⇒ 全体を見てバランスよく推薦

いつも同じ商品が推薦されてしまう ⇒ 全体を見てバランスよく推薦

単純なルールベースではなく、もう少し複雑なバランス感覚が要求される

0.0 0.3 0.1

0.0 0.2 0.1

0.3 0.4 0.0

0.1 0.3 0.0

0.0 0.1 0.3

0.0 0.3 0.1

0.0 0.2 0.1

0.3 0.4 0.0

0.1 0.3 0.0

0.0 0.1 0.3

数理計画により 制約付きのレコメンドを実現!!

Page 13: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

13 Copyright © 2013 NTT DATA Corporation

シミュレーション レコメンデーション結果の評価

レコメンドのむつかしさ・・・・

各商品の売上期待値をある金額(1000円)以上にするように推薦すると

実際にはその商品を購入するかどうか は確率的にしかわからないため、結果は ある範囲にばらつく

0.0 0.3 0.1

0.0 0.2 0.1

0.3 0.3 0.0

0.1 0.3 0.0

0.0 0.1 0.3

3600 × 0.3 = 1080円

2000 × (0.3 + 0.3) = 1200円

3000 × (0.1 + 0.3) = 1200円

購入金額

ランダム配信

最適化に基づく配信

結果のばらつき =ロバスト性

確率

シミュレーションにより、 結果のロバスト性を評価する

Page 14: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

Copyright © 2013 NTT DATA Corporation 14

データ分析 最新手法紹介

Page 15: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

15 Copyright © 2013 NTT DATA Corporation

内容

データ分析に注目して、その最新手法を紹介する

オンライン学習

• 確率的勾配効果法

• 状態空間モデル

Deep Learning

• 表現学習

ノンパラメトリックベイズ

• 自動化

Page 16: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

16 Copyright © 2013 NTT DATA Corporation

データ分析に必要な事

手順

データ整形

特徴量抽出 ←実は非常に重要

分類モデル作成 ←大規模データでも高速に学習したい

評価 ←モデル選択

特徴量抽出はかなり属人的な作業

変数選択あたりはある程度自動化可能(組み合わせ最適化問題として解くなど)

そもそもどんな特徴量を用いる?

表現学習(Deep Learning、Sparse Coding、etc.)

分類モデル作成

オンライン学習 ⇒ 確率的勾配降下法

状態空間モデル

モデル選択問題

分類モデルには様々なパラメータが存在

パラメータを様々に変えたときのモデルを評価して(AICとか)モデルを選択することは可能

モデル自体の複雑度も学習できたら ⇒ ノンパラメトリックモデル

Page 17: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

17 Copyright © 2013 NTT DATA Corporation

オンライン学習 確率的勾配降下法

ビッグデータがよりビッグになったら・・・

そもそもstorageできない

streamで処理する必要がある

1データ(少量のデータ)ずつ処理できるオンライン学習が有効

確率的勾配降下法(Stochastic Gradient Descent)

最適化問題へのアプローチとしてみた場合(バッチ学習と比べて)

小メモリ、小計算量 ⇒ 高速

経験損失を最小化するという意味ではかなわない

本当に欲しいのは期待損失(汎化誤差)最小化なので構わない

dzzpzwlwL )(),()(

),(1 tttttt zwlCww )(1 ttttt wLCww

損失関数の期待値

勾配

一部のデータを用いて計算

Page 18: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

18 Copyright © 2013 NTT DATA Corporation

オンライン学習 確率的勾配降下法

環境の変化が速くなってきている・・・

モデル学習のためのデータを蓄積している時間がない

蓄積しているうちにまた変化するかもしれない

逐次的にモデルを更新する必要がある

1データ(少量のデータ)ずつ処理できるオンライン学習が有効

動的モデル更新としてみた場合

時間と共に変化していく環境に対応

逐次的にモデル(仮説)を更新していく

累積損失を最小化

近隣に大きなマンションが建った

今までの需要予測モデルは使えない

新たな環境でのデータがたまるまで需要予測ができないとすると・・・

オンライン学習によりマンション建築後のデータを逐次的に学習させ、モデルを逐次的に更新する

Page 19: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

19 Copyright © 2013 NTT DATA Corporation

オンライン学習 状態空間モデル

状態空間モデルとは

観測方程式とシステム方程式で記述される

観測される量と観測されない量を用いてモデル化する

• 観測値に欠損があっても推定可能(時間発展はシステム方程式で記述するので)

観測値は状態を観測したもので何かしらの観測ノイズが含まれる。

• ノイズを除去する = 状態を推定

ttttt

tttt

vGxFx

wxHy

1

観測方程式

システム方程式

ナイル川の水位

Page 20: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

20 Copyright © 2013 NTT DATA Corporation

オンライン学習 状態空間モデル

動的線形モデル

観測方程式における Ht を線形回帰における共変量とみなすと、xt は時間と共に変化する偏回帰係数とみなすことが出来る。

データ同化

対象の時間発展を記述する基礎方程式(観測方程式、システム方程式)がある程度決まる場合、実際に観測されたデータをうまく説明するように方程式のパラメータを推定する

• 状態が何を表すかがある程度自明であるケース

そうでないとモデルの自由度が高すぎるために何を求めたのかわからなくなる

後で紹介・・・

ttttt

tttt

vGxFx

wxHy

1

ttt wHy 線形回帰モデル Ht が共変量でβが偏回帰係数

動的線形モデル Ht が共変量で xt が偏回帰係数(時間とともに変化)

Page 21: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

21 Copyright © 2013 NTT DATA Corporation

オンライン学習 状態空間モデル

状態推定

フィルタと1期先予測を繰り返し状態を推定する

モデルが動的に変わる(時刻とともに偏回帰係数が変化する回帰モデル)ような場合に逐次的にモデル更新できるオンライン学習が可能である。

前述のSGDによるオンライン学習では静的なモデルをオンライン学習していたが、状態空間モデルは動的なモデルである点が異なる。

ttttt

tttttt

tttttt

dxyxpxxp

dxyxpyxxp

dxyxxpyxp

)|()|(

)|(),|(

)|,()|(

:11

:1:11

:11:11

tttt

ttt

tt

ttt

ttttt

dxyyxp

yyxp

yyp

yyxp

yyxpyxp

)|,(

)|,(

)|(

)|,(

),|()|(

1:1

1:1

1:1

1:1

1:1:1

予測 フィルタ

Page 22: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

22 Copyright © 2013 NTT DATA Corporation

Deep Learning 概要

Deep Learningとは

多層のNeural Network(= Deep Neural Network)を用いた学習

問題は

過剰学習が起きてしまう

多層で学習させると、(Backpropagationなどでは)一部の層のみでデータを表現可能となり全体では学習できない

Page 23: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

23 Copyright © 2013 NTT DATA Corporation

Deep Learning 概要

ブレイクスルー

pre-training (unsupervised learning) + fine tuning (supervised learning)

pre-trainingでは、それぞれの層ごとに学習を行う

• なるべく元の情報を保存するように学習

• その層の出力を次の層の入力として再学習

pre-trainingは特徴抽出を行っていると考えられる

• その意味で表現学習(representation learning)とも言われる

Auto Encoder Restricted Boltzmann Machine Sparse Coding, etc.

Page 24: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

24 Copyright © 2013 NTT DATA Corporation

Deep Learning 学習方法

fine tuning

pre trainingの後、教師ありデータで全パラメータを調整

他の分類器の利用

pre trainingの後、Neural Networkの出力を特徴量として Support Vector Machineなどの他の分類器で学習

最初から教師あり学習

pre trainingがブレイクスル―のきっかけではあるが、 最初から学習させてもうまくいくことがわかってきた

得られたパラメータを 初期値として用いる

ニューラルネットの出力を 特徴量として用いる

SVMなど

Page 25: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

25 Copyright © 2013 NTT DATA Corporation

Deep Learning その他

表現学習

大量のデータから事前知識を獲得する

• 何か適当にデータを突っ込むと、特徴を学習してくれる・・・・

Convolutional Neural Network

人間の脳神経の仕組みをモデル化(局所受容野など)

後で紹介・・・

Transfer Learning

事前知識をうまく与えることでより複雑なタスクをこなしてくれる

• 自己教示学習(対象となるデータ以外のデータで事前学習)

サブタスクを学習させることで複雑なタスクをこなしてくれる

• Curriculum Learning

複数のタスクを同時に行う事でよりロバストなモデルが構築できる

• Multitask Learning

Page 26: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

26 Copyright © 2013 NTT DATA Corporation

ノンパラメトリックベイズ 概要

モデルの複雑さ(ex. クラスタ数)を事前に決めるのは困難。

データからモデルの複雑さも学習(推定)したい。

パラメトリックベイズ

複雑さが異なる複数のモデルを用意 => 各モデルの良さを評価し、最も良いものを選択

ノンパラメトリックベイズ

データに応じていくらでも複雑さが大きくなり得るモデルを一つ用意する。

モデルの複雑さも推定する。

ノンパラ ベイズによ

る推定

自動でクラスタ数=3と決定

Page 27: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

27 Copyright © 2013 NTT DATA Corporation

ノンパラメトリックベイズ モデリング

ノンパラメトリックベイズの主流は生成モデル的アプローチ。

1.モデル化: データがどのように生成されるかを確率モデルで表す。

• P(推定したい変数Y , 値が既知の変数X, その他の変数W )

2. 推論: ベイズの公式から導出される P(Y | X)に基づいて、推定を行う。

• 多くの場合、P(Y | X)の計算は近似的に行われる。(変分ベイズ、MCMC, etc.)

モデル化の際に、複雑さKも確率的に決まるようにするのがポイント。

• 事後確率P(K|X)から複雑さが推定できる。

クラスタリングにおけるモデル化の例

X=データ, Z=クラスタID, U=クラスタの中心, K=クラスタ数, N=データ数

パラメトリック (クラスタ数Kが固定)

• p(X, U, Z | K, N) = p(X | U, Z, N)p(U | K)p(Z | N, K)

ノンパラメトリック (クラスタ数が確率変数)

• p(X, U, Z, K | N) = p(X | U, Z, N)p(U | K)p(Z, K | N)

クラスタ数がデータ数に応じて 確率的に決まる様子をモデル化

メモ 以降では

1.モデル化の話 のみ書いています

Page 28: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

28 Copyright © 2013 NTT DATA Corporation

ノンパラメトリックベイズ 中華レストラン過程

中華レストラン過程 ~ p(Z, K | N)の代表的な例 ~

レストランにN人の客が順次到着する。

レストランにはテーブルが無限個用意されている。

n番目に到着した客は、以下の確率に従って座るテーブルを選択する。

• m人の先客がいるテーブルに座る確率 (m – 1) /(a + n – 1)

• 新しいテーブルに座る確率 a /(a + n – 1)

中華レストラン過程のポイント

テーブル数は潜在的には無限個あるが、N人の客が占めるのはそのうちの有限個(K個)。

客数が増えるにつれて、テーブルの個数が増える。=> データ数に応じたクラスタ数の増加

ただし、テーブルの個数は無暗には増えない。(K=a log N 程度)=> 簡潔なモデルを優先

注意

テーブル数を制御するパラメータ a は存在する。

=> 経験ベイズ法により a も学習可能

客=データ テーブル=クラスタ

Page 29: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

29 Copyright © 2013 NTT DATA Corporation

ノンパラメトリックベイズ その他のモデル・応用例

無限状態隠れマルコフモデル

品詞推定 (品詞の数も推定)

単語の分割 (語彙数も推定)

HDP-LDA(階層ディリクレ過程LDA)

文書・単語のクラスタリング(LDA)

HDP-LDA ではクラスタ数を指定することなくクラスタリング(LDA)が行える。

機械学習のアルゴリズムを利用すると、コンビニでの売れ高を予測することが 可能になる。

副詞

助詞

名詞

私 は とても

私はとても嬉しいです

Page 30: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

Copyright © 2013 NTT DATA Corporation 30

事例紹介

Page 31: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

31 Copyright © 2013 NTT DATA Corporation

内容

画像識別

Convolutional Networkを用いた画像識別器の作成

価格変動モデル

Particle Filterを用いた価格変動モデルの推定と予測

動的クラスタリング

動的トピックモデルを用いた時間とともに変化するクラスタの推定

Page 32: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

32 Copyright © 2013 NTT DATA Corporation

画像識別

画像識別のむつかしさ

何処に ⇒ 特徴量抽出問題

何が ⇒ 分類問題

映っているのか、という2つの問題を同時に解く必要あり

Page 33: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

33 Copyright © 2013 NTT DATA Corporation

画像識別 Bag of keypoints

画像を局所特徴量の集合と捉えた手法である。局所特徴量ベクトルを量子化(クラスタリング)し、visual wordと呼ばれる特徴ベクトル(クラスタの代表的なベクトル)を生成する。それらをまとめたものをcode bookと呼び、それを記述子として画像の特徴ベクトルを生成する。

個々の局所特徴量は最も近いvisual wordに割り当てられる。 それぞれ割り当てられた頻度を計数し、ヒストグ ラムを生成する。画像はvisual wordの集合 (bag)として表現される。

このヒストグラムを用いて、画像の分類、識別を 行う(識別器は様々な分類アルゴリズムが使わ れる)

図 bag of keypointsの流れ

※ 藤吉弘亘 一般物体認識のための局所特徴量(SIFTとHOG)2008 より引用

局所特徴量としてはSHIFT特徴量、SURF特徴量、HOG特徴量などが存在する。局所特徴量を用いることで画像の回転普遍性や拡大縮小などに対する普遍性を担保する。

Page 34: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

34 Copyright © 2013 NTT DATA Corporation

画像識別 Convolutional Neural Network

脳の視覚野の構造(Sparse Connectivity、Shared Weight)や、脳で視覚情報を処理するときの処理の仕方(Encoding)を模倣したNeural Network

Encoding Pooling

今回は繰り返しはないが、Deep Convolutional Neural NetworkではConvolutionとPoolingを繰り返すことで様々な変換に対する普遍性を獲得する。

Page 35: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

35 Copyright © 2013 NTT DATA Corporation

画像識別 Convolutional Neural Network

Normalization, Whitening

Encoding

Pooling

Standardization

AutoEncoder (option)

Sparse Connectivity

EncodingにはSparse Codingを利用した。

特徴量を抽出してその結果を共変量としてSupport Vector Machineで分類した

Page 36: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

36 Copyright © 2013 NTT DATA Corporation

画像識別 局所画像のエンコーディング

𝑗

𝑗

𝐼 ∈ 𝑅𝑚, 𝑚 = 𝑑 ∙ 𝑗 ∙ 𝑗, 𝑑: 𝑐ℎ𝑎𝑛𝑛𝑒𝑙𝑠

𝐼: 局所画像

𝐼1, … , 𝐼𝑛: データセットからランダム抽出.

𝑅𝑚 ×

× ×

× ×

×

K-means, Sparse Coding, OMP, RBM, Auto Encoder…

𝐷: 𝑑𝑖𝑐𝑡𝑖𝑜𝑛𝑎𝑟𝑦

𝑓𝐷: 𝑅𝑚 → 𝑅𝑘 , 𝐸𝑛𝑐𝑜𝑑𝑒𝑟

=

𝑛𝑎𝑡𝑢𝑟𝑎𝑙,𝑇ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑,

𝑆𝑝𝑎𝑟𝑠𝑒 𝐶𝑜𝑑𝑖𝑛𝑔,𝑂𝑀𝑃,𝑒𝑡𝑐 …

Page 37: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

37 Copyright © 2013 NTT DATA Corporation

画像識別 Encoderの種類

Sparse Coding

s = argmin𝑠 1

2𝑥 − 𝐷𝑠 2 + 𝜆 𝑠 1

Threshold 𝑠𝑙 = max 0, 𝐷𝑙

𝑇𝑥 − 𝜆

RBM, AutoEncoder 𝑠 = 𝜎 𝐷𝑇𝑥 + 𝑏 , 𝜎: 𝑠𝑖𝑔𝑚𝑜𝑖𝑑

Tanh 𝑠𝑙 = max 0, tanh 𝐷𝑙

𝑇𝑥

Page 38: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

38 Copyright © 2013 NTT DATA Corporation

価格変動モデル 背景

参考) 経済産業省 資源エネルギー庁 HPより

2000年より電力の大口事業者への小売自由化が始まり、地域の電力会社以外の電力小売事業に新規参入した事業者も電気の供給を行っている。2016年度を目途に家庭などへの小売事業を自由化する(小売全面自由化)が行われます。

Page 39: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

39 Copyright © 2013 NTT DATA Corporation

価格変動モデル 概要

エネルギー、金属、穀物といったコモディティ(商品)の価格変動は、財の消費に本質的な価値が存在する実物資産であり、金融資産とは異なった価格変動パターンを示す。例えば、原資産の需給が引き締まっている状況では先物カーブにバックワーデーションという現象が生じやすく、また、貯蔵が困難な財(エネルギーなど)ではスパイク現象が生じることが知られている。こうした価格変動の特徴は株や債券などの金融資産に対するプライシングモデルではとらえられずコモディティのためのモデルが開発されている。

特徴

平均回帰と回帰水準のシフト

高ボラティリティ

スパイク、ジャンプ

モデル

ボラティリティ変動モデル

潜在変数モデル

ジャンプ過程モデル

Page 40: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

40 Copyright © 2013 NTT DATA Corporation

価格変動モデル 2 factor model

tYtYt

tXttXt

X

t

dBdtYLdY

dBdtXYdX

eS t

S:Spot price B:ブラウン運動 Yt:long term mean

参考文献) Martin Barlow, Yuri Gusev and Manpo Lai, Calibration of Multifactor Models in Electricity Markets, International Journal of Theoretical And Applied Finance, (2003).

tYtYtt

tXttXtt

X

t

YLYY

XYXX

eS t

1

1

tttt

ttttt

vYFY

wAXYHX

1

1

X

Xt

YY

t

tt

A

H

LF

XX

1

0

1 0

1

Log Spot price Mean Reverting to Ornstein-Uhlenbeckモデル

確率微分方程式表現

状態空間表現

カルマンフィルタ表現

Page 41: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

41 Copyright © 2013 NTT DATA Corporation

動的クラスタリング 背景

商品や顧客が時間とともに変化するのに伴い、顧客や商品により構成されるクラスタも時間とともに変化する。そのクラスタの時間発展の様子を分析する方法を動的クラスタリングと呼ぶ。

新商品や新サービスが発売されたとき、既存のユーザが異なるグループに移動したり、新たなグループを形成したりする。

しかし、事前にどのような商品やサービスが発売されるかわからない(また、ユーザがそれに対してどう反応するかわからない)ため、クラスを事前に作成することはできない。

Page 42: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

42 Copyright © 2013 NTT DATA Corporation

動的クラスタリング 概要

クラスタの時間発展を記述する方法には、大きく2つの方法が考えられる。

クラスタの性質は不変であるとする

全ての期間を通して共通のクラスタ(性質)が存在する

そこに含まれる顧客が時間とともに変化していく

商品の入れ替わりが激しい場合など、事前にクラスタを用意することが難しい

• 期間により存在するクラスタが分かれてしまう

• 全ての性質を盛り込むには多くのクラスタが必要

クラスタの性質が時間とともに変化していく

それぞれの時間(間隔)でクラスタと、そのクラスタ間の時間発展を確率モデルとして記述

期間ごとにクラスタリングを行うと期間同士の対応が難しくなる

クラスタの時間発展をモデル化する

どの要素を時間発展させるかで様々なモデルが存在

Page 43: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

43 Copyright © 2013 NTT DATA Corporation

動的クラスタリング イメージ

クラスタ不変

クラスタは不変でそこに含まれる顧客が時間とともに変化していく

クラスタ変化

クラスタ自体も時間とともに変化していく

クラスタ①

クラスタ②

クラスタ①

時刻 T1 T2 T3

時刻 T1 T2 T3

顧客

クラスタ

Page 44: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

44 Copyright © 2013 NTT DATA Corporation

動的クラスタリング Topic Tracking Model

トピック(クラス)の確率分布を時間発展させるモデル

ユーザのトピック分布(φ)とトピックの商品分布(θ)を直接時間発展させる。

パラメータの推定は古い期間のものから順に貪欲的に行うため、 現在の購買データは過去の期間のクラスタリングに反映されない。

n z

nnn PZPZItemPPdUserP )|()|(),|()|(),|(

時間発展する項

トピック分布 トピック内での商品の分布

時間発展は以下の通り。 現在のユーザの興味は過去のユーザの興味と新たに観測されたデータにより決定される、というモデル。

),(~),|(

),(~),|(

11

11

ttttt

ttttt

DirichletP

DirichletP

Page 45: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

45 Copyright © 2013 NTT DATA Corporation

まとめ

今後、更に多くの多様なデータが集まってくる

無目的に集められたデータにはそれほど情報はないかもしれない

それでもより複雑なモデリングが可能になると期待

データが蓄積されるに従ってモデルが更新されていくような仕組みが必要

NTTデータ数理システムでは

数理的なアプローチでこれらに取り組んでいる(力技ではなく・・・)

分析だけではなく、数理計画やシミュレーションなども合わせ技で

Page 46: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

46 Copyright © 2013 NTT DATA Corporation

まとめ その他のトピック

非構造化データの分析

文書、画像、音声、動画などの非構造データ分析

ソーシャルメディアやニュースにあるテキスト情報を自然言語処理、画像識別、動画識別、音声認識などなど。

セマンティックデータベースの活用・・・

メカニズムの解明

個々の顧客の反応の有無だけでなく、SNSなどでのつながりなど、様々な要因の関連性とそれに対するレスポンスなど、情報の伝播メカニズムをモデル化し、現象をシミュレートする

Page 47: 意思決定に役立てるデータ分析の 最新技術と事例ご紹介 · 状態空間モデル 動的線形モデル 観測方程式における Ht を線形回帰における共変量とみなすと、xt

Copyright © 2011 NTT DATA Corporation

Copyright © 2013 NTT DATA Corporation