意思決定に役立てるデータ分析の 最新技術と事例ご紹介 ·...
TRANSCRIPT
Copyright © 2013 NTT DATA Corporation
株式会社 NTTデータ数理システム
データビジネス創造フォーラム
@ベルサール汐留
2014年9月25日 株式会社 NTTデータ数理システム 雪島 正敏
意思決定に役立てるデータ分析の最新技術と事例ご紹介
2 Copyright © 2013 NTT DATA Corporation
内容
紹介
自己紹介
会社紹介
パッケージ紹介
業務紹介
最新の機械学習
オンライン学習
Deep Learning
ノンパラメトリックベイズ
適用事例
画像識別(Deep Learning)
価格プライシングモデル(State Space Model)
動的クラスタリング(Dynamic Topic Model)
3 Copyright © 2013 NTT DATA Corporation
自己紹介
1999年株式会社数理システム(現 株式会社NTTデータ数理システム)入社
弊社パッケージソフト Visual Mining Studio(VMS)の開発に従事
その後、VMSを用いマーケティング、製造、金融、エネルギー、インターネットなど様々な業種のデータ分析・モデル構築に従事
現在に至る
4 Copyright © 2013 NTT DATA Corporation
NTTデータ数理システムとは
製品開発・販売 受託・カスタマイズ・ コンサルティング
数理計画 ソリューション
シミュレーション ソリューション
データマイニング ソリューション
科学技術 ソリューション
知識工学 ソリューション
1982年設立 東京都新宿区 従業員数 90名弱 資本金 5,600万円
総務部
社長
営業部
BI推進センタ
取締役会
科学技術部
数理計画部
データ マイニング部
知識工学部
数理科学とコンピューターサイエンス。 2つの接点で独創的な技術を育み、 科学技術の発達と産業の高度化に貢献しています。
シミュレーション& マイニング部
5 Copyright © 2013 NTT DATA Corporation
ソリューションの基盤となる数理システムパッケージ製品
• 需要予測・傾向分析・クラスタリング データマイニング
Visual Mining Studio
• ネガポジ分析・特徴分析・話題分析 テキストマイニング
Text Mining Studio
• スケジューリング・組み合わせ最適化 数理計画・最適化
Numerical Optimizer
• ポートフォリオ最適化・シナリオ発生 金融工学 FIOPT
• 回帰・検定・多変量解析 統計解析 S-PLUS
• イベント・連続系・エージェントシミュレーション シミュレーション S4
• 大規模データモデリング・オンラインアルゴリズム ビッグデータ
Big Data Modoule
半導体TCADシミュレータ ParadiseWorld II
超高速シミュレーションツール Monaco
ベイジアンネットワーク構築 Bayonet 他
数理科学を活かしたその他製品
6 Copyright © 2013 NTT DATA Corporation
株式会社 NTTデータ数理システム 業務紹介
データマイニング×最適化×シミュレーション
⇒ 世界トップクラスのテクニカルコンサルテーション
⇒ 新規性のある課題への挑戦
自社開発パッケージによる開発・チューニング
⇒ 小回りの利く素早い対応、カスタマイズも容易
豊富な受託分析・システム開発経験
⇒ 年間50本以上のデータマイニング・最適化案件
⇒ ビジネスからアカデミックまで幅広い分野で活躍
Copyright © 2013 NTT DATA Corporation 7
データ分析×数理計画×シミュレーション
8 Copyright © 2013 NTT DATA Corporation
各種ビッグデータ
コンタクトログ(音声/テキスト) IVR フラグ
時刻 etc…
コンタクトセンターのログ記録
Webアクセスログ
POSデータ
製造装置からの 製造ログデータ
気象センサーデータ
活用するって?
TwitterやブログなどのSNSからの テキスト、画像、動画情報
9 Copyright © 2013 NTT DATA Corporation
活用するとはどういうこと?
コンタクトセンターの問い合わせクレームの中で、 頻出製品及び問題点の関連性を抽出し、製品改善に活かす
例えば
アクセスログから、閲覧行動のセグメンテーションを行い、 効率よく閲覧行動が行えるように、Webページの構成を見直す
例えば
ID付きPOSデータから、併売関係を抽出し、ある商品の購入者に、 併売確率の高い商品をレコメンドすることで売上アップを行う
例えば
自然界のセンサーデータから、降雨量を予測し、水不足に備える
例えば
10 Copyright © 2013 NTT DATA Corporation
分析して意思決定を行える情報を見出す事が重要
データ収集
分析
情報をもとに計画
計画をシミュレーション
実行
ビッグデータ活用のためのPDCAサイクル
①
② ③
11 Copyright © 2013 NTT DATA Corporation
データ分析 レコメンデーション
レコメンドする商品は・・・
購買履歴データからアイテムごとの購買確率を求める
出来た確率表から、どの商品に興味をもっているかがわかる
• 協調フィルタリング、行列分解、二項ソフトクラスタリング、etc.
実際にどの商品を推薦するか・・・
確率の高い商品を推薦すればよさそうだが
さらに
数理計画
• 様々な制約条件化での最適な配分を求める
シミュレーション
• 不確実要因を定量的に評価
0.0 0.3 0.1
0.0 0.2 0.1
0.2 0.3 0.0
0.1 0.3 0.0
0.0 0.1 0.3
12 Copyright © 2013 NTT DATA Corporation
数理計画 バランスを考慮したレコメンデーション
レコメンドのむつかしさ・・・・
単純に確率の高い商品を推薦すると、
既に既知な商品が推薦されてしまう ⇒ すでに購入した商品は推薦しない
誰にでも同じ商品が推薦されてしまう ⇒ 全体を見てバランスよく推薦
いつも同じ商品が推薦されてしまう ⇒ 全体を見てバランスよく推薦
単純なルールベースではなく、もう少し複雑なバランス感覚が要求される
0.0 0.3 0.1
0.0 0.2 0.1
0.3 0.4 0.0
0.1 0.3 0.0
0.0 0.1 0.3
0.0 0.3 0.1
0.0 0.2 0.1
0.3 0.4 0.0
0.1 0.3 0.0
0.0 0.1 0.3
数理計画により 制約付きのレコメンドを実現!!
13 Copyright © 2013 NTT DATA Corporation
シミュレーション レコメンデーション結果の評価
レコメンドのむつかしさ・・・・
各商品の売上期待値をある金額(1000円)以上にするように推薦すると
実際にはその商品を購入するかどうか は確率的にしかわからないため、結果は ある範囲にばらつく
0.0 0.3 0.1
0.0 0.2 0.1
0.3 0.3 0.0
0.1 0.3 0.0
0.0 0.1 0.3
3600 × 0.3 = 1080円
2000 × (0.3 + 0.3) = 1200円
3000 × (0.1 + 0.3) = 1200円
購入金額
ランダム配信
最適化に基づく配信
結果のばらつき =ロバスト性
確率
シミュレーションにより、 結果のロバスト性を評価する
Copyright © 2013 NTT DATA Corporation 14
データ分析 最新手法紹介
15 Copyright © 2013 NTT DATA Corporation
内容
データ分析に注目して、その最新手法を紹介する
オンライン学習
• 確率的勾配効果法
• 状態空間モデル
Deep Learning
• 表現学習
ノンパラメトリックベイズ
• 自動化
16 Copyright © 2013 NTT DATA Corporation
データ分析に必要な事
手順
データ整形
特徴量抽出 ←実は非常に重要
分類モデル作成 ←大規模データでも高速に学習したい
評価 ←モデル選択
特徴量抽出はかなり属人的な作業
変数選択あたりはある程度自動化可能(組み合わせ最適化問題として解くなど)
そもそもどんな特徴量を用いる?
表現学習(Deep Learning、Sparse Coding、etc.)
分類モデル作成
オンライン学習 ⇒ 確率的勾配降下法
状態空間モデル
モデル選択問題
分類モデルには様々なパラメータが存在
パラメータを様々に変えたときのモデルを評価して(AICとか)モデルを選択することは可能
モデル自体の複雑度も学習できたら ⇒ ノンパラメトリックモデル
17 Copyright © 2013 NTT DATA Corporation
オンライン学習 確率的勾配降下法
ビッグデータがよりビッグになったら・・・
そもそもstorageできない
streamで処理する必要がある
1データ(少量のデータ)ずつ処理できるオンライン学習が有効
確率的勾配降下法(Stochastic Gradient Descent)
最適化問題へのアプローチとしてみた場合(バッチ学習と比べて)
小メモリ、小計算量 ⇒ 高速
経験損失を最小化するという意味ではかなわない
本当に欲しいのは期待損失(汎化誤差)最小化なので構わない
dzzpzwlwL )(),()(
),(1 tttttt zwlCww )(1 ttttt wLCww
損失関数の期待値
勾配
一部のデータを用いて計算
18 Copyright © 2013 NTT DATA Corporation
オンライン学習 確率的勾配降下法
環境の変化が速くなってきている・・・
モデル学習のためのデータを蓄積している時間がない
蓄積しているうちにまた変化するかもしれない
逐次的にモデルを更新する必要がある
1データ(少量のデータ)ずつ処理できるオンライン学習が有効
動的モデル更新としてみた場合
時間と共に変化していく環境に対応
逐次的にモデル(仮説)を更新していく
累積損失を最小化
例
近隣に大きなマンションが建った
今までの需要予測モデルは使えない
新たな環境でのデータがたまるまで需要予測ができないとすると・・・
オンライン学習によりマンション建築後のデータを逐次的に学習させ、モデルを逐次的に更新する
19 Copyright © 2013 NTT DATA Corporation
オンライン学習 状態空間モデル
状態空間モデルとは
観測方程式とシステム方程式で記述される
観測される量と観測されない量を用いてモデル化する
• 観測値に欠損があっても推定可能(時間発展はシステム方程式で記述するので)
観測値は状態を観測したもので何かしらの観測ノイズが含まれる。
• ノイズを除去する = 状態を推定
ttttt
tttt
vGxFx
wxHy
1
観測方程式
システム方程式
ナイル川の水位
20 Copyright © 2013 NTT DATA Corporation
オンライン学習 状態空間モデル
動的線形モデル
観測方程式における Ht を線形回帰における共変量とみなすと、xt は時間と共に変化する偏回帰係数とみなすことが出来る。
データ同化
対象の時間発展を記述する基礎方程式(観測方程式、システム方程式)がある程度決まる場合、実際に観測されたデータをうまく説明するように方程式のパラメータを推定する
• 状態が何を表すかがある程度自明であるケース
そうでないとモデルの自由度が高すぎるために何を求めたのかわからなくなる
後で紹介・・・
ttttt
tttt
vGxFx
wxHy
1
ttt wHy 線形回帰モデル Ht が共変量でβが偏回帰係数
動的線形モデル Ht が共変量で xt が偏回帰係数(時間とともに変化)
21 Copyright © 2013 NTT DATA Corporation
オンライン学習 状態空間モデル
状態推定
フィルタと1期先予測を繰り返し状態を推定する
モデルが動的に変わる(時刻とともに偏回帰係数が変化する回帰モデル)ような場合に逐次的にモデル更新できるオンライン学習が可能である。
前述のSGDによるオンライン学習では静的なモデルをオンライン学習していたが、状態空間モデルは動的なモデルである点が異なる。
ttttt
tttttt
tttttt
dxyxpxxp
dxyxpyxxp
dxyxxpyxp
)|()|(
)|(),|(
)|,()|(
:11
:1:11
:11:11
tttt
ttt
tt
ttt
ttttt
dxyyxp
yyxp
yyp
yyxp
yyxpyxp
)|,(
)|,(
)|(
)|,(
),|()|(
1:1
1:1
1:1
1:1
1:1:1
予測 フィルタ
22 Copyright © 2013 NTT DATA Corporation
Deep Learning 概要
Deep Learningとは
多層のNeural Network(= Deep Neural Network)を用いた学習
問題は
過剰学習が起きてしまう
多層で学習させると、(Backpropagationなどでは)一部の層のみでデータを表現可能となり全体では学習できない
23 Copyright © 2013 NTT DATA Corporation
Deep Learning 概要
ブレイクスルー
pre-training (unsupervised learning) + fine tuning (supervised learning)
pre-trainingでは、それぞれの層ごとに学習を行う
• なるべく元の情報を保存するように学習
• その層の出力を次の層の入力として再学習
pre-trainingは特徴抽出を行っていると考えられる
• その意味で表現学習(representation learning)とも言われる
Auto Encoder Restricted Boltzmann Machine Sparse Coding, etc.
24 Copyright © 2013 NTT DATA Corporation
Deep Learning 学習方法
fine tuning
pre trainingの後、教師ありデータで全パラメータを調整
他の分類器の利用
pre trainingの後、Neural Networkの出力を特徴量として Support Vector Machineなどの他の分類器で学習
最初から教師あり学習
pre trainingがブレイクスル―のきっかけではあるが、 最初から学習させてもうまくいくことがわかってきた
得られたパラメータを 初期値として用いる
ニューラルネットの出力を 特徴量として用いる
SVMなど
25 Copyright © 2013 NTT DATA Corporation
Deep Learning その他
表現学習
大量のデータから事前知識を獲得する
• 何か適当にデータを突っ込むと、特徴を学習してくれる・・・・
Convolutional Neural Network
人間の脳神経の仕組みをモデル化(局所受容野など)
後で紹介・・・
Transfer Learning
事前知識をうまく与えることでより複雑なタスクをこなしてくれる
• 自己教示学習(対象となるデータ以外のデータで事前学習)
サブタスクを学習させることで複雑なタスクをこなしてくれる
• Curriculum Learning
複数のタスクを同時に行う事でよりロバストなモデルが構築できる
• Multitask Learning
26 Copyright © 2013 NTT DATA Corporation
ノンパラメトリックベイズ 概要
モデルの複雑さ(ex. クラスタ数)を事前に決めるのは困難。
データからモデルの複雑さも学習(推定)したい。
パラメトリックベイズ
複雑さが異なる複数のモデルを用意 => 各モデルの良さを評価し、最も良いものを選択
ノンパラメトリックベイズ
データに応じていくらでも複雑さが大きくなり得るモデルを一つ用意する。
モデルの複雑さも推定する。
ノンパラ ベイズによ
る推定
自動でクラスタ数=3と決定
27 Copyright © 2013 NTT DATA Corporation
ノンパラメトリックベイズ モデリング
ノンパラメトリックベイズの主流は生成モデル的アプローチ。
1.モデル化: データがどのように生成されるかを確率モデルで表す。
• P(推定したい変数Y , 値が既知の変数X, その他の変数W )
2. 推論: ベイズの公式から導出される P(Y | X)に基づいて、推定を行う。
• 多くの場合、P(Y | X)の計算は近似的に行われる。(変分ベイズ、MCMC, etc.)
モデル化の際に、複雑さKも確率的に決まるようにするのがポイント。
• 事後確率P(K|X)から複雑さが推定できる。
クラスタリングにおけるモデル化の例
X=データ, Z=クラスタID, U=クラスタの中心, K=クラスタ数, N=データ数
パラメトリック (クラスタ数Kが固定)
• p(X, U, Z | K, N) = p(X | U, Z, N)p(U | K)p(Z | N, K)
ノンパラメトリック (クラスタ数が確率変数)
• p(X, U, Z, K | N) = p(X | U, Z, N)p(U | K)p(Z, K | N)
クラスタ数がデータ数に応じて 確率的に決まる様子をモデル化
メモ 以降では
1.モデル化の話 のみ書いています
28 Copyright © 2013 NTT DATA Corporation
ノンパラメトリックベイズ 中華レストラン過程
中華レストラン過程 ~ p(Z, K | N)の代表的な例 ~
レストランにN人の客が順次到着する。
レストランにはテーブルが無限個用意されている。
n番目に到着した客は、以下の確率に従って座るテーブルを選択する。
• m人の先客がいるテーブルに座る確率 (m – 1) /(a + n – 1)
• 新しいテーブルに座る確率 a /(a + n – 1)
中華レストラン過程のポイント
テーブル数は潜在的には無限個あるが、N人の客が占めるのはそのうちの有限個(K個)。
客数が増えるにつれて、テーブルの個数が増える。=> データ数に応じたクラスタ数の増加
ただし、テーブルの個数は無暗には増えない。(K=a log N 程度)=> 簡潔なモデルを優先
注意
テーブル数を制御するパラメータ a は存在する。
=> 経験ベイズ法により a も学習可能
客=データ テーブル=クラスタ
29 Copyright © 2013 NTT DATA Corporation
ノンパラメトリックベイズ その他のモデル・応用例
無限状態隠れマルコフモデル
品詞推定 (品詞の数も推定)
単語の分割 (語彙数も推定)
HDP-LDA(階層ディリクレ過程LDA)
文書・単語のクラスタリング(LDA)
HDP-LDA ではクラスタ数を指定することなくクラスタリング(LDA)が行える。
機械学習のアルゴリズムを利用すると、コンビニでの売れ高を予測することが 可能になる。
副詞
助詞
名詞
私 は とても
私はとても嬉しいです
Copyright © 2013 NTT DATA Corporation 30
事例紹介
31 Copyright © 2013 NTT DATA Corporation
内容
画像識別
Convolutional Networkを用いた画像識別器の作成
価格変動モデル
Particle Filterを用いた価格変動モデルの推定と予測
動的クラスタリング
動的トピックモデルを用いた時間とともに変化するクラスタの推定
32 Copyright © 2013 NTT DATA Corporation
画像識別
画像識別のむつかしさ
何処に ⇒ 特徴量抽出問題
何が ⇒ 分類問題
映っているのか、という2つの問題を同時に解く必要あり
33 Copyright © 2013 NTT DATA Corporation
画像識別 Bag of keypoints
画像を局所特徴量の集合と捉えた手法である。局所特徴量ベクトルを量子化(クラスタリング)し、visual wordと呼ばれる特徴ベクトル(クラスタの代表的なベクトル)を生成する。それらをまとめたものをcode bookと呼び、それを記述子として画像の特徴ベクトルを生成する。
個々の局所特徴量は最も近いvisual wordに割り当てられる。 それぞれ割り当てられた頻度を計数し、ヒストグ ラムを生成する。画像はvisual wordの集合 (bag)として表現される。
このヒストグラムを用いて、画像の分類、識別を 行う(識別器は様々な分類アルゴリズムが使わ れる)
図 bag of keypointsの流れ
※ 藤吉弘亘 一般物体認識のための局所特徴量(SIFTとHOG)2008 より引用
局所特徴量としてはSHIFT特徴量、SURF特徴量、HOG特徴量などが存在する。局所特徴量を用いることで画像の回転普遍性や拡大縮小などに対する普遍性を担保する。
34 Copyright © 2013 NTT DATA Corporation
画像識別 Convolutional Neural Network
脳の視覚野の構造(Sparse Connectivity、Shared Weight)や、脳で視覚情報を処理するときの処理の仕方(Encoding)を模倣したNeural Network
Encoding Pooling
今回は繰り返しはないが、Deep Convolutional Neural NetworkではConvolutionとPoolingを繰り返すことで様々な変換に対する普遍性を獲得する。
35 Copyright © 2013 NTT DATA Corporation
画像識別 Convolutional Neural Network
Normalization, Whitening
Encoding
Pooling
Standardization
AutoEncoder (option)
Sparse Connectivity
EncodingにはSparse Codingを利用した。
特徴量を抽出してその結果を共変量としてSupport Vector Machineで分類した
36 Copyright © 2013 NTT DATA Corporation
画像識別 局所画像のエンコーディング
𝑗
𝑗
𝐼 ∈ 𝑅𝑚, 𝑚 = 𝑑 ∙ 𝑗 ∙ 𝑗, 𝑑: 𝑐ℎ𝑎𝑛𝑛𝑒𝑙𝑠
𝐼: 局所画像
𝐼1, … , 𝐼𝑛: データセットからランダム抽出.
𝑅𝑚 ×
× ×
× ×
×
K-means, Sparse Coding, OMP, RBM, Auto Encoder…
𝐷: 𝑑𝑖𝑐𝑡𝑖𝑜𝑛𝑎𝑟𝑦
𝑓𝐷: 𝑅𝑚 → 𝑅𝑘 , 𝐸𝑛𝑐𝑜𝑑𝑒𝑟
=
𝑛𝑎𝑡𝑢𝑟𝑎𝑙,𝑇ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑,
𝑆𝑝𝑎𝑟𝑠𝑒 𝐶𝑜𝑑𝑖𝑛𝑔,𝑂𝑀𝑃,𝑒𝑡𝑐 …
37 Copyright © 2013 NTT DATA Corporation
画像識別 Encoderの種類
Sparse Coding
s = argmin𝑠 1
2𝑥 − 𝐷𝑠 2 + 𝜆 𝑠 1
Threshold 𝑠𝑙 = max 0, 𝐷𝑙
𝑇𝑥 − 𝜆
RBM, AutoEncoder 𝑠 = 𝜎 𝐷𝑇𝑥 + 𝑏 , 𝜎: 𝑠𝑖𝑔𝑚𝑜𝑖𝑑
Tanh 𝑠𝑙 = max 0, tanh 𝐷𝑙
𝑇𝑥
38 Copyright © 2013 NTT DATA Corporation
価格変動モデル 背景
参考) 経済産業省 資源エネルギー庁 HPより
2000年より電力の大口事業者への小売自由化が始まり、地域の電力会社以外の電力小売事業に新規参入した事業者も電気の供給を行っている。2016年度を目途に家庭などへの小売事業を自由化する(小売全面自由化)が行われます。
39 Copyright © 2013 NTT DATA Corporation
価格変動モデル 概要
エネルギー、金属、穀物といったコモディティ(商品)の価格変動は、財の消費に本質的な価値が存在する実物資産であり、金融資産とは異なった価格変動パターンを示す。例えば、原資産の需給が引き締まっている状況では先物カーブにバックワーデーションという現象が生じやすく、また、貯蔵が困難な財(エネルギーなど)ではスパイク現象が生じることが知られている。こうした価格変動の特徴は株や債券などの金融資産に対するプライシングモデルではとらえられずコモディティのためのモデルが開発されている。
特徴
平均回帰と回帰水準のシフト
高ボラティリティ
スパイク、ジャンプ
モデル
ボラティリティ変動モデル
潜在変数モデル
ジャンプ過程モデル
40 Copyright © 2013 NTT DATA Corporation
価格変動モデル 2 factor model
tYtYt
tXttXt
X
t
dBdtYLdY
dBdtXYdX
eS t
S:Spot price B:ブラウン運動 Yt:long term mean
参考文献) Martin Barlow, Yuri Gusev and Manpo Lai, Calibration of Multifactor Models in Electricity Markets, International Journal of Theoretical And Applied Finance, (2003).
tYtYtt
tXttXtt
X
t
YLYY
XYXX
eS t
1
1
tttt
ttttt
vYFY
wAXYHX
1
1
X
Xt
YY
t
tt
A
H
LF
XX
1
0
1 0
1
Log Spot price Mean Reverting to Ornstein-Uhlenbeckモデル
確率微分方程式表現
状態空間表現
カルマンフィルタ表現
41 Copyright © 2013 NTT DATA Corporation
動的クラスタリング 背景
商品や顧客が時間とともに変化するのに伴い、顧客や商品により構成されるクラスタも時間とともに変化する。そのクラスタの時間発展の様子を分析する方法を動的クラスタリングと呼ぶ。
新商品や新サービスが発売されたとき、既存のユーザが異なるグループに移動したり、新たなグループを形成したりする。
しかし、事前にどのような商品やサービスが発売されるかわからない(また、ユーザがそれに対してどう反応するかわからない)ため、クラスを事前に作成することはできない。
42 Copyright © 2013 NTT DATA Corporation
動的クラスタリング 概要
クラスタの時間発展を記述する方法には、大きく2つの方法が考えられる。
クラスタの性質は不変であるとする
全ての期間を通して共通のクラスタ(性質)が存在する
そこに含まれる顧客が時間とともに変化していく
商品の入れ替わりが激しい場合など、事前にクラスタを用意することが難しい
• 期間により存在するクラスタが分かれてしまう
• 全ての性質を盛り込むには多くのクラスタが必要
クラスタの性質が時間とともに変化していく
それぞれの時間(間隔)でクラスタと、そのクラスタ間の時間発展を確率モデルとして記述
期間ごとにクラスタリングを行うと期間同士の対応が難しくなる
クラスタの時間発展をモデル化する
どの要素を時間発展させるかで様々なモデルが存在
43 Copyright © 2013 NTT DATA Corporation
動的クラスタリング イメージ
クラスタ不変
クラスタは不変でそこに含まれる顧客が時間とともに変化していく
クラスタ変化
クラスタ自体も時間とともに変化していく
クラスタ①
クラスタ②
クラスタ①
時刻 T1 T2 T3
時刻 T1 T2 T3
顧客
クラスタ
44 Copyright © 2013 NTT DATA Corporation
動的クラスタリング Topic Tracking Model
トピック(クラス)の確率分布を時間発展させるモデル
ユーザのトピック分布(φ)とトピックの商品分布(θ)を直接時間発展させる。
パラメータの推定は古い期間のものから順に貪欲的に行うため、 現在の購買データは過去の期間のクラスタリングに反映されない。
n z
nnn PZPZItemPPdUserP )|()|(),|()|(),|(
時間発展する項
トピック分布 トピック内での商品の分布
時間発展は以下の通り。 現在のユーザの興味は過去のユーザの興味と新たに観測されたデータにより決定される、というモデル。
),(~),|(
),(~),|(
11
11
ttttt
ttttt
DirichletP
DirichletP
45 Copyright © 2013 NTT DATA Corporation
まとめ
今後、更に多くの多様なデータが集まってくる
無目的に集められたデータにはそれほど情報はないかもしれない
それでもより複雑なモデリングが可能になると期待
データが蓄積されるに従ってモデルが更新されていくような仕組みが必要
NTTデータ数理システムでは
数理的なアプローチでこれらに取り組んでいる(力技ではなく・・・)
分析だけではなく、数理計画やシミュレーションなども合わせ技で
46 Copyright © 2013 NTT DATA Corporation
まとめ その他のトピック
非構造化データの分析
文書、画像、音声、動画などの非構造データ分析
ソーシャルメディアやニュースにあるテキスト情報を自然言語処理、画像識別、動画識別、音声認識などなど。
セマンティックデータベースの活用・・・
メカニズムの解明
個々の顧客の反応の有無だけでなく、SNSなどでのつながりなど、様々な要因の関連性とそれに対するレスポンスなど、情報の伝播メカニズムをモデル化し、現象をシミュレートする
Copyright © 2011 NTT DATA Corporation
Copyright © 2013 NTT DATA Corporation