Download - How to develop big data
收集資料
Web site
網站
Old data
舊資料
User tracking
使用者行為
User input
使用者的回應
Many raw data
很多很多未經整理的資料
MySQL
DB2
RDBMS
整理資料
Useful info
有用的資訊
加工2 加工3
Many raw data
很多很多未經整理的資料
MySQL
DB2
RDBMS
加工1
Message Queue
Socket
HTTP
SQL
可取得資料的方式皆可
整理資料
Useful info
有用的資訊
Many raw data
很多很多未經整理的資料
MySQL
DB2
RDBMS
Message Queue
Socket / HTTP / SQL
可取得資料的方式皆可
任何一種可以計算的 Process
喜歡用 Hadoop 也可以 (很慢)
整理資料
加工可以做好幾次,例如:
第一次加工:小朋友放學時間(16:00)
第二次加工:小朋友放學+回家時間(16:00+30分)
第三次加工:小朋友放學+回家+寫功課時間(16:00+30分+30分)
可以得到一個結果是, 16:00~17:00 小朋友最有可能在電視機前面,這時候播出卡通效果最好
整理資料
還可以做好幾種不同觀點的加工:
女生比較乖,寫功課特別快,所以16:00~16:30 適合播女孩子看的卡通;男生的卡通則放在 16:30~17:00 播
有的小朋友住比較遠或比較愛玩,功課寫很久來不及看,所以可以推出錄製卡通的服務
提供資訊
Useful info
有用的資訊
Provider
資訊提供者
根據產品決定
已經整理過的資訊最好是可以直接取用,不需要再計算可以拿 NoSQL來儲存例如:MongoDB、Redis、Cassandra
所以你需要….
1. Target –想達到什麼目的
2. Data Source –要從哪裡收集資料
3. Data Store for raw data –要把 Raw Data
放在哪裡
4. Algorithm –如何整理資料
5. Data Processor –幫你整理資料的工具
6. Data Store for useful data –存放整理過的資料
7. Provider –提供資料的平台