datatalks #4: Построение хранилища данных на основе...
TRANSCRIPT
![Page 1: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/1.jpg)
BUILDING A DATA WAREHOUSE WITH HADOOP
10.10.2015
IGOR NAKHVAT, DATA INTEGRATION ENGINEER
![Page 2: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/2.jpg)
CONTENT TABLE
I. Building a Data Warehouse with HadoopA.Data sourcesB.Data storageC.Data flowD.ETL toolE.Conclusions
![Page 3: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/3.jpg)
3
DATA SOURCESGamesDATA SOURCES
DATA STORAGEDATA FLOW
ETL TOOLCONCLUSIONS
![Page 4: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/4.jpg)
4
SPA Payment
Forum
eSport
Clan wars
Update
DATA SOURCESServicesDATA SOURCES
DATA STORAGEDATA FLOW
ETL TOOLCONCLUSIONS
![Page 5: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/5.jpg)
5
DATA SOURCESGeographyDATA SOURCES
DATA STORAGEDATA FLOW
ETL TOOLCONCLUSIONS
![Page 6: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/6.jpg)
6
DATA SOURCES
Total: 294
222
72
Tables
Total: 1264
Relational databasesDATA SOURCESDATA STORAGE
DATA FLOWETL TOOL
CONCLUSIONS
![Page 7: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/7.jpg)
7
DATA SOURCESNon - Relational data sourcesDATA SOURCES
DATA STORAGEDATA FLOW
ETL TOOLCONCLUSIONS
![Page 8: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/8.jpg)
8
• It is an open architecture.
• Cost effective.
• Many interfaces to data (SQL, Spark, Java, Scala, Python).
• Many ways/formats for storing the data.
• Many tools available for the data analytics.
DATA STORAGEWhy Hadoop?DATA SOURCES
DATA STORAGEDATA FLOW
ETL TOOLCONCLUSIONS
![Page 9: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/9.jpg)
9
Keep in mind
• Lack of employees
• Security
DATA STORAGEWhy Hadoop?DATA SOURCES
DATA STORAGEDATA FLOW
ETL TOOLCONCLUSIONS
![Page 10: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/10.jpg)
10
DATA STORAGEHadoop ecosystem
SQOOP
PIG
DATA SOURCESDATA STORAGE
DATA FLOWETL TOOL
CONCLUSIONS
![Page 11: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/11.jpg)
11
DATA STORAGEHow HDFS works?DATA SOURCES
DATA STORAGEDATA FLOW
ETL TOOLCONCLUSIONS
![Page 12: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/12.jpg)
12
DATA STORAGEHow HDFS works?DATA SOURCES
DATA STORAGEDATA FLOW
ETL TOOLCONCLUSIONS
![Page 13: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/13.jpg)
13
DATA STORAGEHow HDFS works?DATA SOURCES
DATA STORAGEDATA FLOW
ETL TOOLCONCLUSIONS
![Page 14: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/14.jpg)
14
DATA FLOW
Shell
SQL
CSV + GZIP
Check count
rows
Compute
stats
Parquet
DATA SOURCESDATA STORAGE
DATA FLOWETL TOOL
CONCLUSIONS
![Page 15: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/15.jpg)
15
DATA FLOW
Parquet
Shell
DATA SOURCESDATA STORAGE
DATA FLOWETL TOOL
CONCLUSIONS
![Page 16: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/16.jpg)
16
DATA FLOW
Parquet
DATA SOURCESDATA STORAGE
DATA FLOWETL TOOL
CONCLUSIONS
![Page 17: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/17.jpg)
17
DATA FLOW
Shell
Aggregation
Presentation
Audience
Balance
Finance
Data scientist
Manager
DATA SOURCESDATA STORAGE
DATA FLOWETL TOOL
CONCLUSIONS
![Page 18: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/18.jpg)
18
ETL TOOL
Continuous integration tool
+ =
ETL tool
Plugins
5 - 20 Hours
1000+ Jobs
JenkinsDATA SOURCESDATA STORAGE
DATA FLOWETL TOOL
CONCLUSIONS
![Page 19: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/19.jpg)
19
ETL TOOL
Apache NiFiDATA SOURCESDATA STORAGE
DATA FLOWETL TOOL
CONCLUSIONS
![Page 20: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/20.jpg)
20
Apache NiFi
• Drag – n – drop works!
• Great visualization.
• Data provenance.
• Flow can be modified at runtime.
ETL TOOLDATA SOURCESDATA STORAGE
DATA FLOWETL TOOL
CONCLUSIONS
![Page 21: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/21.jpg)
21
Apache NiFi
Keep in mind
• Multiuser development.
• No templates.
• NiFi is not an orchestration tool.
ETL TOOLDATA SOURCESDATA STORAGE
DATA FLOWETL TOOL
CONCLUSIONS
![Page 22: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/22.jpg)
22
CONCLUSIONSDATA SOURCESDATA STORAGE
DATA FLOWETL TOOL
CONCLUSIONS • Hadoop is good for data warehousing
• Poor Hadoop security
• Impala (SQL on Hadoop) performs and scales
• Data format choice is a key (Avro, Parquet)
![Page 23: DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь Нахват](https://reader035.vdocuments.mx/reader035/viewer/2022062400/587c96c81a28abfa5e8b63af/html5/thumbnails/23.jpg)
TANKS A LOT!