big data: apache spark -novo pojačanje tradicionalnom bi ili ne?
TRANSCRIPT
![Page 1: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/1.jpg)
![Page 2: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/2.jpg)
Big Data: Apache Spark – novo pojačanje tradicionalnom BI ili ne?
Darko Marjanović
Things Solver
![Page 3: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/3.jpg)
• Big Data
• Apache Spark
• Spark i Azure
• Spark i PowerBI
Agenda
![Page 4: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/4.jpg)
Big Data predstavlja podatke koji pristižu velikom brzinom i one su količine koja prevazilazu mogućnosti tradicionalnog softvera za skladištenje, obradu i upravljanje podacima.
Big Data je sve ono što ne može da stane u Excel.
Big Data
![Page 5: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/5.jpg)
• Društvene mreže (Twitter, Facebook…)
• Email, HTML, Click Stream
• Slike, Video, Logovi, Senzorski podaci
• Relacione baze podataka
• Nestrukturirani (Tekst, Slike…)
• Polustrukturirani (JSON)
• Strutkturirani (Relacione baze)
Big Data
![Page 6: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/6.jpg)
Big Data Primer
![Page 7: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/7.jpg)
Apache Spark je platforma za big data obradu, sa ugrađenim modulima za mašinsko učenje, SQL, streaming i graf obradu.
Apache Spark
![Page 8: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/8.jpg)
• RDD (Resilient Distributed Datasets )• Kolekcija objekta rasprostranjenih kroz klaster, u RAM-u ili na disku• Automatski oporavak• Praralelizam
• Operacije• Lazy transformacije (Map, Filter, groupBy…)• Akcije (count, collect, save…)
Apache Spark - Osnovni koncepti
![Page 9: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/9.jpg)
• Obrada u memoriji
• Premeštanje na disk ako podaci ne mogu da stanu u memoriju
Apache Spark memorija?
![Page 10: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/10.jpg)
• Java, Scala, Python
• Batch, Streaming, Interactive
• Standalone, YARN…
• Izvori podataka (HDFS, Hive, Cassandra, HBase..)
• SparkSQL, Streamin, MLib, GraphX
Razvoj Spark Aplikacija
![Page 11: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/11.jpg)
• Problemi koji se rešavaju pomoću više iteracija
• Mašinsko učenje
• Analitika u realnom vremenu
• Brži razvoj jednostavnih aplikacija
Spark Prednosti
![Page 12: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/12.jpg)
• Bazirani na Python Pandas
• Distribuirana kolekcija podataka organizovana u imenovane kolone
• Koncept iz relacionih baza podataka
• Bolja optimizacija
• Dizajnirani za velike količine podataka
• JSON, Parquet, Baze podataka…
Apache Spark – Data Frames
![Page 13: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/13.jpg)
• SQL Like
• Python, Scala, Java
• ETL (JSON, Parquet ili bilo koja baza podataka)
• Ad-hoc upiti
• Pristup Spark podacima preko tradicionalnih BI alata kroz JDBC
Spark SQL
![Page 14: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/14.jpg)
Spark i Azure
![Page 15: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/15.jpg)
Spark i Azure
![Page 16: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/16.jpg)
• Podrška
• Cena
• Administracija
• Integracija sa ostalim alatima
• Razvojno okruženje (Zeppelin i IPython)
Spark i Azure prednosti
![Page 17: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/17.jpg)
Spark i PowerBI
![Page 18: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/18.jpg)
Senzorski podaci
![Page 19: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/19.jpg)
Senzorski podaci
![Page 20: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/20.jpg)
• Hadoop Srbija
• Spark i PowerBI
• Spark
Korisni linkovi
![Page 21: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/21.jpg)
![Page 22: Big Data: Apache Spark -novo pojačanje tradicionalnom BI ili ne?](https://reader035.vdocuments.mx/reader035/viewer/2022070516/587002541a28ab427f8b537b/html5/thumbnails/22.jpg)
Big Data: Apache Spark – novo pojačanje tradicionalnom BI ili ne?
Darko Marjanović
Things Solver