growing a data pipeline for analytics

Growing a Data Pipeline for Analytics Roberto Vitillo, Staff Data Engineer @ Mozilla 26th PyData London Meetup

Upload: roberto-agostino-vitillo

Post on 13-Jan-2017

114 views

Category:

Data & Analytics

0 download

Report

Download

Embed Size (px):

TRANSCRIPT

Growing a Data Pipeline for Analytics

Roberto Vitillo, Staff Data Engineer @ Mozilla26th PyData London Meetup

Page 3: Growing a Data Pipeline for Analytics

Page 4: Growing a Data Pipeline for Analytics

brew install apache-spark

Page 5: Growing a Data Pipeline for Analytics

Page 6: Growing a Data Pipeline for Analytics

Don’t do it yourself!

Page 7: Growing a Data Pipeline for Analytics

Input OutputETL

Storage

Page 8: Growing a Data Pipeline for Analytics

JSON

JSON?

Page 9: Growing a Data Pipeline for Analytics

Page 10: Growing a Data Pipeline for Analytics

Page 11: Growing a Data Pipeline for Analytics

Page 12: Growing a Data Pipeline for Analytics

Page 13: Growing a Data Pipeline for Analytics

JSON

Parquet

Spark, Hive, Pig …

Page 14: Growing a Data Pipeline for Analytics

JSON

Parquet

Spark, Hive, Pig … ???

Page 15: Growing a Data Pipeline for Analytics

“The easier it is to ask questions, the more questions will be asked”

Page 16: Growing a Data Pipeline for Analytics

Page 17: Growing a Data Pipeline for Analytics

Modern SQL supports Map, Arrays & Structs

Page 18: Growing a Data Pipeline for Analytics

Page 19: Growing a Data Pipeline for Analytics

JSON

Parquet

Spark, Hive, Pig …

Presto, Re:dash

Page 20: Growing a Data Pipeline for Analytics

TLDR;

• Don’t build your own pipeline unless you really have to

• Use schemas

• Exploit columnar storage

• Use SQL

5-Secrets-Build-Your-Sales-Pipeline and Keep it Growing

Big Data Pipeline for Analytics at Scale @ FIT CVUT 2014

Pipeline analytics concept for posting on linked in

Seattle Analytics Meetup preso - B2B revenue pipeline health and attribution

Pipeline Unified Big Data Analytics - GitHub Pagesfrank19900731.github.io/downloads/file/Unified Big Data... · 2017-02-13 · Unified big data analytics pipeline for Batch / interactive

The Analytics Pipeline and Data Flow - MeriTalk · The Analytics Pipeline and Data Flow September 20, 2018 Linton Ward, PhD IBM Distinguished Engineer OpenPower Cognitive Solutions

Inspire 2013 - Growing your Alteryx ROI with Predictive Analytics- AbsolutData

Predictive Analytics of Digital Marketing and Sales Pipeline

Growing Health Analytics Without Hiring new Staff

Basketball Analytics Pipeline – An Offensive Analysis€¦ · Basketball Analytics Pipeline – An Offensive Analysis Undergraduates: Anshul Shah ([email protected]), Jack Lichtenstein

Growing the pipeline, growing the bottom line - KPMG · and Drug Administration (FDA) ... the trend toward asset swaps, carve outs, ... Growing the pipeline, growing the bottom line

ELK for KPI’s - Indico · Elastic Search A distributed, RESTful search and analytics engine capable of solving a growing number of use cases. Logstash Data processing pipeline that

Building Unified Big Data Analytics and AI Pipelines · 2020-04-06 · End-to-End Big Data Analytics and AI Pipeline Production Data pipeline Prototype on laptop using sample data

Finding and Growing a Talent Pipeline - Argentum

LNR - Liquid Newsroom. News Pipeline & Predictive Analytics

Improving Iteration, Maintainability, and Analytics in the Build Pipeline

Pipeline Analytics: The foundation of DevSecOps

Sales Analytics Beyond The Pipeline eBook

Growing Data Analytics at Etsy (Cristopher Bohn)

Rethinking the Analytics Pipeline - Big Data & AI World London · 2020-06-12 · Rethinking the Analytics Pipeline From Data Lake to Data Marketplace Big Data World March 11, 2020

What We Learned Building an R-Python Hybrid Predictive Analytics Pipeline

ATW Growing your talent pipeline – you!

In-transit analytics on distributed Clouds: applications ... · Autonomic Streaming Pipeline • Streaming pipeline –No “blocking” semantics –Continuous data transmission

Query-able Kafka: An agile data analytics pipeline for ... · Query-able Kafka: An agile data analytics pipeline for mobile wireless networks Eric Falk University of Luxembourg [email protected]

Scalable Data Analytics Pipeline for Real-Time Attack ...publish.illinois.edu/science-of-security-lablet/files/2015/09/10062015-Eric-Badger...Pipeline Design Pipeline Deployment Validation

A pipeline for functional and visual analytics of ...ceur-ws.org/Vol-1229/dynak2014_paper2.pdf · A pipeline for functional and visual analytics of microbial genetic networks

Analytics of Reliability for Real-Time Big Data Pipeline ... · time big data analytics pipeline architecture by using Apache Kafka and Apache Storm. The remainder of this paper is

Relevant and actionable insights are imperative to … · Web view- Service Analytics, Warranty Analytics, Asset Failure Analysis, Pipeline Sales Conversion Analytics, Real Time Failure

Growing the IT Talent Pipeline

Crowdfunding Your Fundraising: Growing Your Donor Pipeline

Marketing Analytics Strategies for a Growing Brand

Growing the Business Lending Pipeline

Profiling DRDoS Attacks with Data Analytics Pipeline

BIOVIA PIPELINE PILOT PLATE DATA ANALYTICSls.ctc-g.co.jp/products/accelrys/files/2017_plate-data...BIOVIA PIPELINE PILOT PLATE DATA ANALYTICS データシート BIOVIA Pipeline Pilot

Finding and Growing a Talent Pipeline - Activated Insights€¦ · Great Place to Work® and Argentum, Finding and Growing a Talent Pipeline 1 The senior living industry must find