Aws summit arquitetura big data-v1.2

Download Aws summit arquitetura big data-v1.2

Post on 25-Jul-2015

339 views

Category:

Software

40 download

Embed Size (px)

TRANSCRIPT

<p> 1. So Paulo Maio/2015 2. Padres de Arquitetura para Big Data Hlio Silva Sr. Big Data Analytics Consultant Professional Services AWS Summit So Paulo Maio/2015 Henrique Souza Especialista de Cloud e Big Data 3. Agenda Desafios de um projeto de Big Data Viso simplificada do processamento Big Data Qual tecnologia usar? Arquitetura de referncia Design patterns 4. Desafios de um projeto de Big Data 5. Big Data: Volume cresce continuamente De PB para ZB GB TB PB ZB EB 1990 2000 2010 2020 6. Big Data tem que responder mais rpido Big Data Real-time Big Data 7. Um monte de solues e componentes Glacier S3 DynamoDB RDS EMR Redshift Data Pipeline Kinesis Cassandra CloudSearch AML 8. O que devo usar ? 9. Simplificando o processamento do Big Data 10. Simplificando o processamento do Big Data Ingesto Persistncia / Storage Processamento Visualizao Dados Respostas Tempo 11. Glacier S3 DynamoDB RDS Kinesis Spark Streaming EMR Ingesto Persistncia Processo/Anlise Visualizao Data Pipeline Storm Kafka Redshift Cassandra CloudSearch Kinesis Connector Kinesis enabled app App Server Web Server Devices AML 12. Ingesto de dados 13. Tipos de dados para ingesto Transacional SGBD leitura/escrita Arquivos Click-stream logs Texto livre Stream IoT devices Tweets Database Cloud Storage Stream Storage 14. Stream Storage Database Cloud Storage 15. Por que um Stream Storage? Converte mltiplos streams em poucos e persistentes ordenados sequencialmente Desconecta produtores e consumidores de dados Atua como um buffer ou uma fila Streams em sequncia so mais fceis de processar Preserva a ordenao para os consumidores Streaming MapReduce Consumidor pode dar um replay e reprocessar 16. Qual Stream Store devo usar? Amazon Kinesis e Kafka tm muitas semelhanas Mltiplos consumidores Ordenao dos registros MapReduce do Streaming Baixa Latncia Alta durabilidade, disponibilidade e escalabilidade Diferenas Um registro dura 24 horas no Kinesis, no Kafka configurvel Tamanho de 50 Kb no Kinesis, no Kafka configurvel Kinesis um servio totalmente gerencivel fcil de provisionar, monitorar e escalar. Kafka exige um trabalho de gesto de disponibilidade e escala como um processo on-premisses 17. Cloud Database &amp; Storage 18. Cloud Database and Storage Tier Anti-pattern App/Web Tier Client Tier Database &amp; Storage Tier 19. Database e Storage na nuvem As ferramentas corretas App/Web Tier Client Tier Data Tier Database &amp; Storage Tier Search Hadoop/HDFS Cache Blob Store SQL NoSQL 20. Database e Storage na nuvem As ferramentas corretas App/Web Tier Client Tier Data Tier Database &amp; Storage Tier Amazon RDSAmazon DynamoDB Amazon ElastiCache Amazon S3 Amazon Glacier Amazon CloudSearch HDFS on Amazon EMR 21. Qual Storage devo usar? Nvel de estruturao dos dados Complexidade das suas queries 22. Grau de estruturao e complexidade de query X Storage Structured Simple Query NoSQL Amazon DynamoDB Cache Amazon ElastiCache Structured Complex Query SQL Amazon RDS Search Amazon CloudSearch Unstructured No Query Cloud Storage Amazon S3 Amazon Glacier Unstructured Custom Query Hadoop/HDFS Elastic MapReduce Graudeestruturao Grau de complexidade das queries 23. Qual a temperatura dos seus dados? 24. Caractersticas dos dados: Quente, Morno, Frio Quente Morno Frio Volume MBGB GBTB PB Tamanho de registro BKB KBMB KBTB Latncia ms ms, seg min, horas Durabilidade BaixaAlta Alta Muito Alto Freq. de requisies Muito Alta Alto Baixo Custo/GB $$-$ $- 25. Amazon RDS Frequncia de Requisies alta baixa Custo/GB alta baixa Latncia baixa alta Data Volume baixa alta Amazon Glacier Amazon CloudSearch Estruturao baixa alta Amazon DynamoDB Amazon ElastiCache 26. Process AML 27. Processamento Anlise Descritiva: BI, OLAP, SQL/data warehouse Anlise Preditiva: sistemas de recomendao, previso de page-views, leilo de anncios on-line Classificao: anlise de sentimento, fraude, anti spam, clustering de clientes para formao de perfis de consumo Correlao: comparar o que se sabe sobre negcio (BI) com oscilaes de mercado, tempo e temperatura, reputao nas redes sociais 28. Frameworks de processamento Normalmente em dois tipos: Batch Processamento regular (ex: ETL) Anlise exploratria (ex:data science) Stream IoT, click-stream, social monitoring, crawlers, etc 29. Processamento Batch Acessar um grande volume de dados frios e interagir buscando correlaes Pesquisar uma faixa restrita de tempo Exemplo: Gerar relatrios por hora, dia, ms ou semana 30. Caso de uso: Processamento Batch para ETL Amazon EMR Amazon S3 Amazon Glacier Amazon Redshift 31. Processamento de Stream Analisa dados em pequenos grupos CEP Complex Event Processor (if/then/else) Machine Learning (fraude, recomendao, etc.) Responde em um espao curto de tempo Real time ou near realtime dependendo da aplicao Exemplo: Anlise de 1min de operao 32. Ferramentas Batch processing/analytic Amazon Redshift Amazon EMR Hive, Pig, Spark, Impala, Presto, Stream processing Apache Spark streaming Apache Storm (+ Trident) Amazon Kinesis client and connector library AML 33. Qual ferramenta de processamento batch devo usar? Redshift Impala Presto Spark Hive Latncia de query Baixa Baixa Baixa Baixa - Mdia Mdia - Alta Durabilidade Alta Alta Alta Alta Alta Volume 1.6PB Max ~Ns ~Ns ~Ns ~Ns Gerenciado Sim EMR bootstrap EMR bootstrap EMR bootstrap Sim (EMR) Storage Nativo HDFS HDFS/S3 HDFS/S3 HDFS/S3 # of BI Tools Alta Mdia Alta Baixa Alta Latncia de query Baixa Alta 34. Qual processamento de Stream devo usar? Spark Streaming Apache Storm + Trident Kinesis Client Library Escalabilidade/Thr oughput ~ Ns ~ Ns ~ Ns Volume ~ Ns ~ Ns ~ Ns Gerenciamento Sim (EMR bootstrap) Faa voc mesmo EC2 + Auto Scaling Tolerncia a falhas Built-in Built-in KCL Check pointing Linguagens de programao / API Java, Python, Scala Java, Scala, Clojure Java, Python 35. AML 36. Juntando tudo 37. Arquitetura desconectada Mltiplos estgios Storage desconectado do processamento Process Store Process StoreData Answers 38. Aplicaes de processamento (ou conectores) podem gravar em Mltiplos Data Stores Amazon Kinesis Amazon Kinesis Connectors Amazon S3 Data Amazon DynamoDB Lambda Architecture Anlise Real Time Anlise Exploratria 39. Frameworks de processamento lendo mltiplos Data Stores Amazon Kinesis Amazon Kinesis Connectors Amazon S3 Data Amazon DynamoDB Hive Spark Answers Storm Answers 40. Design Patterns 41. Spark Streaming, Apache Storm Amazon Redshift Spark, Impala, Presto Hive Amazon Redshift Hive Spark, Presto Amazon Kinesis/ Kafka Amazon DynamoDB Amazon S3Dados Quente FrioTemperatura dos dados Latnciadequery Baixa Alta Respostas HDFS Hive Native Client Temperatura dos dados X Latncia da query 42. Spark Streaming Amazon Kinesis / KafkaDados Apache Storm Native Client Processamento Real-time Amazon DynamoDB Native Client Respostas 43. Amazon Redshift Hive Spark, Presto Amazon Kinesis/ Kafka Amazon S3Dados Respostas Processamento em Batch 44. Spark, Impala, Presto Redshift Spark, Presto Kinesis/ Kafka S3Dados HDFS Anlises interativas Respostas 45. AML 46. Sumrio Estgios de processamento Big data: ingesto, storage, processamento e visualizao Usar as ferramentas corretas de acordo com o trabalho a ser feito Ingesto: Dados transacionais, arquivos, stream Storage: nvel de estruturao, padres de query, quente X frio, etc. Processamento: Latncia de query Arquitetura de referncia em Big Data e design patterns 47. Big Data no Setor Financeiro Henrique Souza Especialista de Cloud e Big Data 48. Contexto e Desafio powered by Cliente CI&amp;T: Consultoria Financeira focada Asset Mngmt. e Insurance. Desenvolvendo um Produto SaaS de Big Data para os seus clientes finais. Curto tempo para entrada em produo. Construindo uma infraestrutura do zero. 49. Soluo powered by Web Infrastructure &amp; Security Layer Report Rendering (Tableau Server &amp; Custom Dashboards) Storage and Querying "ETL" layer 50. AWS permitiu a construo de um novo Produto Digital para BigData em pouqussimo tempo e com excelentes resultados. Produto em produo com excelentes feedbacks. Resultados powered by Tabelas com bilhes de registros (aumentando todo ms). Empresa foi recentemente comprada por um outro grupo financeiro (USD 4 bi market cap). 51. Obrigado !!! Hlio Silva Sr. Big Data Analytics Consultant Professional Services Henrique Souza Especialista de Cloud e Big Data henriques@ciand.com @htssouza </p>