aws 数据湖打造webinar+2019/pdf... · elasticache for redis elasticache memcached. aws...
TRANSCRIPT
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
张孝峰,AWS 资深解决方案架构师
基于 AWS数据湖打造
“千人千面”的互联网广告平台
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
数字广告就是围绕数据的“飞轮”
机器学习
深度学习
人工智能
更多的用户 更好的产品
更多的数据 更好的分析
对象存储
数据库
数据仓库
数据流分析
商业智能
Map/Reduce
内存数据库
数据检索
点击流
用户活动
内容生成
购买
点击
喜好
传感器数据
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
互联网广告的业务流程就是一个数据处理的流程
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
互联网广告数据处理工作的简化视图
低延迟响应• 服务器到客户端(效果跟踪)
• 服务器到服务器(实时出价,用户和广告数据缓存)
• 生成新的数据(每天百万条到千亿条的数据量)
• 用户交互(移动APP,浏览器)
边缘站点服务 10-20%
数据流水线40-50%
低延迟响应30-40%
低延迟响应
数据流水线• 服务器到服务器
• 收集,转换和储存数据
• 流式的数据和静态的数据结合
• 用于洞察,数据聚合,报告
• 数据湖,机器学习训练,第三方数据
数据流水线边缘站点服务• 服务器到客户端
• 下发广告物料
• 加速连接(代理服务器)
• 使用WAF进行欺诈性流量过滤
• 业务逻辑 (JavaScript), Lambda @Edge
边缘站点服务
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon CloudFront
• 就近缓存,快速分发
• 减轻源站负担
• 同时支持动态与静态请求的加速
• 支持流式文件
• 支持使用自持SSL证书
• 低TTL(可以低至0秒)
• Lambda@Edge
边缘站点服务
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
边缘站点服务AWS全球骨干网络
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
实时出价和广告投放
网页客户端
低延迟响应
移动客户端
广告API
出价系统
EC2ECS
低延迟数据库
ElastiCache DynamoDB
实时数据采集
API Kinesis
长效数据
S3 RedshiftRDS
广告主
广告投放管理
EC2ECS
第三方用户跟踪
分析系统
EMR Glue ElasticSearch
数据流水线
CloudFront
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
实时出价和广告投放
网页客户端
低延迟响应
移动客户端
广告API
出价系统
EC2ECS
低延迟数据库
ElastiCache DynamoDB
实时数据采集
API Kinesis
长效数据
S3 RedshiftRDS
广告主
广告投放管理
EC2ECS
第三方用户跟踪
分析系统
EMR Glue ElasticSearch
CloudFront
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon DynamoDB
9
多主(Multi-Master)架构,使用本地数据表实
现低延迟读写
跨区冗余,自动复制,最终一致性
高性能:自动数据分区和 SSD 存储,满足任
何规模的高吞吐、低延迟性能需求
全托管,自动弹性伸缩,无需人工管理服务
器集群
灵活性:支持文档型和键值型数据结构
支持事务(Transaction)DynamoDB Global Tables
完全托管的,灵活、高性能的 NoSQL 数据库
低延迟响应
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
AWS全托管的ElastiCache
动态的写入限流
AWS负责所有的软硬件搭建,配置和补丁
详细的监控指标,CloudWatch集成
平滑的故障转移能力
优化的交换内存
低延迟响应
ElastiCache for Redis ElastiCache for
Memcached
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
在线群集调整大小 -零停机时间
• 添加或删除分片进行扩容/缩容
• 零停机时间 -集群持续提供读/写请求
• 无需更改客户端更改或重写应用程序
• 最大扩展到6.1TB内存容量
P
Shard 1
P
Shard 2
P
Shard 3
0–5461 5462–10922 10923–16383
Simple API
AWS elasticache modify-replication-group-shard-configuration
--replication-group-id re-group-id
--apply-immediately --node-groupd-count 5
P: Primary
低延迟响应
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
实时出价和广告投放
网页客户端
低延迟响应
移动客户端
广告API
出价系统
EC2ECS
低延迟数据库
ElastiCache DynamoDB
实时数据采集
API Kinesis
长效数据
S3 RedshiftRDS
广告主
广告投放管理
EC2ECS
第三方用户跟踪
分析系统
EMR Glue ElasticSearch
数据流水线
CloudFront
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
传统的系统
使用AWS流式传输实时数据
搭建复杂
低延迟响应
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
使用AWS流式传输实时数据低延迟响应
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
大型游戏厂商的数据分析系统
同时接入全球数亿游戏客户端的数据
低延迟响应
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
实时出价和广告投放
网页客户端
移动客户端
广告API
出价系统
EC2ECS
低延迟数据库
ElastiCache DynamoDB
实时数据采集
API Kinesis
长效数据
S3 RedshiftRDS
广告主
广告投放管理
EC2ECS
第三方用户跟踪
分析系统
EMR Glue ElasticSearch
数据流水线
CloudFront
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
AWS主张的数据湖核心
S3
中央储存在S3中,安全经济高效的储存
Firehose Direct
Connect
Snowball DMS
数据摄入快速,安全的将数据存入S3
Athena Glue EMR Redshift
/ Spectrum
QuickSight
处理和分析使用预测和规则分析来理解数据
DynamoDB Amazon ES
目录与搜索访问和搜索元数据
API Gateway IAM Cognito
CloudWatch CloudTrail KMS Macie
保护和安全确保数据安全,并验证用户身份
访问和用户界面为您的用户提供方便和安全的访问
数据流水线
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
AWS上的互联网广告数据湖
集中处理所有区域,所有来源的数据
安全,合规,可审计
最广泛数据技术,涵盖分析、发现、报表等方面
开放的数据流入流出渠道
最多的机器学习服务
数据量从零开始扩展的EB级别,保持线性的成本增长
Snowball
SnowmobileKinesis Firehose
Kinesis
Data Streams
S3
GlueRedshift
EMR
AthenaKinesis
Elasticsearch
Service
SageMaker
数据流水线
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
计算与存储分离——是现代化数据湖的重要功能
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
S3为核心的数据湖可以弹性扩展
并发查询无需数据重平衡
S3
数据湖
生产ETL集群(每天只有凌晨时间运行数个小时)
生产查询集群(按照实际的业务压力动态伸缩大小)
业务探索集群(按需启动,不与生产系统竞争资源)
测试集群(使用真实数据测试新功能,
无需数据拷贝,不影响生产,无缝切换)
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
创新(越快越好)
成本(越省越好)
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
创新(越快越好)
成本(越省越好)
机器学习能同时满足两者!
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
用户定向
渠道归因
客户如何使用AWS
进行机器学习?
相似性建模
点击欺诈检测
流量整形
成本预测
多参数优化
评标和优化
身份数据富集
数据科学中的机器学习
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
实时出价和广告投放
网页客户端
低延迟响应
移动客户端
广告API
出价系统
EC2ECS
低延迟数据库
ElastiCache DynamoDB
实时数据采集
API Kinesis
长效数据
S3 RedshiftRDS
广告主
广告投放管理
EC2ECS
第三方用户跟踪
分析系统
EMR Glue ElasticSearch
数据流水线
CloudFront
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
机器学习应用机器学习
EC2ECS ElastiCache DynamoDB
API Kinesis
S3 RedshiftRDSEC2ECS EMR Glue ElasticSearch
数据建模
SageMaker Ground Truth
模型预测
SageMaker ECS
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
但是机器学习并不容易使用
机器学习专业知识很少见
扩展机器学习的基础架构很困难
数据预处理非常耗时
缺乏经济高效,易于使用且可扩展的人工智能,机器学习服务
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
AWS可以帮助解决这些挑战
可以随时随地访问与广告相关的
机器学习和
数据科学工具
通过弹性的基础设施节省机器学习实验的时间和成本
简化的预处理为实验腾出时间和资源
1 2 3
一个可扩展,省时的机器学习平台,适用于机器学习旅程中的任何阶段的广告客户
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
自由访问你的机器学习资源
平台服务
应用服务
1
基础框架
A W S机器学习堆栈
基于API的服务:图像/视频分析,语音识别,情感分析等,数据预测,个性化定制。
Amazon Sagemaker:完全托管的服务,用于构建,训练和部署模型
深度学习镜像:预制的TensorFlow,MXNet,Caffe2等实例
AWS机器学习堆栈提供了一系列工具,从“即插即用”API服务到专家实践者的深度学习框架
“即插即用”
人工智能专家
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
解放“无差别的重体力劳动”2
Amazon Sagemaker解放了“无差别的重体力劳动”,并帮助数据科学家无需花时间管理基础设施
机器学习工作流管理
自动缩放的算法 简单的API管理
单一界面,用于管理所有测试环境和生产环境的机器学习数据流水线
AWS管理基础架构和横向扩展并且提供优化的算法包括广告业常用的
LR,XGBoost和Factorization
Machines
AWS管理和自动扩展生产环境的API
用于处理推理流量(包括自动A / B测试)
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
更快地为您的模型带来新数据3
AWS无服务器数据预处理
(AWS Glue +
Lambda services)
常见的广告数据格式,例如 GA,Nielsen等
经过验证和转换的数据集
(例如压缩的csv文件或者Parquet)
AWS无服务器数据处理可自动执行繁琐的数据预处理任务,从而加快新数据的采集速度
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营实时处理
导入 服务批处理
数据分析师
数据科学家
广告主
SaaS服务
API调用
机器学习/人工智能
数据仓库Amazon Redshift
Legacy应用Amazon RDS
无SchemaAmazon ElasticSearch
直接查询Amazon Athena
NoSQLAmazon DynamoDB
托管Hadoop平台Amazon EMR
Amazon S3
数据源
AWS
Cloud Trail
AWS
IAM
Amazon CloudWatchAWS
KMS
Amazon S3
原始数据(数据湖)
平台安全及监控
清洗后数据(数据湖)
第一阶段
第二阶段 第三阶段
应用开发
现代化的广告数据架构Amazon
Macie
第三方数据
流量日志
浏览器采集
移动端采集
数据API
(CloudFront)
Kinesis
Data Stream
Kinesis
Data Analytics
Kinesis
Data Firehose
ETL
AWS Glue
无服务器化处理
AWS Lambda
AI进行元数据提取
Spark Streaming
Flink
EMR
Elastic Search
with Kibana
ElasticSearch
service
Sagemaker
Forecast Personalize
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
我们希望您喜欢今天的内容!也请帮助我们完成反馈问卷。
欲获取关于 AWS 的更多信息和技术内容,可以通过以下方式找到我们:
微信公众号:AWSChina
新浪微博:https://www.weibo.com/amazonaws/
领英:https://www.linkedin.com/company/aws-china/
知乎:https://www.zhihu.com/org/aws-54/activities/
视频中心:http://aws.amazon.bokecc.com/
更多线上技术活动:https://aws.amazon.com/cn/about-aws/events/webinar/
感谢参加 AWS 在线研讨会