aws 数据湖打造webinar+2019/pdf... · elasticache for redis elasticache memcached. aws...

32
AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营 AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营 张孝峰,AWS 资深解决方案架构师 基于 AWS 数据湖打造 千人千面的互联网广告平台

Upload: others

Post on 25-Sep-2019

28 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

张孝峰,AWS 资深解决方案架构师

基于 AWS数据湖打造

“千人千面”的互联网广告平台

Page 2: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

数字广告就是围绕数据的“飞轮”

机器学习

深度学习

人工智能

更多的用户 更好的产品

更多的数据 更好的分析

对象存储

数据库

数据仓库

数据流分析

商业智能

Map/Reduce

内存数据库

数据检索

点击流

用户活动

内容生成

购买

点击

喜好

传感器数据

Page 3: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

互联网广告的业务流程就是一个数据处理的流程

Page 4: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

互联网广告数据处理工作的简化视图

低延迟响应• 服务器到客户端(效果跟踪)

• 服务器到服务器(实时出价,用户和广告数据缓存)

• 生成新的数据(每天百万条到千亿条的数据量)

• 用户交互(移动APP,浏览器)

边缘站点服务 10-20%

数据流水线40-50%

低延迟响应30-40%

低延迟响应

数据流水线• 服务器到服务器

• 收集,转换和储存数据

• 流式的数据和静态的数据结合

• 用于洞察,数据聚合,报告

• 数据湖,机器学习训练,第三方数据

数据流水线边缘站点服务• 服务器到客户端

• 下发广告物料

• 加速连接(代理服务器)

• 使用WAF进行欺诈性流量过滤

• 业务逻辑 (JavaScript), Lambda @Edge

边缘站点服务

Page 5: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Amazon CloudFront

• 就近缓存,快速分发

• 减轻源站负担

• 同时支持动态与静态请求的加速

• 支持流式文件

• 支持使用自持SSL证书

• 低TTL(可以低至0秒)

• Lambda@Edge

边缘站点服务

Page 6: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

边缘站点服务AWS全球骨干网络

Page 7: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

实时出价和广告投放

网页客户端

低延迟响应

移动客户端

广告API

出价系统

EC2ECS

低延迟数据库

ElastiCache DynamoDB

实时数据采集

API Kinesis

长效数据

S3 RedshiftRDS

广告主

广告投放管理

EC2ECS

第三方用户跟踪

分析系统

EMR Glue ElasticSearch

数据流水线

CloudFront

Page 8: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

实时出价和广告投放

网页客户端

低延迟响应

移动客户端

广告API

出价系统

EC2ECS

低延迟数据库

ElastiCache DynamoDB

实时数据采集

API Kinesis

长效数据

S3 RedshiftRDS

广告主

广告投放管理

EC2ECS

第三方用户跟踪

分析系统

EMR Glue ElasticSearch

CloudFront

Page 9: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Amazon DynamoDB

9

多主(Multi-Master)架构,使用本地数据表实

现低延迟读写

跨区冗余,自动复制,最终一致性

高性能:自动数据分区和 SSD 存储,满足任

何规模的高吞吐、低延迟性能需求

全托管,自动弹性伸缩,无需人工管理服务

器集群

灵活性:支持文档型和键值型数据结构

支持事务(Transaction)DynamoDB Global Tables

完全托管的,灵活、高性能的 NoSQL 数据库

低延迟响应

Page 10: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

AWS全托管的ElastiCache

动态的写入限流

AWS负责所有的软硬件搭建,配置和补丁

详细的监控指标,CloudWatch集成

平滑的故障转移能力

优化的交换内存

低延迟响应

ElastiCache for Redis ElastiCache for

Memcached

Page 11: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

在线群集调整大小 -零停机时间

• 添加或删除分片进行扩容/缩容

• 零停机时间 -集群持续提供读/写请求

• 无需更改客户端更改或重写应用程序

• 最大扩展到6.1TB内存容量

P

Shard 1

P

Shard 2

P

Shard 3

0–5461 5462–10922 10923–16383

Simple API

AWS elasticache modify-replication-group-shard-configuration

--replication-group-id re-group-id

--apply-immediately --node-groupd-count 5

P: Primary

低延迟响应

Page 12: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

实时出价和广告投放

网页客户端

低延迟响应

移动客户端

广告API

出价系统

EC2ECS

低延迟数据库

ElastiCache DynamoDB

实时数据采集

API Kinesis

长效数据

S3 RedshiftRDS

广告主

广告投放管理

EC2ECS

第三方用户跟踪

分析系统

EMR Glue ElasticSearch

数据流水线

CloudFront

Page 13: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

传统的系统

使用AWS流式传输实时数据

搭建复杂

低延迟响应

Page 14: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

使用AWS流式传输实时数据低延迟响应

Page 15: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

大型游戏厂商的数据分析系统

同时接入全球数亿游戏客户端的数据

低延迟响应

Page 16: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

实时出价和广告投放

网页客户端

移动客户端

广告API

出价系统

EC2ECS

低延迟数据库

ElastiCache DynamoDB

实时数据采集

API Kinesis

长效数据

S3 RedshiftRDS

广告主

广告投放管理

EC2ECS

第三方用户跟踪

分析系统

EMR Glue ElasticSearch

数据流水线

CloudFront

Page 17: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

AWS主张的数据湖核心

S3

中央储存在S3中,安全经济高效的储存

Firehose Direct

Connect

Snowball DMS

数据摄入快速,安全的将数据存入S3

Athena Glue EMR Redshift

/ Spectrum

QuickSight

处理和分析使用预测和规则分析来理解数据

DynamoDB Amazon ES

目录与搜索访问和搜索元数据

API Gateway IAM Cognito

CloudWatch CloudTrail KMS Macie

保护和安全确保数据安全,并验证用户身份

访问和用户界面为您的用户提供方便和安全的访问

数据流水线

Page 18: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

AWS上的互联网广告数据湖

集中处理所有区域,所有来源的数据

安全,合规,可审计

最广泛数据技术,涵盖分析、发现、报表等方面

开放的数据流入流出渠道

最多的机器学习服务

数据量从零开始扩展的EB级别,保持线性的成本增长

Snowball

SnowmobileKinesis Firehose

Kinesis

Data Streams

S3

GlueRedshift

EMR

AthenaKinesis

Elasticsearch

Service

SageMaker

数据流水线

Page 19: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

计算与存储分离——是现代化数据湖的重要功能

Page 20: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

S3为核心的数据湖可以弹性扩展

并发查询无需数据重平衡

S3

数据湖

生产ETL集群(每天只有凌晨时间运行数个小时)

生产查询集群(按照实际的业务压力动态伸缩大小)

业务探索集群(按需启动,不与生产系统竞争资源)

测试集群(使用真实数据测试新功能,

无需数据拷贝,不影响生产,无缝切换)

Page 21: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

创新(越快越好)

成本(越省越好)

Page 22: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

创新(越快越好)

成本(越省越好)

机器学习能同时满足两者!

Page 23: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

用户定向

渠道归因

客户如何使用AWS

进行机器学习?

相似性建模

点击欺诈检测

流量整形

成本预测

多参数优化

评标和优化

身份数据富集

数据科学中的机器学习

Page 24: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

实时出价和广告投放

网页客户端

低延迟响应

移动客户端

广告API

出价系统

EC2ECS

低延迟数据库

ElastiCache DynamoDB

实时数据采集

API Kinesis

长效数据

S3 RedshiftRDS

广告主

广告投放管理

EC2ECS

第三方用户跟踪

分析系统

EMR Glue ElasticSearch

数据流水线

CloudFront

Page 25: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

机器学习应用机器学习

EC2ECS ElastiCache DynamoDB

API Kinesis

S3 RedshiftRDSEC2ECS EMR Glue ElasticSearch

数据建模

SageMaker Ground Truth

模型预测

SageMaker ECS

Page 26: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

但是机器学习并不容易使用

机器学习专业知识很少见

扩展机器学习的基础架构很困难

数据预处理非常耗时

缺乏经济高效,易于使用且可扩展的人工智能,机器学习服务

Page 27: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

AWS可以帮助解决这些挑战

可以随时随地访问与广告相关的

机器学习和

数据科学工具

通过弹性的基础设施节省机器学习实验的时间和成本

简化的预处理为实验腾出时间和资源

1 2 3

一个可扩展,省时的机器学习平台,适用于机器学习旅程中的任何阶段的广告客户

Page 28: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

自由访问你的机器学习资源

平台服务

应用服务

1

基础框架

A W S机器学习堆栈

基于API的服务:图像/视频分析,语音识别,情感分析等,数据预测,个性化定制。

Amazon Sagemaker:完全托管的服务,用于构建,训练和部署模型

深度学习镜像:预制的TensorFlow,MXNet,Caffe2等实例

AWS机器学习堆栈提供了一系列工具,从“即插即用”API服务到专家实践者的深度学习框架

“即插即用”

人工智能专家

Page 29: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

解放“无差别的重体力劳动”2

Amazon Sagemaker解放了“无差别的重体力劳动”,并帮助数据科学家无需花时间管理基础设施

机器学习工作流管理

自动缩放的算法 简单的API管理

单一界面,用于管理所有测试环境和生产环境的机器学习数据流水线

AWS管理基础架构和横向扩展并且提供优化的算法包括广告业常用的

LR,XGBoost和Factorization

Machines

AWS管理和自动扩展生产环境的API

用于处理推理流量(包括自动A / B测试)

Page 30: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

更快地为您的模型带来新数据3

AWS无服务器数据预处理

(AWS Glue +

Lambda services)

常见的广告数据格式,例如 GA,Nielsen等

经过验证和转换的数据集

(例如压缩的csv文件或者Parquet)

AWS无服务器数据处理可自动执行繁琐的数据预处理任务,从而加快新数据的采集速度

Page 31: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营实时处理

导入 服务批处理

数据分析师

数据科学家

广告主

SaaS服务

API调用

机器学习/人工智能

数据仓库Amazon Redshift

Legacy应用Amazon RDS

无SchemaAmazon ElasticSearch

直接查询Amazon Athena

NoSQLAmazon DynamoDB

托管Hadoop平台Amazon EMR

Amazon S3

数据源

AWS

Cloud Trail

AWS

IAM

Amazon CloudWatchAWS

KMS

Amazon S3

原始数据(数据湖)

平台安全及监控

清洗后数据(数据湖)

第一阶段

第二阶段 第三阶段

应用开发

现代化的广告数据架构Amazon

Macie

第三方数据

流量日志

浏览器采集

移动端采集

数据API

(CloudFront)

Kinesis

Data Stream

Kinesis

Data Analytics

Kinesis

Data Firehose

ETL

AWS Glue

无服务器化处理

AWS Lambda

AI进行元数据提取

Spark Streaming

Flink

EMR

Elastic Search

with Kibana

ElasticSearch

service

Sagemaker

Forecast Personalize

Page 32: AWS 数据湖打造Webinar+2019/PDF... · ElastiCache for Redis ElastiCache Memcached. AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

我们希望您喜欢今天的内容!也请帮助我们完成反馈问卷。

欲获取关于 AWS 的更多信息和技术内容,可以通过以下方式找到我们:

微信公众号:AWSChina

新浪微博:https://www.weibo.com/amazonaws/

领英:https://www.linkedin.com/company/aws-china/

知乎:https://www.zhihu.com/org/aws-54/activities/

视频中心:http://aws.amazon.bokecc.com/

更多线上技术活动:https://aws.amazon.com/cn/about-aws/events/webinar/

感谢参加 AWS 在线研讨会