top100summit 当当网打造个性化推荐 精准营销生态系统傅强
TRANSCRIPT
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
当当网打造个性化推荐当当网打造个性化推荐当当网打造个性化推荐当当网打造个性化推荐&&&&精准营销精准营销精准营销精准营销生态系统生态系统生态系统生态系统
傅强 当当网 高级开发总监
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
引言
a)当当网是一家B2C电商网站。电商网站的本质是商务,商务的核心支柱之一是营销。通过技术手段提升营销效果将是电商网站核心竞争力之一,国外亚马逊就是成功的范例
b)我们启动此案例要达成的目标正是通过个性化推荐&精准营销这个渠道,让技术创造价值
c) 亲历个性化推荐&精准营销生态系统逐步演化的过程
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
ROI
仅一支几十人的技术团队,推荐产品日均对销售贡献,甚至抵得上一些事业部销售贡献50%
2012年下半年,个性化推荐&精准营销系统对当当网销售贡献占比提高50%
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
从亚马逊说起
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践1000100010001000万用万用万用万用户户户户100100100100万图书万图书万图书万图书
双核双核双核双核2222G-4GG-4GG-4GG-4G内存内存内存内存33332222位位位位55550-200G0-200G0-200G0-200G磁盘磁盘磁盘磁盘解决方案解决方案解决方案解决方案
• 多多多多步骤处理:内存有限,不得不分批分块计算步骤处理:内存有限,不得不分批分块计算步骤处理:内存有限,不得不分批分块计算步骤处理:内存有限,不得不分批分块计算
• 只只只只计算计算计算计算3-63-63-63-6个月:一方面降低计算量,另一方面个月:一方面降低计算量,另一方面个月:一方面降低计算量,另一方面个月:一方面降低计算量,另一方面数据较新,让用户最新的群体行为有机会影响推数据较新,让用户最新的群体行为有机会影响推数据较新,让用户最新的群体行为有机会影响推数据较新,让用户最新的群体行为有机会影响推荐效果基本荐效果基本荐效果基本荐效果基本信息信息信息信息
• 剪剪剪剪枝:去除脏数据噪声、低频低销量冷门商品、枝:去除脏数据噪声、低频低销量冷门商品、枝:去除脏数据噪声、低频低销量冷门商品、枝:去除脏数据噪声、低频低销量冷门商品、高频畅销商品高频畅销商品高频畅销商品高频畅销商品
• 稀稀稀稀疏矩阵的高压缩比的存储与支持高效查询仍然疏矩阵的高压缩比的存储与支持高效查询仍然疏矩阵的高压缩比的存储与支持高效查询仍然疏矩阵的高压缩比的存储与支持高效查询仍然是问题是问题是问题是问题
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践 P100 C001 C004 C008 C162 C589 C798
C001P006P100P168P457P688
C004P001P005P100P457
C008P004P009P100P235P688P889
稀疏矩阵的高压缩比的高压缩比的高压缩比的高压缩比的存储存储存储存储与支持高效查询支持高效查询支持高效查询支持高效查询解决方案
• 倒排索引
• 内存映射
空间:几十G -> 几百M
时间:处理全量数据2小时以内
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践 – 单细胞时代的商品推荐系统
算法支持:协同过滤
商品推荐
买了还买看了还看
商业数据商品
用户行为访问订单
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践 – 2009年外部因素
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践
算法支持
个性化推荐
流量数据
流量分析
用户行为
商业数据
买了还买看了还看浏览推荐相似顾客
访问点击订单收藏评论
运营报告网页分析
商品
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
问题
MYSQL MYSQLMYSQL
Job Job Job
????分库分表横切纵切任务拆分……
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践 – 忽如一夜春风来2009、2010互联网各种新技术层出不穷:hadoophadoophadoophadoop、、、、erlangerlangerlangerlang、、、、
gearmangearmangearmangearman等等。这些新技术新思想不断对现有系统产生影响,并促成现有系统不断发展。精准营销生态系统进入新阶段。
Hadoop
乃神器也!
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践
Hadoop
Jobs
A的频率
B的频率
AB的频率
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践
Hadoop
推荐/协同过滤Non-distributed recommenders: Taste(UserCF, ItemCF,
SlopeOne)Distributed Recommenders: ItemCF
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
启示
从推广新技术推广新技术推广新技术推广新技术的维度来看—面向新技术布道者持续不断关注互联网最新技术,大胆尝试用新技术解决问题通过解决老板的痛点,或让老板看到解决痛点的希望,老板会高高兴兴帮我们推广新技术新架构、新技术的选型需要符合产品战略、技术战略
2010.12上市
精细化运营
关注用户网站行为Hadoop
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践
Hadoop / hbase / hive
算法支持
个性化推荐
流量分析
用户行为
商业数据
商品收订出库-进--销--存-
买了还买看了还看浏览推荐相似顾客
访问点击订单收藏评论
运营报告网页分析转化分析流量分析
Mahout / R
Cookies&
实时推荐
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
问题
????
???? ????
????
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践 姓名:程序猿
性别:男 爱好:女
居住地:北京回龙观
行业:互联网
网购时间:22点-凌晨2点
用户行为数据库
身材:腹围 > 臀围 > 胸围
终端:chrome / Andriod
标签云:架构、高性能计算、分布式存储、重构、大数据处理、数据挖掘、MSUP☺
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践
SVM
算法的力量
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践
Hadoop / hbase / hive
算法支持
用户profile
个性化推荐
流量分析
用户行为
商业数据
商品收订出库-进--销--存-
买了还买看了还看浏览推荐相似顾客
访问点击订单收藏评论
运营报告网页分析转化分析流量分析
Mahout / R
ID性别爱好标签
Cookies&
实时推荐
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
问题
Hadoop / hbase / hive
算法支持
用户profile
个性化推荐
流量分析
用户行为
商业数据
商品收订出库-进--销--存-
买了还买看了还看浏览推荐相似顾客
访问点击订单收藏评论
运营报告网页分析转化分析流量分析
Mahout / R
ID性别爱好标签
Cookies&
实时推荐
????
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践最会被男性
购买的图书分类
最会被女性购买的图书分类
当当男很多在IT圈 当当女重口味,偏爱惊悚推理小说
当当好妈妈望子成龙
当当男疼爱女友,送手链
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践
Hadoop / hbase / hive
算法支持
用户profile
个性化推荐
用户 - 数据集市
流量分析
用户行为商业数据
商品收订出库-进--销--存-
买了还买看了还看浏览推荐相似顾客
访问点击订单收藏评论
运营报告网页分析转化分析流量分析
Mahout / R
ID性别爱好标签
Cookies&
实时推荐
历史
数据报表
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
问题 – 2011
????
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践
实时实时实时实时收集用户行为&数据传输
实时实时实时实时推荐的核心存储
实时实时实时实时统计分析
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
启示
从战略&&&&产品&&&&技术的维度来看—面向产品经理、业务架构师
从分解公司层面的战略做起,推倒出业务发展战略的制定把业务发展战略想清楚,才能有清晰的产品战略产品战略决定了架构设计&技术战略
顾客体验年
网站体验&精细化运营
充分利用流量价值 实时
惨烈的B2C竞争环境
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践 – 推荐算法的趋势
个性化
推荐
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
启示
从实战经验实战经验实战经验实战经验总结的维度来看—面向电商&营销&推荐圈子的同学们
2011推荐系统论坛 ---
推荐系统的体会是优化产品设计真的比优化算法来的直接
相比高精尖的算法,推荐系统更需要高质量的数据;数据质量提高了,即使是最常用的协同过滤算法也有很好的效果
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践
Hadoop / hbase / hive / zookeeperStorm
redis mongodb
算法支持
用户profile
个性化推荐
用户 - 数据集市
流量分析
用户行为商业数据
商品收订出库-进--销--存-
买了还买看了还看浏览推荐相似顾客
访问点击订单收藏评论
运营报告网页分析转化分析流量分析
数据报表Mahout / R
ID性别爱好标签
实时传输
实时采集
实时计算
实时存储
实时推荐
实时分析
历史
kafka
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践 1.4
Hadoop / hbase / hive / zookeeperStorm
redis mongodb
算法支持
效果评测
作弊防范
用户profile
个性化推荐
用户 - 数据集市
流量分析
用户行为商业数据
营销工具
商品收订出库-进--销--存-
邮件短信
买了还买看了还看浏览推荐相似顾客
访问点击订单收藏评论
运营报告网页分析转化分析流量分析
人群提取促销手段效果评估数据报表
Mahout / R
ID性别爱好标签
实时传输
实时采集
实时计算
实时存储
实时推荐
实时分析
历史
kafka
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
实践 1.4
Hadoop / hbase / hive / zookeeperStorm
redis mongodb
算法支持
效果评测
作弊防范
用户profile
个性化推荐
用户 - 数据集市
流量分析
用户行为商业数据
营销工具
商品收订出库-进--销--存-
邮件短信
买了还买看了还看浏览推荐相似顾客
访问点击订单收藏评论
运营报告网页分析转化分析流量分析
人群提取促销手段效果评估数据报表
Mahout / R
ID性别爱好标签
实时传输
实时采集
实时计算
实时存储
实时推荐
实时分析
历史
kafka
揭示研发管理白金定律,分享那些激动人心的创新与变革,使得团队获得过多源动力与更大的推动力!
启示
在一个完整生态系统中,每个物种之间相互支持、相互影响
成熟的生态系统也需要不断从外界吸纳新物种,不断进化
新物种更需要在生态系统中创造价值
2012-12-20