楽天におけるoss活用・開発の意義 とビジネスへの貢献楽天株式会社...
TRANSCRIPT
楽天株式会社 楽天技術研究所 森 正弥 2013年03月26日
楽天におけるOSS活用・開発の意義
とビジネスへの貢献
2
自己紹介
• 森 正弥 (もり まさや)
• 楽天株式会社 執行役員
• 開発アーキテクチャ部 部長
• ビッグデータ部 副部長
• 楽天技術研究所 所長
• 職掌
– 開発部署のマネジメント
– 研究開発の推進・統括
Masaya Mori
Twitter: @emasha
3
楽天グループ
4
楽天株式会社 会社概要
代表取締役会長兼社長 三木谷 浩史
従業員数 単体3,209人、グループ7,615人
設立日 1997年2月17日
IPO 2000年4月19日(ジャスダック)
資本金 1,079億円(2011年12月末現在)
連結売上高 3,799億円(2011年度)
連結営業利益 756億円(2011年度)
楽天市場(eコマース事業)を中核とした, 総合インターネットサービス企業
国内グループ流通総額
+22.3% YoY
Edy 及びクレジットカード
+29.5% YoY
*1
*2
トラベル+14.9% YoY
*3
国内EC+16.4% YoY
*4
579730
8961,059
1,232220
260
305
366
420
355
482
657
1,268
1,642
1,154
1,473
1,859
2,693
3,294
0
500
1,000
1,500
2,000
2,500
3,000
3,500
2007年 2008年 2009年 2010年 2011年
(単位:十億円)
国内グループ流通総額推移 (カード、電子マネー含む)
*1: Edy決済取扱高=電子マネーEdyにより決済された金額(モバイル(おサイフケータイ)及びカード)10/1Q~ *2: クレジットカード・ショッピング取扱高=クレジットカードのショッピング取扱高(楽天グループのサービス利用を含む)
*3: トラベル予約流通総額=予約受付時に対する流通総額(キャンセル前、税別料金に換算) =国内/海外施設予約、海外航空券、楽天バスサービス、国内/海外ダイナミックパッケージ、レンタカー
*4: 国内EC流通総額=モール(通常購入・共同購入)、モバイル、オークション(旧フリマ含む)、ブックス、GORA、ビジネス、ダウンロード、チケット、 ネットスーパー、チェックアウト、楽天競馬、toto、ShowTime、メディアレンタル
6
日本の小売の特徴
じゃばら
• 地方毎に特産品がある、コアな趣味を持つ人が多い • 販売者もロングテール、購入者もロングテール • 常識ではかれないものが飛ぶように売れる
日本は ロングテール
じゃばらドリンク
多様なものを受け入れるため、独自のシステムが必要
ワイン Cheap
Less cost than real shop
Good selection Thousands of items No stock cost Easy price comparison
Rich explanation Long story of products
Searchable From rich text information
Not good for food or fashion? Difficult to search, but…
城
9
楽天にある大量のデータ
データ活用への取り組み
• 78,000,000+ 会員 • 107,000,000+ 商品情報 • 800,000,000+ 購買情報 • 86,800,000+ レビュー、口コミ • 3,000,000+ 1ヶ月あたりの宿泊情報 • 37,000+ 市場出店店舗 • 60,000+ 登録ホテル • 銀行、クレジットカード情報…. • 莫大な量のサーチワード • 1日あたり数百ギガバイト以上のAccess Log • etc
10
カード情報
アンケート
購入履歴
会員属性
スーパーポイント
ログイン
楽天 スーパーDB
デモグラフィック (基本属性)
ビヘイビア (行動)
ジオグラフィック (地理情報)
サイコグラフィック (心理的属性)
外部データ (Mosaic 等)
ファイル
加工・集計・分析
・パーソナライズ
・リコメンデーション
・行動ターゲティング広告
・マーケティングリサーチ
データ提供 アプリケーション
全体像
集約
楽天クーポン
利用
ファイル ファイル
11
【レコメンド・エンジン】 楽天グループへ横展開
楽天ブックス 楽天ダウンロード
楽天市場 楽天レンタル
12
TOHO レコメンデーションプラットフォーム
製品情報
ユーザー情報
購入履歴
閲覧履歴
Recommender Platform
【各種アルゴリズム】
協調フィルタリング
リターゲティング バスケット分析 グループ関連度
コンテンツベース
スーパーDB
• 各種サービスにカスタマイズ可能な、統合レコメンドプラットフォームで解決 • Lucene, Solr 等各種OSSを組み合わせて構築
各種サービスへ 展開
ビジネス
DB for service データ活用は独自チューニングが大事 だから OSSで構築
13
情報爆発 BigData
14
情報爆発
15
ビッグデータ関連部署
グループ
コアサービス部
ビッグデータ部
楽天技術研究所
•ID, Mail, Checkout •会員データマーケティング •スーパーDB、商用技術、構造化データ
•サーチ、レコメンド、ランキング、広告 •Hadoop, Cassandra, etc. •OSS、非構造化データ
•データマイニング、 NLP •分散処理基盤、O2O、Next Reality •独自技術、理論的側面を支える
16
大規模基盤の活用・構築
•大規模基盤の活用・構築 •クラウドの普及、技術のコモディティ化を踏まえ •パブリッククラウドの活用、プライベートの構築 •Hadoopクラスターの構築、NoSQLの活用・構築
• レコメンド、ターゲティング広告、検索改善、ログ解析での活用 • OSSの活用、貢献、開発が進む
なぜOSSを使うのか 多様性を受け入れ、今に挑む開発
包容力と多様さとスピードとコミュニケーション 変化の最前線
インターネットとは変化の最前線=「問題の最前線」 クラウドしかり、ビッグデータしかり、スマホしかり 新しい問題に今まさに進行形で挑むのは、オープンソース
不具合率は同じ
インターネットの世界だと商用もOSSもバグがでる 何が来るかわからない、スパイクする世界のため
開発スタイル
インターネットサービスでのアプリ開発のスタイルがOSSのスタイルに似ている
18
ビッグデータ: OSS活用がトレンド
OSS活用 自社でも作るが
OSS化
使うだけでなく
開発に貢献
19
ROMA
Rubyによる分散キーバリューストア
既に楽天内での20以上のサービスの裏側で基盤として活用
• Key-Value Store: キーとそれに関連したバリュー(値)を格納
• 巨大なハッシュテーブルを生成し、管理
• データベースに比べて高速なアクセスを実現可能
ROMA (key-value store)
20
楽天トラベルでの活用: 2009年
【PC】 【Mobile】 【Browsing Info】
Sharing data by using Rakuten ID
•You can see your browsing history on both PC and mobile.
•We retarget end users and keep their interest.
21
Recommendation ☓ Targeting
22
BigData -> Storage
23
LeoFS-Manager
LeoFS-Gateway w/Cache Server
LeoFS-Storage
REST over HTTP
RPC
Request from Web Application(s)
META Object Store
Storage Engine/Router
META Object Store META Object Store
RPC
Storage Engine/Router Storage Engine/Router
Load Balancer
S3-API
SNMP
WEB Console
LeoFS: オリジナル分散ファイルシステム
24
LeoFS: the DATA-HUB
25
Cloud時代のストレージへ
26
OSSによる基盤構築と活用
27
非構造化,半構造化データの活用検討
ビッグデータへの取り組み
アクセスログ、サーチログやビヘイビアなどのデータはHadoop上に集積
Hadoop上のデータをどのように集約し連携するか? スーパーDBでどのように価値あるデータを作るか?
会員情報や購買情報などのUser Profileに紐づくデータはスーパーDB上に集約
Rakuten
Super DB
集約・連携方法を検討
28
サーチエンジン 購買履歴
価格
レビュー
検索ワード 売上高
売上率
売上件数
楽天プロダクトランキング
製品マスタDB
商品件数
製品コード
スペック
製品名
発売日 購買時間帯
■処理内容 ・ランキングデータ集計 ・製品ページ用データ生成
■データ量
・1日/1億レコード
・1日/300GB
■M/R 処理時間
・1時間半
■ノード数
・70台
RAN DB
Calculate
楽天プロダクト
29
検索での関連語提示や辞書構築での活用
Batch
Batch
NGS Hive Shared Hadoop
Cluster dictionary batch Server
Batch
NGS common platform for hive
suggest batch server
Dictionary Index
Suggest Index
update search index
update search index
sync analyzed data
検索エンジン
クラスターから検索解析用のHiveに 関連語の提示や辞書構築等での活用
日次 数百GBの データを解析
30
【もしかして検索】 提示動作例(1)
• 漢字ミス、省略などに対し、候補を提示。不要な提示なし。 成果
漢字誤り、思い違い
変換ミス、変換中
※これらの例は実際に検索窓に入力されていたキーワードです。
!
31
【もしかして検索】 提示動作例(2)
•漢字ミス、省略などに対し、候補を提示。不要な提示なし。 成果
3.入力違い
1.省略系 2.変換ミス
4.不要提示なし
32
Directory specifying keyword and category
Directory specifying keyword and product category
Autocomplete with related categories
検索ログの解析
33
Next Step
Member
Rakuten Super DB
Purchase
Card
Point
Service
スーパーDBとの連携基盤の検討
Hadoop基盤とスーパーDBの連携方法および環境検討に着手
extract, transform
Data Matching
透過的なユーザインタフェース
Developer
Marketer
Administrator
User
集約、ロード
ファイルコピー
Access Log
Search Log
Docs, PDFs
Images/videos
Behav
ior
Use
r P
rofile
, Tra
nsa
ction
34
GEAP - グローバルイベント解析プラットフォーム
• 楽天が運用している様々なサービスから生成される多種多様な大規模ログを収集・蓄積し、解析するプラットフォーム
• データの多種多様性を吸収、多彩な解析が可能、国外のデータも対象 • 楽天内の開発環境(RPaaS) のアプリケーションログの解析基盤としても
Apache Flume
35
RPaaS
Rakuten PaaS has started!!
Powered by Derek
Rakuten New Service Runs on RPaaS
36
今後
37
【参考】フィーチャーフォンの普及グラフ
30%を超えると爆発的に増加
スマートフォンの普及 → O2O, BYOD
• 2013年には、ケータイの約30%にまで浸透と予測 (MM総研) • 別の調査では、2011年と2012年で、倍増していると分析 (日経BP) • O2O や BYOD のトレンドへ
MM総研調べ
38
ShopKick ShopSavvy
Amazon A9 Flow
CheckPoints
TESCO
米国を中心とした海外では、実店舗の差別化を目的として、実空間からネットへの誘導を行い、クーポンやディスカウント等と組み合わせて付加価値を提供するサービスが増えつつあります。
O2O により、差別化・付加価値を実現
39
【典型的モデル】 Ubira: Rakuten O2O
Collaborate w/ shop Check-in
Coupon / Point Barcode scan
Affiliate
楽天においても、Ubira (ユビラ) という名称で、O2O 型のサービスモデルを考案しています。 実店舗(パートナー様)と協業し、ネットでのクーポンやポイントプログラムと連携、ショッピングの付加価値を高めていくサービスです。
40
他にも、AR-HITOKE という拡張現実型の集合知サービスも開発し
ています。これは、実店舗にある商品をスマートフォンで覗くことで、人気商品かどうか、他の顧客や友人の評判はどうなのかを視覚的に確認することができ、他のSNSサービスとも連携しながら、ショッピングを支援するサービスです。
商品を覗くと、どれだけ人気があるか、 評判はどうかを視覚的に確認できる。
AR-HITOKE: データ × 集合知 × 拡張現実
41
おわりに
なぜOSSを使うのか 多様性を受け入れ、今に挑む開発
包容力と多様さとスピードとコミュニケーション 変化の最前線
インターネットとは変化の最前線=「問題の最前線」 クラウドしかり、ビッグデータしかり、スマホしかり 新しい問題に今まさに進行形で挑むのは、オープンソース
不具合率は同じ
インターネットの世界だと商用もOSSもバグがでる 何が来るかわからない、スパイクする世界のため
開発スタイル
インターネットサービスでのアプリ開発のスタイルがOSSのスタイルに似ている
楽天株式会社 楽天技術研究所 森 正弥 2013年03月26日
楽天におけるOSS活用・開発の意義
とビジネスへの貢献