20151010 ビッグデータとデータサイエンス

59
ビビビビビビビビビビビビビビビビビビ ビビビビビビビビビビビビビ ビビビビビビビビビビビビビビ ビビビビビ ビビビ2015/10/10 2015/10/10 ビビビビビビビビビビビビビビビビ

Upload: toshikazu-inoue

Post on 11-Apr-2017

265 views

Category:

Internet


1 download

TRANSCRIPT

ビッグデータの活用とデータサイエンス〜ウェブ検索における実例〜

ユニバーサルナレッジ株式会社代表取締役 井上俊一2015/10/10

2015/10/10 ユニバーサルナレッジー禁無断転載

• 1993 年 上智大学 理工学部 電気電子工学科卒業• 1995 年 東京工業大学 総合理工学研究科 精密機械システム専攻修了• 1995-1998 年 セコム株式会社  IS 研究所 画像情報処理研究室• 1998-2004 年 エキサイト株式会社  CTO• 2004-2008 年 ヤフー株式会社 検索事業部長• 2008-2010 年 バイドゥ株式会社 代表取締役社長• 2011 年 - 現在 ユニバーサルナレッジ株式会社 代表取締役

2015/10/10 ユニバーサルナレッジー禁無断転載 2

• 1993 年 上智大学 理工学部 電気電子工学科卒業• 1995 年 東京工業大学 総合理工学研究科 精密機械システム専攻修了• 1995-1998 年 セコム株式会社  IS 研究所 画像情報処理研究室• 1998-2004 年 エキサイト株式会社  CTO• 2004-2008 年 ヤフー株式会社 検索事業部長• 2008-2010 年 バイドゥ株式会社 代表取締役社長• 2011 年 - 現在 ユニバーサルナレッジ株式会社 代表取締役

17 年間、検索エンジンを作っています。2015/10/10 ユニバーサルナレッジー禁無断転載 3

ビッグデータ• 「 Big 」は相対的– 絶対値があるわけではない

• 1 つの計算機におさまらないものが「 Big Data 」

2015/10/10 ユニバーサルナレッジー禁無断転載 4

データサイエンス• データなの? サイエンスなの?• 企業にはデータサイエンティストがいるが、学術界にはデータサイエンスの教授はいない?

2015/10/10 ユニバーサルナレッジー禁無断転載 5

データサイエンス• 計算機科学• 数学• 統計学• 機械学習• 特定分野の専門知識• コミュニケーションスキル• データ可視化

データサイエンス

2015/10/10 ユニバーサルナレッジー禁無断転載 6

データの重要性が増している• データ製品(本日のポイント)– 大規模なフィードバックループ– 行動がデータ製品を変化させ、データ製品が行動を変化させる。

2015/10/10 ユニバーサルナレッジー禁無断転載 7

2015/10/10 ユニバーサルナレッジー禁無断転載 8

2015/10/10 ユニバーサルナレッジー禁無断転載 9

2015/10/10 ユニバーサルナレッジー禁無断転載 10

2015/10/10 ユニバーサルナレッジー禁無断転載 11

オーガニック検索

関連検索ワード

ナレッジグラフ

検索連動型広告( North )

検索連動型広告( East )

商品リスト広告

地域情報

2015/10/10 ユニバーサルナレッジー禁無断転載 14

地図

2015/10/10 ユニバーサルナレッジー禁無断転載 15

ニュース

2015/10/10 ユニバーサルナレッジー禁無断転載 16

動画画像

天気

2015/10/10 ユニバーサルナレッジー禁無断転載 18

クエリーサジェスト

2015/10/10 ユニバーサルナレッジー禁無断転載 19

良い検索ってなんだろう?

2015/10/10 ユニバーサルナレッジー禁無断転載 20

Coverage(網羅性)

Freshness(即時性)

Relevance(関連性)

2015/10/10 ユニバーサルナレッジー禁無断転載 21

“ 大量の情報からいかに関連性の高いものを上位に表示するか”

2015/10/10 ユニバーサルナレッジー禁無断転載 22

検索のしくみ

前処理クロールインデクス作成

実行時インデクスを引き当てて並び替える

2015/10/10 ユニバーサルナレッジー禁無断転載 23

検索のしくみ

前処理クロールインデクス作成

実行時マッチングランキング

2015/10/10 ユニバーサルナレッジー禁無断転載 24

• インデクスを引き当てて• 並び替える

= マッチング= ランキング

検索のしくみ

2015/10/10 ユニバーサルナレッジー禁無断転載 26

ランキング1. 2412. 3003. 116

マッチング

マッチングスコア• テキストの一致度をスコア化する• タイトル、説明文、フレーズ、 AND 、頻度、 etc.• 「ランキング=マッチングスコア」としてしまった– Google 以前の原始的な検索– AltaVista 、 Infoseek 、 Excite 、 Lycos

2015/10/10 ユニバーサルナレッジー禁無断転載 28

Page Rank

• Google のランキング方式• 大量のリンクを解析してページの重要性を計算する。• 重要性の高いページを上位に表示する。• 非連続的に検索の精度が上がった。

2015/10/10 ユニバーサルナレッジー禁無断転載 29

2015/10/10 ユニバーサルナレッジー禁無断転載 30

作成者の意図を反映する• 大量のリンクを解析とは?• ページ作成者の意図を反映させること。

日本で一番大きなインターネットの会社は<a href=“http://www.yahoo.co.jp/”> ヤフー </a> です。URL アンカーテキスト

2015/10/10 ユニバーサルナレッジー禁無断転載 31

マッチングスコアは何が悪いのか?• テキストとの一致度だけではページ作成者の意図は反映できない。

2015/10/10 ユニバーサルナレッジー禁無断転載 32

利用者の意図を反映する• 相関性テスト• バケットテスト

2015/10/10 ユニバーサルナレッジー禁無断転載 33

5

3

4

5: Perfect4: Excellent3: Good2: Fair1: Bad

4

324

• 教育を受けたエディターが評価• DCG で数値化• メジャークエリー• ランダムクエリー

相関性テスト

相関性テスト• 相関性テストによって検索結果の数値化が可能になる。– 例) ver1 は 3.6 だが、 ver2 は 3.8 になった。– 例) Google は 4.2 だが、ヤフーは 4.1 だ。

2015/10/10 ユニバーサルナレッジー禁無断転載 35

バケットテスト• 相関性評価では本当のユーザーの行動は分からない。• 一部のユーザーに別の検索結果を見せる。– 例) 5% のユーザーに新しいアルゴリズムの検索結果を見せる。

• 主な指標に有意差が出るか検定する。

2015/10/10 ユニバーサルナレッジー禁無断転載 36

バケットテスト• ページビュー• インプレッション• CTR (クリックスルーレート)• バッドクリック• アバンダンレートetc.

2015/10/10 ユニバーサルナレッジー禁無断転載 37

EC サイトにおけるデータ活用

ウェブ検索• インプレッション• クリック

EC サイト• インプレッション• クリック• コンバージョン(購買)

2015/10/10 ユニバーサルナレッジー禁無断転載 38

購買者の意図を反映する• 「買うか買わないか」は非常に大きな決断である。–購買>クリック

• 大量の購買行動データを利用することにより検索結果を飛躍的に改善できる。

2015/10/10 ユニバーサルナレッジー禁無断転載 39

EC 検索の実際• 遅れている EC 検索の世界– テキストマッチが主流

• Amazon が優れているのはデータが多いから

2015/10/10 ユニバーサルナレッジー禁無断転載 40

検索結果で売上が変わる

2015/10/10 ユニバーサルナレッジー禁無断転載 47

EC で利用しているデータ• 全ての導線でログを取る

2015/10/10 ユニバーサルナレッジー禁無断転載 48

データ利用の問題点• 実際にはデータがつかない商品が大半–人目につかない商品–新発売の商品– コールドスタート問題

• リアルの購買データも利用する• 商品を目立たせる工夫が必要

2015/10/10 ユニバーサルナレッジー禁無断転載 54

ユニナレについて• 月間利用者数: 3,400万人–ヨドバシカメラ–ベルメゾン– DeNA ショッピング+ au ショッピングモール– GDO– 大手ネットスーパー–その他(書籍、ファッション、チケットなど)

• API リクエスト数: 7億 6,700万 /月2015/10/10 ユニバーサルナレッジー禁無断転載 55

Big Data の領域• IT• 金融• 医療• 医薬• 生物• 教育• 小売2015/10/10 ユニバーサルナレッジー禁無断転載 56

Big Data の種類• テキスト• ユーザーログ• 位置情報• ネットワーク(つながり)• センサー• 画像

2015/10/10 ユニバーサルナレッジー禁無断転載 57

「 Data Science Network 」の立ち上げ• 上智大学出身者で企業内および学術界の

Data Science の実例を共有する。• Facebook グループ– Sophia Data Science Network

2015/10/10 ユニバーサルナレッジー禁無断転載 58

http://www.slideshare.net/toshiinoue

2015/10/10 ユニバーサルナレッジー禁無断転載 59