20151010 ビッグデータとデータサイエンス
TRANSCRIPT
• 1993 年 上智大学 理工学部 電気電子工学科卒業• 1995 年 東京工業大学 総合理工学研究科 精密機械システム専攻修了• 1995-1998 年 セコム株式会社 IS 研究所 画像情報処理研究室• 1998-2004 年 エキサイト株式会社 CTO• 2004-2008 年 ヤフー株式会社 検索事業部長• 2008-2010 年 バイドゥ株式会社 代表取締役社長• 2011 年 - 現在 ユニバーサルナレッジ株式会社 代表取締役
2015/10/10 ユニバーサルナレッジー禁無断転載 2
• 1993 年 上智大学 理工学部 電気電子工学科卒業• 1995 年 東京工業大学 総合理工学研究科 精密機械システム専攻修了• 1995-1998 年 セコム株式会社 IS 研究所 画像情報処理研究室• 1998-2004 年 エキサイト株式会社 CTO• 2004-2008 年 ヤフー株式会社 検索事業部長• 2008-2010 年 バイドゥ株式会社 代表取締役社長• 2011 年 - 現在 ユニバーサルナレッジ株式会社 代表取締役
17 年間、検索エンジンを作っています。2015/10/10 ユニバーサルナレッジー禁無断転載 3
データサイエンス• 計算機科学• 数学• 統計学• 機械学習• 特定分野の専門知識• コミュニケーションスキル• データ可視化
データサイエンス
2015/10/10 ユニバーサルナレッジー禁無断転載 6
データの重要性が増している• データ製品(本日のポイント)– 大規模なフィードバックループ– 行動がデータ製品を変化させ、データ製品が行動を変化させる。
2015/10/10 ユニバーサルナレッジー禁無断転載 7
マッチングスコア• テキストの一致度をスコア化する• タイトル、説明文、フレーズ、 AND 、頻度、 etc.• 「ランキング=マッチングスコア」としてしまった– Google 以前の原始的な検索– AltaVista 、 Infoseek 、 Excite 、 Lycos
2015/10/10 ユニバーサルナレッジー禁無断転載 28
Page Rank
• Google のランキング方式• 大量のリンクを解析してページの重要性を計算する。• 重要性の高いページを上位に表示する。• 非連続的に検索の精度が上がった。
2015/10/10 ユニバーサルナレッジー禁無断転載 29
作成者の意図を反映する• 大量のリンクを解析とは?• ページ作成者の意図を反映させること。
日本で一番大きなインターネットの会社は<a href=“http://www.yahoo.co.jp/”> ヤフー </a> です。URL アンカーテキスト
2015/10/10 ユニバーサルナレッジー禁無断転載 31
5
3
4
5: Perfect4: Excellent3: Good2: Fair1: Bad
4
324
• 教育を受けたエディターが評価• DCG で数値化• メジャークエリー• ランダムクエリー
相関性テスト
相関性テスト• 相関性テストによって検索結果の数値化が可能になる。– 例) ver1 は 3.6 だが、 ver2 は 3.8 になった。– 例) Google は 4.2 だが、ヤフーは 4.1 だ。
2015/10/10 ユニバーサルナレッジー禁無断転載 35
バケットテスト• 相関性評価では本当のユーザーの行動は分からない。• 一部のユーザーに別の検索結果を見せる。– 例) 5% のユーザーに新しいアルゴリズムの検索結果を見せる。
• 主な指標に有意差が出るか検定する。
2015/10/10 ユニバーサルナレッジー禁無断転載 36
EC サイトにおけるデータ活用
ウェブ検索• インプレッション• クリック
EC サイト• インプレッション• クリック• コンバージョン(購買)
2015/10/10 ユニバーサルナレッジー禁無断転載 38
購買者の意図を反映する• 「買うか買わないか」は非常に大きな決断である。–購買>クリック
• 大量の購買行動データを利用することにより検索結果を飛躍的に改善できる。
2015/10/10 ユニバーサルナレッジー禁無断転載 39
データ利用の問題点• 実際にはデータがつかない商品が大半–人目につかない商品–新発売の商品– コールドスタート問題
• リアルの購買データも利用する• 商品を目立たせる工夫が必要
2015/10/10 ユニバーサルナレッジー禁無断転載 54
ユニナレについて• 月間利用者数: 3,400万人–ヨドバシカメラ–ベルメゾン– DeNA ショッピング+ au ショッピングモール– GDO– 大手ネットスーパー–その他(書籍、ファッション、チケットなど)
• API リクエスト数: 7億 6,700万 /月2015/10/10 ユニバーサルナレッジー禁無断転載 55
「 Data Science Network 」の立ち上げ• 上智大学出身者で企業内および学術界の
Data Science の実例を共有する。• Facebook グループ– Sophia Data Science Network
2015/10/10 ユニバーサルナレッジー禁無断転載 58