クックパッド特売情報 における自然言語処理...

31
クックパッド特売情報 における自然言語処理 ~固有表現抽出を利用した検索システム~ YANS 第 10 回シンポジウム (2015/09/05 ) クックパッド株式会社 買物情報事業部 Takeshi Arabiki (@a_bicky)

Upload: takeshi-arabiki

Post on 14-Apr-2017

5.229 views

Category:

Engineering


0 download

TRANSCRIPT

Page 1: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

クックパッド特売情報 における自然言語処理

~固有表現抽出を利用した検索システム~YANS 第 10 回シンポジウム (2015/09/05 )

クックパッド株式会社 買物情報事業部

Takeshi Arabiki (@a_bicky)

Page 2: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

お話しすること•ものをつくること •ものを動かすこと •現実の問題を知ること •足りない技術を生み出すこと

Page 3: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

お話しすること•ものをつくること •ものを動かすこと •現実の問題を知ること •足りない技術を生み出すこと

Page 4: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

クックパッド特売情報

Page 5: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜
Page 6: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

•いわゆるチラシサービスの一種 •店舗さんが商品情報を投稿

クックパッド特売情報

Page 7: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

商品検索の使いどころ

Page 8: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

商品検索の使いどころ

Page 9: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

•各ユーザに限定すると商品数が少ない ‣ e.g. 登録している店舗の商品

‣ 1件しかヒットしないことがよくある

•ユーザが意図的に検索するわけではない ‣ より適合率(精度)が求められる

特殊な検索事情

Page 10: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

商品検索の 初期の課題

Page 11: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

投稿された商品名 キーワードたまねぎドレッシング

フルーツゼリー みかん

たまねぎ ドレッシング

フルーツ ゼリー みかん

形態素単位のインデキシング

Page 12: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

投稿された商品名 キーワードたまねぎドレッシング

フルーツゼリー みかん

たまねぎ ドレッシング

フルーツ ゼリー みかん

形態素単位のインデキシング形態素単位のインデキシング

「たまねぎ」を使ったレシピに掲出

「みかん」を使ったレシピに掲出

Page 13: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

固有表現抽出を利用した検索システム

Page 14: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

投稿された商品名 キーワード

固有表現単位のインデキシング

たまねぎドレッシング商品名

フルーツゼリー みかん味商品名

たまねぎドレッシング

フルーツゼリー みかん:TASTE

Page 15: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

固有表現抽出を使うメリット•適合率が上がる •正規表現と違って文字列全体を考慮できる •似たパターンの未知データにも対応可能

Page 16: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

固有表現抽出の方法•MeCab+IPAdic による形態素解析と正規化 ‣ コストを商品名に最適化

‣ 辞書に代表表記の情報も登録

•CRFsuite による固有表現抽出 ‣ 形態素解析した結果を素性に利用

‣ タグとして商品名、味、産地 etc.

Page 17: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

% mecab -d dic薄切り薄切り 名詞,サ変接続,*,*,*,*,薄切り,ウスギリ,ウスギリEOS薄切薄切 名詞,サ変接続,*,*,*,*,薄切,ウスギリ,ウスギリ,薄切り,薄切り,ウスギリEOS

形態素解析結果と代表表記

Page 18: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

学習データの作成

Page 19: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

商品検索の 現在の課題

Page 20: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

商品名の形態素解析の難しさ•かつおたたき •ロース肉薄切り •名詞の間にある接頭詞・名詞接尾 ‣ e.g.「徳用焼き餃子」「生姜焼き徳用」

Page 21: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

商品名の形態素解析の難しさ•かつおたたき  → かつ/お/たたき •ロース肉薄切り → ロース/肉薄/切り •名詞の間にある接頭詞・名詞接尾 ‣ e.g.「徳用焼き餃子」「生姜焼き徳用」

Page 22: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

知識ベースの構築•同義語 ‣ 「パクチー」と「コリアンダー」

•一般名と品種・商品名 ‣ 「じゃがいも」と「メークイン」

•原料 ‣ 「卵黄」と「卵」

Page 23: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

商品検索クエリの最適化•材料は「豚肉」だけど「豚肉薄切り」かも ‣ 「豚肉ブロック」は掲出させたくない

•材料名のクレンジング ‣ 材料名の括弧の中身は必要かどうか

‣ e.g.(薄切り)、(あれば)

Page 24: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

課題は たくさん

Page 25: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

最も深刻 な問題

Page 26: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

人手不足

Page 27: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

ブレークスルー

Page 28: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

http://www.nii.ac.jp/dsc/idr/cookpad/cookpad.html

Page 29: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

お話しすること•ものをつくること •ものを動かすこと •現実の問題を知ること •足りない技術を生み出すこと

Page 30: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

•ものをつくること •ものを動かすこと •現実の問題を知ること •足りない技術を生み出すこと

Page 31: クックパッド特売情報 における自然言語処理 〜固有表現抽出を利用した検索システム〜

自然言語処理で 世界中の食卓に 笑顔を!