みんなビックデータビックデータって言ってるけど...

Post on 29-Jun-2015

37.715 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

みんなビックデータビックデータって言ってるけど名寄せとかどうしてんの?

13年10月5日土曜日

自己紹介

酒井一晃( send | かずあき )

最近はソーシャルメディア関連の分析ツールの R&D やプロトタイピングが主な仕事

13年10月5日土曜日

はじめに

13年10月5日土曜日

名寄せって何?

13年10月5日土曜日

名寄せとは?

13年10月5日土曜日

このデータはどういう個人のものだっけ?

名寄せとは?

13年10月5日土曜日

このデータはどういう個人のものだっけ?

このデータはどういう意味のものだっけ?

名寄せとは?

13年10月5日土曜日

このデータはどういう個人のものだっけ?

このデータはどういう意味のものだっけ?

名寄せとは?

今回のお題はこれ!

13年10月5日土曜日

なんで必要なの?

13年10月5日土曜日

データから何かを知ったり見つけたりしたい!

なんで必要なの?

13年10月5日土曜日

データから何かを知ったり見つけたりしたい!

人間では大変すぎるので機械にやらせたい

なんで必要なの?

13年10月5日土曜日

データから何かを知ったり見つけたりしたい!

人間では大変すぎるので機械にやらせたい

機械がわかる形に翻訳しないとなあ

なんで必要なの?

13年10月5日土曜日

データから何かを知ったり見つけたりしたい!

人間では大変すぎるので機械にやらせたい

機械がわかる形に翻訳しないとなあ

その前にデータを整理整頓しないと翻訳もできないよね

なんで必要なの?

13年10月5日土曜日

データから何かを知ったり見つけたりしたい!

人間では大変すぎるので機械にやらせたい

機械がわかる形に翻訳しないとなあ

その前にデータを整理整頓しないと翻訳もできないよね

なんで必要なの?データ解析

13年10月5日土曜日

データから何かを知ったり見つけたりしたい!

人間では大変すぎるので機械にやらせたい

機械がわかる形に翻訳しないとなあ

その前にデータを整理整頓しないと翻訳もできないよね

なんで必要なの?

コード化

データ解析

13年10月5日土曜日

データから何かを知ったり見つけたりしたい!

人間では大変すぎるので機械にやらせたい

機械がわかる形に翻訳しないとなあ

その前にデータを整理整頓しないと翻訳もできないよね

なんで必要なの?

コード化

名寄せ

データ解析

13年10月5日土曜日

主な名寄せの内訳

13年10月5日土曜日

主な名寄せの内訳

違う形でコード化されてるものをまとめたい

13年10月5日土曜日

主な名寄せの内訳

違う形でコード化されてるものをまとめたい

コード化されてない文字データをコード化していきたい

13年10月5日土曜日

主な名寄せの内訳

違う形でコード化されてるものをまとめたい

コード化されてない文字データをコード化していきたい

コード統合

13年10月5日土曜日

主な名寄せの内訳

違う形でコード化されてるものをまとめたい

コード化されてない文字データをコード化していきたい

コード統合

辞書化

13年10月5日土曜日

さて本日の内容は?

13年10月5日土曜日

13年10月5日土曜日

「コード統合」って具体的には?

13年10月5日土曜日

「コード統合」って具体的には?

「辞書化」ってどういうこと?

13年10月5日土曜日

「コード統合」って具体的には?

13年10月5日土曜日

例えば性別コード

13年10月5日土曜日

性別コードあるある

13年10月5日土曜日

性別コードあるある

コードが 0 からはじまったり、1

からはじまったり

13年10月5日土曜日

性別コードあるある

コードが 0 からはじまったり、1

からはじまったり

内容が男性からはじまったり、女性からはじまったり

13年10月5日土曜日

標準規格とかないの?

13年10月5日土曜日

実はあります

13年10月5日土曜日

実はありますISO 5218

0: not known

1: male

2: female

9: not applicable

13年10月5日土曜日

実はありますISO 5218

0: not known

1: male

2: female

9: not applicable

JISX 0303(廃止)

1: 男

2: 女

13年10月5日土曜日

なんでみんな使わないの?

13年10月5日土曜日

なんでみんな使わないの?システム都合

13年10月5日土曜日

なんでみんな使わないの?システム都合

男性先頭にしたい、女性先頭にしたい

13年10月5日土曜日

なんでみんな使わないの?システム都合

男性先頭にしたい、女性先頭にしたい

規格を知らない

13年10月5日土曜日

なんでみんな使わないの?システム都合

男性先頭にしたい、女性先頭にしたい

規格を知らない

コード標準あるかもなんて考えたこともないや

13年10月5日土曜日

なんでみんな使わないの?システム都合

男性先頭にしたい、女性先頭にしたい

規格を知らない

コード標準あるかもなんて考えたこともないや

無関心・怠惰

13年10月5日土曜日

なんでみんな使わないの?システム都合

男性先頭にしたい、女性先頭にしたい

規格を知らない

コード標準あるかもなんて考えたこともないや

無関心・怠惰

要件にデータ解析するとかないし適当でいっか

13年10月5日土曜日

なんでみんな使わないの?システム都合

男性先頭にしたい、女性先頭にしたい

規格を知らない

コード標準あるかもなんて考えたこともないや

無関心・怠惰

要件にデータ解析するとかないし適当でいっか

複数のデータソースを扱うときによくある問題

13年10月5日土曜日

どう統合しよう?

13年10月5日土曜日

基本的は ISO 5218

どう統合しよう?

13年10月5日土曜日

基本的は ISO 5218

目的と定義を明確に

どう統合しよう?

13年10月5日土曜日

基本的は ISO 5218

目的と定義を明確に

ISO 5218「The use of this standard and associated codes

may be referred to by the designation “SEX”.」

どう統合しよう?

13年10月5日土曜日

基本的は ISO 5218

目的と定義を明確に

ISO 5218「The use of this standard and associated codes

may be referred to by the designation “SEX”.」

社会的/生物学的な性

どう統合しよう?

13年10月5日土曜日

基本的は ISO 5218

目的と定義を明確に

ISO 5218「The use of this standard and associated codes

may be referred to by the designation “SEX”.」

社会的/生物学的な性

実務的には医薬系システム以外は社会的な性

どう統合しよう?

13年10月5日土曜日

基本的は ISO 5218

目的と定義を明確に

ISO 5218「The use of this standard and associated codes

may be referred to by the designation “SEX”.」

社会的/生物学的な性

実務的には医薬系システム以外は社会的な性

ISO 5218 互換なんだけど定義がちがったりコード種が多かったりでもいい

どう統合しよう?

13年10月5日土曜日

その他のコード問題

13年10月5日土曜日

その他のコード問題

「洗い替え」

13年10月5日土曜日

その他のコード問題

「洗い替え」

コードの内容・意味が変わるときに起こる

13年10月5日土曜日

その他のコード問題

「洗い替え」

コードの内容・意味が変わるときに起こる

関連するデータを正しい内容に書き換える作業

13年10月5日土曜日

その他のコード問題

「洗い替え」

コードの内容・意味が変わるときに起こる

関連するデータを正しい内容に書き換える作業

統廃合などで発生(例: 郵便番号、企業コード)

13年10月5日土曜日

その他のコード問題

「洗い替え」

コードの内容・意味が変わるときに起こる

関連するデータを正しい内容に書き換える作業

統廃合などで発生(例: 郵便番号、企業コード)

時代の変化等で発生

13年10月5日土曜日

「辞書化」ってどういうこと?

13年10月5日土曜日

違う表現同じ意味

13年10月5日土曜日

全角半角

ひらがなカタカナ

記号

誤字脱字変換ミス

単語の出現順序

略称

業界用語専門用語

類義語

文脈

etc...

違う表現同じ意味

13年10月5日土曜日

機械に同じ意味だと教えたい!

13年10月5日土曜日

実際の処理の流れ

13年10月5日土曜日

13年10月5日土曜日

未整理のデータ

13年10月5日土曜日

未整理のデータ

13年10月5日土曜日

変換・丸め処理全角半角記号排除丸め処理等

未整理のデータ

13年10月5日土曜日

変換・丸め処理全角半角記号排除丸め処理等

未整理のデータ

13年10月5日土曜日

変換・丸め処理全角半角記号排除丸め処理等

類似度算出同義語の候補をリストアップ目視で辞書化

未整理のデータ

13年10月5日土曜日

変換・丸め処理全角半角記号排除丸め処理等

類似度算出同義語の候補をリストアップ目視で辞書化

未整理のデータ

13年10月5日土曜日

変換・丸め処理全角半角記号排除丸め処理等

類似度算出同義語の候補をリストアップ目視で辞書化

未整理のデータ

同義語辞書

13年10月5日土曜日

変換・丸め処理全角半角記号排除丸め処理等

類似度算出同義語の候補をリストアップ目視で辞書化

未整理のデータ

同義語辞書

13年10月5日土曜日

変換・丸め処理全角半角記号排除丸め処理等

類似度算出同義語の候補をリストアップ目視で辞書化

辞書による処理辞書を引いて同義語があるかチェック

未整理のデータ

同義語辞書

13年10月5日土曜日

変換・丸め処理全角半角記号排除丸め処理等

類似度算出同義語の候補をリストアップ目視で辞書化

辞書による処理辞書を引いて同義語があるかチェック

未整理のデータ

同義語辞書

13年10月5日土曜日

変換・丸め処理全角半角記号排除丸め処理等

類似度算出同義語の候補をリストアップ目視で辞書化

辞書による処理辞書を引いて同義語があるかチェック

未整理のデータ

同義語辞書

13年10月5日土曜日

変換・丸め処理全角半角記号排除丸め処理等

類似度算出同義語の候補をリストアップ目視で辞書化

辞書による処理辞書を引いて同義語があるかチェック

未整理のデータ

同義の内容を丸めこんだ

データ

同義語辞書

13年10月5日土曜日

実装はどうなってるの?

13年10月5日土曜日

実装はどうなってるの?以前はほぼ全部実装

13年10月5日土曜日

実装はどうなってるの?以前はほぼ全部実装

フィルタリング・丸め・変換処理

13年10月5日土曜日

実装はどうなってるの?以前はほぼ全部実装

フィルタリング・丸め・変換処理

形態素解析/N-Gram

13年10月5日土曜日

実装はどうなってるの?以前はほぼ全部実装

フィルタリング・丸め・変換処理

形態素解析/N-Gram

類似度計算(TF-IDF)

13年10月5日土曜日

実装はどうなってるの?以前はほぼ全部実装

フィルタリング・丸め・変換処理

形態素解析/N-Gram

類似度計算(TF-IDF)

辞書処理

13年10月5日土曜日

実装はどうなってるの?以前はほぼ全部実装

フィルタリング・丸め・変換処理

形態素解析/N-Gram

類似度計算(TF-IDF)

辞書処理

今は Apache Solr 様々

13年10月5日土曜日

実装はどうなってるの?以前はほぼ全部実装

フィルタリング・丸め・変換処理

形態素解析/N-Gram

類似度計算(TF-IDF)

辞書処理

今は Apache Solr 様々

設定書くだけ!ほとんどコーディングレス!

13年10月5日土曜日

課題点

13年10月5日土曜日

課題点類似度で候補が出せないような略語や類義語は別の手段で辞書の作成が必要

13年10月5日土曜日

課題点類似度で候補が出せないような略語や類義語は別の手段で辞書の作成が必要

類似度でサジェストする際に誤爆は避けられない

高いスコアでも自動で辞書化できない

13年10月5日土曜日

課題点類似度で候補が出せないような略語や類義語は別の手段で辞書の作成が必要

類似度でサジェストする際に誤爆は避けられない

高いスコアでも自動で辞書化できない

文脈がわからないと意味が決定できないものなどは辞書でも対処できない

機械学習系でなんとかカバー出来るかも??

13年10月5日土曜日

本日のまとめ

13年10月5日土曜日

13年10月5日土曜日

「データ解析」における「名寄せ」は「コード統合」と「辞書化」

13年10月5日土曜日

「データ解析」における「名寄せ」は「コード統合」と「辞書化」

「コード統合」は複数のデータソース、「洗い替え」は長期間データを扱う際に高確率で起こる

13年10月5日土曜日

「データ解析」における「名寄せ」は「コード統合」と「辞書化」

「コード統合」は複数のデータソース、「洗い替え」は長期間データを扱う際に高確率で起こる

「辞書化」は「コード化」するための準備をすることが目的

13年10月5日土曜日

「データ解析」における「名寄せ」は「コード統合」と「辞書化」

「コード統合」は複数のデータソース、「洗い替え」は長期間データを扱う際に高確率で起こる

「辞書化」は「コード化」するための準備をすることが目的

「名寄せ」の目的は、データをどう使いたいかというニーズに対する手助け

13年10月5日土曜日

おわりに

13年10月5日土曜日

本当は「俺こんな感じでやってるんだけど、君

んとこどうしてんの?」とか「一緒に仕事してみない?」みたいな話

に繋げたかったんですが。。。

13年10月5日土曜日

おしまい

13年10月5日土曜日

top related