機械知能とデータ圧縮

20
機械知能とデータ圧縮 東京大学オープンキャンパス 工学部・計数工学科 冨岡 亮太 2010/8/4

Upload: ryota-tomioka

Post on 27-Jul-2015

724 views

Category:

Documents


0 download

DESCRIPTION

東京大学オープンキャンパス (2010/8/4) で使った資料です.

TRANSCRIPT

Page 1: 機械知能とデータ圧縮

機械知能とデータ圧縮

東京大学オープンキャンパス

工学部・計数工学科冨岡 亮太2010/8/4

Page 2: 機械知能とデータ圧縮

情報

知能

予測

Page 3: 機械知能とデータ圧縮

情報とはなんだろう

•こういうことを言ったりします-情報がある、情報がない-いい情報、悪い情報

•情報の量とは?-文章の長さ?-話の長さ?

Page 4: 機械知能とデータ圧縮

“ ”http://ameblo.jp/akimoto100323/entry-10605555913.html

“ ”

“ ”

7/30 の首相動静

7/29 首相ぶら下がりインタビュー

某芸能人ブログ

情報がたくさんあるのはどれ?

http://www.asahi.com/special/hibi/TKY201007300422.html

http://www.asahi.com/special/hibi/TKY201007290522.html

Page 5: 機械知能とデータ圧縮

情報の量:予測のしやすさ

•情報が意外と少ない例:

•情報が多い例:-

情報の量=びっくりの量

今日は 東京大学で オープンキャンパスがあります。ルース米大使が8月6日に広島の平和記念式典に出席します。

今日は晴れ。夕方に隕石が降りました。 夕食は納豆でした。

Page 6: 機械知能とデータ圧縮

情報とは?(まとめ)

•情報の量はびっくりの量•予測できればできるほどびっくりは少ない•本や話が長ければ長いほど、情報がたくさんあるわけではない

•データ圧縮 =ある量の情報を伝えたい時、文章の長さはどこまで短くできるか

- ZIP, LZH など•圧縮すればするほどデータは予測しにくくなる(びっくりの密度が高くなる)•世の中のデータは意外と冗長(圧縮されていない)

文章の長さ − 情報の量文章の長さある文章の冗長さ =

じょうちょう

Page 7: 機械知能とデータ圧縮

知能とはなんだろう

Page 8: 機械知能とデータ圧縮

知能とは?

•頭がイイこと?

-暗記が得意、計算が速い、etc

•コンピュータは暗記や計算は得意

-世界中で一番大きい百科事典を記憶したり

-円周率 π を 2,700,000,000,000桁まで計算

したり (http://bellard.org/pi/pi2700e9/)

www.wikipedia.org

news.cnet.com

Page 9: 機械知能とデータ圧縮

暗記と学習

•「暗記」- 教えられたことをしっかり覚えていること

- コンピュータは得意

•「学習」- 教えられた以外のことができること- 経験を活用することができること- 人間は得意

1192鎌倉幕府成立

1274文永の役・・・

雨が降りそう

Page 10: 機械知能とデータ圧縮

学習問題の例

•数列クイズ- 1, 3, 5, 7, 9, ?- 1, 6, 4, 10, 7, 14, 10, ?- 1, 2, 3, 4, 3, 4, 5, 4, 5, 6, 7, ?- 1, 2, 3, 2, 3, 4, 3, 2, 3, 2, 1, ?

データの中から規則性を見つける段階(訓練)

規則性を当てはめてみる段階(テスト)

11 (2ずつ増えているので)

18 (偶数番目だけをみる)

8? (増えた回数の方が多いので)

?

Page 11: 機械知能とデータ圧縮

例からの学習:2種類の難しさ

(10 回中、8回増加、2回減少)

(10 回中、5回増加、5回減少)

規則的 少しランダム すごくランダム

難しい

簡単 1, 3, 5, 7, 9, 11

1, 2, 3, 4, 3, 4, 5, 4, 5, 6, 7

1, 2, 3, 2, 3, 4, 3, 2, 3, 2, 1

1, 6, 4, 10, 7, 14, 10

ランダムさによる難しさ「構造」を見

つける難しさ

Page 12: 機械知能とデータ圧縮

学習の難しさと冗長さの関係

•学習が簡単な数列- ランダムさが小さい- (統計的な)規則性 → 予測しやすい- 予測しやすい → 冗長

•学習が難しい数列- 規則的でない = ランダムさが大きい

これはデータ圧縮のしやすさと同じ!

情報量が小さい(圧縮できる)

情報量が大きい(圧縮できない)

世の中の情報は意外と冗長 → 学習できる

Page 13: 機械知能とデータ圧縮

「構造」を見つける難しさ

• 1, 3, 5, 7, 9   +2, +2, +2, +2差分を取る

• 1, 4, 9, 16, 25 1, 2, 3, 4, 5ルートを取る

辞書?1. 差分を取ってみる2. ルートを取ってみる3. 2個おきに差分を取ってみる・・・

しかし,• どの順番で試せばよいのか?• 全部のルールを試すのが現実的か?

Page 14: 機械知能とデータ圧縮

ルールの「複雑さ」とルールの「記述長」

•ルール1(単純):

-「1, 3, 5, 7, 9, ...」は「初項1、公差2の等差数列」•ルール2(複雑):

-「1, 3, 5, 7, 9, ...」は「最初の2つの数は1, 3 で、それに続く数は前の2つの数の和のルートを2.5倍して四捨五入したもの」

!1 + 3 " 2.5 = 5

!3 + 5 " 2.5 = 7.07...

!5 + 7 " 2.5 = 8.66...

ルールを記述したときの長さはルールの「複雑さ」の一種の指標になっている

Page 15: 機械知能とデータ圧縮

学習とデータ圧縮の関係

学習 データ圧縮•データの中の規則性を利用し、データの記述長を短くすること

•ランダムであればランダムであるほど圧縮しにくい

•データの中の規則性を見つけ、利用すること

•ランダムであればランダムであるほど学習しにくい

データの中の規則性を見つけられればデータをより短く言い換えることができる( 学習をデータを圧縮するために使う)

ルールの「複雑さ」の指標(データ圧縮を学習のために

使う)

Page 16: 機械知能とデータ圧縮

機械が学習できると:人間の手間が減らせる

•医療への応用- 画像診断の自動化、高速化、低価格化➡ がんなどの重大な病気の早期発見

?

データの中から規則性を見つける段階(訓練)

規則性を当てはめてみる段階(テスト)

Page 17: 機械知能とデータ圧縮

機械が学習できると:より個人に特化したサービス

• 今まで: 町の本屋さん

•メリット:自分の興味を伝えられる

•デメリット:品ぞろいが限られる

量販店

•メリット:何でもそろう

•デメリット:みんなが欲しそうなものばかり

• これから:

過去に買ったもの、検索の履歴、ブログでの発言、などから興味のありそうなものを自動的に推薦。

-Amazon, iTunes など応用ははじまっている(がまだまだ未熟)

Page 18: 機械知能とデータ圧縮

機械が学習できると:いろいろ楽しく

• 機械による作文

- SCIgen - An Automatic CS Paper Generator(自動作文システム)- http://pdos.csail.mit.edu/scigen/

• 機械による音楽- Orpheus(自動作曲システム)

- http://itm.hil.t.u-tokyo.ac.jp/automatic-composition/index.cgi

• 機械によるアート?

Page 19: 機械知能とデータ圧縮

まとめ

•情報の量=びっくりの量

•予測しやすい=びっくりが少ない•例からの学習=規則性を見つけて利用すること•規則性が多い=予測しやすい(=びっくりが少ない)•より多くの規則性を見つける→より圧縮できる•学習の2種類の難しさ

-ランダムさによる難しさ(でも世の中のデータの多くは冗長さがある)-構造を見つける難しさ「逆問題」:限られた数の例からはルールを1つに決めることができない

•データ圧縮の考え方→ルールに関する複雑さを定義できる•学習ができると、世の中が便利に、いろいろ楽しく

Page 20: 機械知能とデータ圧縮

ご清聴ありがとうございました

• さらに知りたい人は:

• 「情報理論の基礎―情報と学習の直観的理解のために」- 村田昇(サイエンス社)

• 「通信の数学的理論」- クロード・E. シャノン(筑摩書房)

• 「パターン認識と機械学習」(上/下)- C. M. ビショップ(シュプリンガー)