機械知能とデータ圧縮

機械知能とデータ圧縮

東京大学オープンキャンパス

工学部・計数工学科冨岡亮太2010/8/4

情報

知能

予測

情報とはなんだろう

•こういうことを言ったりします-情報がある、情報がない-いい情報、悪い情報

•情報の量とは？-文章の長さ？-話の長さ？

“ ”http://ameblo.jp/akimoto100323/entry-10605555913.html

“ ”

“ ”

7/30 の首相動静

7/29 首相ぶら下がりインタビュー

某芸能人ブログ

情報がたくさんあるのはどれ？

http://www.asahi.com/special/hibi/TKY201007300422.html

http://www.asahi.com/special/hibi/TKY201007290522.html

情報の量：予測のしやすさ

•情報が意外と少ない例：

•情報が多い例：-

情報の量＝びっくりの量

今日は東京大学でオープンキャンパスがあります。ルース米大使が8月6日に広島の平和記念式典に出席します。

今日は晴れ。夕方に隕石が降りました。夕食は納豆でした。

情報とは？（まとめ）

•情報の量はびっくりの量•予測できればできるほどびっくりは少ない•本や話が長ければ長いほど、情報がたくさんあるわけではない

•データ圧縮＝ある量の情報を伝えたい時、文章の長さはどこまで短くできるか

- ZIP, LZH など•圧縮すればするほどデータは予測しにくくなる（びっくりの密度が高くなる）•世の中のデータは意外と冗長（圧縮されていない）

文章の長さ − 情報の量文章の長さある文章の冗長さ =

じょうちょう

知能とはなんだろう

知能とは？

•頭がイイこと？

-暗記が得意、計算が速い、etc

•コンピュータは暗記や計算は得意

-世界中で一番大きい百科事典を記憶したり

-円周率 π を 2,700,000,000,000桁まで計算

したり (http://bellard.org/pi/pi2700e9/)

www.wikipedia.org

news.cnet.com

暗記と学習

•「暗記」- 教えられたことをしっかり覚えていること

- コンピュータは得意

•「学習」- 教えられた以外のことができること- 経験を活用することができること- 人間は得意

1192鎌倉幕府成立

1274文永の役・・・

雨が降りそう

学習問題の例

•数列クイズ- 1, 3, 5, 7, 9, ?- 1, 6, 4, 10, 7, 14, 10, ?- 1, 2, 3, 4, 3, 4, 5, 4, 5, 6, 7, ?- 1, 2, 3, 2, 3, 4, 3, 2, 3, 2, 1, ?

データの中から規則性を見つける段階（訓練）

規則性を当てはめてみる段階（テスト）

11 (２ずつ増えているので)

18 (偶数番目だけをみる)

8? (増えた回数の方が多いので)

?

例からの学習：2種類の難しさ

(10 回中、8回増加、2回減少）

(10 回中、5回増加、5回減少）

規則的少しランダムすごくランダム

難しい

簡単 1, 3, 5, 7, 9, 11

1, 2, 3, 4, 3, 4, 5, 4, 5, 6, 7

1, 2, 3, 2, 3, 4, 3, 2, 3, 2, 1

1, 6, 4, 10, 7, 14, 10

ランダムさによる難しさ「構造」を見

つける難しさ

学習の難しさと冗長さの関係

•学習が簡単な数列- ランダムさが小さい- （統計的な）規則性 → 予測しやすい- 予測しやすい → 冗長

•学習が難しい数列- 規則的でない = ランダムさが大きい

これはデータ圧縮のしやすさと同じ！

情報量が小さい（圧縮できる）

情報量が大きい（圧縮できない）

世の中の情報は意外と冗長 → 学習できる

「構造」を見つける難しさ

• 1, 3, 5, 7, 9 　 +2, +2, +2, +2差分を取る

• 1, 4, 9, 16, 25 1, 2, 3, 4, 5ルートを取る

辞書？1. 差分を取ってみる2. ルートを取ってみる3. 2個おきに差分を取ってみる・・・

しかし，• どの順番で試せばよいのか？• 全部のルールを試すのが現実的か？

ルールの「複雑さ」とルールの「記述長」

•ルール1（単純）:

-「1, 3, 5, 7, 9, ...」は「初項1、公差2の等差数列」•ルール2（複雑）:

-「1, 3, 5, 7, 9, ...」は「最初の2つの数は1, 3 で、それに続く数は前の2つの数の和のルートを2.5倍して四捨五入したもの」

!1 + 3 " 2.5 = 5

!3 + 5 " 2.5 = 7.07...

!5 + 7 " 2.5 = 8.66...

ルールを記述したときの長さはルールの「複雑さ」の一種の指標になっている

学習とデータ圧縮の関係

学習データ圧縮•データの中の規則性を利用し、データの記述長を短くすること

•ランダムであればランダムであるほど圧縮しにくい

•データの中の規則性を見つけ、利用すること

•ランダムであればランダムであるほど学習しにくい

データの中の規則性を見つけられればデータをより短く言い換えることができる（学習をデータを圧縮するために使う）

ルールの「複雑さ」の指標（データ圧縮を学習のために

使う）

機械が学習できると：人間の手間が減らせる

•医療への応用- 画像診断の自動化、高速化、低価格化➡ がんなどの重大な病気の早期発見

?

データの中から規則性を見つける段階（訓練）

規則性を当てはめてみる段階（テスト）

機械が学習できると：より個人に特化したサービス

• 今まで：町の本屋さん

•メリット：自分の興味を伝えられる

•デメリット：品ぞろいが限られる

量販店

•メリット：何でもそろう

•デメリット：みんなが欲しそうなものばかり

• これから：

過去に買ったもの、検索の履歴、ブログでの発言、などから興味のありそうなものを自動的に推薦。

-Amazon, iTunes など応用ははじまっている（がまだまだ未熟）

機械が学習できると：いろいろ楽しく

• 機械による作文

- SCIgen - An Automatic CS Paper Generator（自動作文システム）- http://pdos.csail.mit.edu/scigen/

• 機械による音楽- Orpheus（自動作曲システム）

- http://itm.hil.t.u-tokyo.ac.jp/automatic-composition/index.cgi

• 機械によるアート？

まとめ

•情報の量＝びっくりの量

•予測しやすい＝びっくりが少ない•例からの学習＝規則性を見つけて利用すること•規則性が多い＝予測しやすい（＝びっくりが少ない）•より多くの規則性を見つける→より圧縮できる•学習の2種類の難しさ

-ランダムさによる難しさ（でも世の中のデータの多くは冗長さがある）-構造を見つける難しさ「逆問題」：限られた数の例からはルールを1つに決めることができない

•データ圧縮の考え方→ルールに関する複雑さを定義できる•学習ができると、世の中が便利に、いろいろ楽しく

ご清聴ありがとうございました

• さらに知りたい人は：

• 「情報理論の基礎―情報と学習の直観的理解のために」- 村田昇（サイエンス社）

• 「通信の数学的理論」- クロード・E. シャノン（筑摩書房）

• 「パターン認識と機械学習」（上／下）- C. M. ビショップ（シュプリンガー）

機械知能とデータ圧縮

Documents