機械知能とデータ圧縮
DESCRIPTION
東京大学オープンキャンパス (2010/8/4) で使った資料です.TRANSCRIPT
機械知能とデータ圧縮
東京大学オープンキャンパス
工学部・計数工学科冨岡 亮太2010/8/4
情報
知能
予測
情報とはなんだろう
•こういうことを言ったりします-情報がある、情報がない-いい情報、悪い情報
•情報の量とは?-文章の長さ?-話の長さ?
“ ”http://ameblo.jp/akimoto100323/entry-10605555913.html
“ ”
“ ”
7/30 の首相動静
7/29 首相ぶら下がりインタビュー
某芸能人ブログ
情報がたくさんあるのはどれ?
http://www.asahi.com/special/hibi/TKY201007300422.html
http://www.asahi.com/special/hibi/TKY201007290522.html
情報の量:予測のしやすさ
•情報が意外と少ない例:
•情報が多い例:-
情報の量=びっくりの量
今日は 東京大学で オープンキャンパスがあります。ルース米大使が8月6日に広島の平和記念式典に出席します。
今日は晴れ。夕方に隕石が降りました。 夕食は納豆でした。
情報とは?(まとめ)
•情報の量はびっくりの量•予測できればできるほどびっくりは少ない•本や話が長ければ長いほど、情報がたくさんあるわけではない
•データ圧縮 =ある量の情報を伝えたい時、文章の長さはどこまで短くできるか
- ZIP, LZH など•圧縮すればするほどデータは予測しにくくなる(びっくりの密度が高くなる)•世の中のデータは意外と冗長(圧縮されていない)
文章の長さ − 情報の量文章の長さある文章の冗長さ =
じょうちょう
知能とはなんだろう
知能とは?
•頭がイイこと?
-暗記が得意、計算が速い、etc
•コンピュータは暗記や計算は得意
-世界中で一番大きい百科事典を記憶したり
-円周率 π を 2,700,000,000,000桁まで計算
したり (http://bellard.org/pi/pi2700e9/)
www.wikipedia.org
news.cnet.com
暗記と学習
•「暗記」- 教えられたことをしっかり覚えていること
- コンピュータは得意
•「学習」- 教えられた以外のことができること- 経験を活用することができること- 人間は得意
1192鎌倉幕府成立
1274文永の役・・・
雨が降りそう
学習問題の例
•数列クイズ- 1, 3, 5, 7, 9, ?- 1, 6, 4, 10, 7, 14, 10, ?- 1, 2, 3, 4, 3, 4, 5, 4, 5, 6, 7, ?- 1, 2, 3, 2, 3, 4, 3, 2, 3, 2, 1, ?
データの中から規則性を見つける段階(訓練)
規則性を当てはめてみる段階(テスト)
11 (2ずつ増えているので)
18 (偶数番目だけをみる)
8? (増えた回数の方が多いので)
?
例からの学習:2種類の難しさ
(10 回中、8回増加、2回減少)
(10 回中、5回増加、5回減少)
規則的 少しランダム すごくランダム
難しい
簡単 1, 3, 5, 7, 9, 11
1, 2, 3, 4, 3, 4, 5, 4, 5, 6, 7
1, 2, 3, 2, 3, 4, 3, 2, 3, 2, 1
1, 6, 4, 10, 7, 14, 10
ランダムさによる難しさ「構造」を見
つける難しさ
学習の難しさと冗長さの関係
•学習が簡単な数列- ランダムさが小さい- (統計的な)規則性 → 予測しやすい- 予測しやすい → 冗長
•学習が難しい数列- 規則的でない = ランダムさが大きい
これはデータ圧縮のしやすさと同じ!
情報量が小さい(圧縮できる)
情報量が大きい(圧縮できない)
世の中の情報は意外と冗長 → 学習できる
「構造」を見つける難しさ
• 1, 3, 5, 7, 9 +2, +2, +2, +2差分を取る
• 1, 4, 9, 16, 25 1, 2, 3, 4, 5ルートを取る
辞書?1. 差分を取ってみる2. ルートを取ってみる3. 2個おきに差分を取ってみる・・・
しかし,• どの順番で試せばよいのか?• 全部のルールを試すのが現実的か?
ルールの「複雑さ」とルールの「記述長」
•ルール1(単純):
-「1, 3, 5, 7, 9, ...」は「初項1、公差2の等差数列」•ルール2(複雑):
-「1, 3, 5, 7, 9, ...」は「最初の2つの数は1, 3 で、それに続く数は前の2つの数の和のルートを2.5倍して四捨五入したもの」
!1 + 3 " 2.5 = 5
!3 + 5 " 2.5 = 7.07...
!5 + 7 " 2.5 = 8.66...
ルールを記述したときの長さはルールの「複雑さ」の一種の指標になっている
学習とデータ圧縮の関係
学習 データ圧縮•データの中の規則性を利用し、データの記述長を短くすること
•ランダムであればランダムであるほど圧縮しにくい
•データの中の規則性を見つけ、利用すること
•ランダムであればランダムであるほど学習しにくい
データの中の規則性を見つけられればデータをより短く言い換えることができる( 学習をデータを圧縮するために使う)
ルールの「複雑さ」の指標(データ圧縮を学習のために
使う)
機械が学習できると:人間の手間が減らせる
•医療への応用- 画像診断の自動化、高速化、低価格化➡ がんなどの重大な病気の早期発見
?
データの中から規則性を見つける段階(訓練)
規則性を当てはめてみる段階(テスト)
機械が学習できると:より個人に特化したサービス
• 今まで: 町の本屋さん
•メリット:自分の興味を伝えられる
•デメリット:品ぞろいが限られる
量販店
•メリット:何でもそろう
•デメリット:みんなが欲しそうなものばかり
• これから:
過去に買ったもの、検索の履歴、ブログでの発言、などから興味のありそうなものを自動的に推薦。
-Amazon, iTunes など応用ははじまっている(がまだまだ未熟)
機械が学習できると:いろいろ楽しく
• 機械による作文
- SCIgen - An Automatic CS Paper Generator(自動作文システム)- http://pdos.csail.mit.edu/scigen/
• 機械による音楽- Orpheus(自動作曲システム)
- http://itm.hil.t.u-tokyo.ac.jp/automatic-composition/index.cgi
• 機械によるアート?
まとめ
•情報の量=びっくりの量
•予測しやすい=びっくりが少ない•例からの学習=規則性を見つけて利用すること•規則性が多い=予測しやすい(=びっくりが少ない)•より多くの規則性を見つける→より圧縮できる•学習の2種類の難しさ
-ランダムさによる難しさ(でも世の中のデータの多くは冗長さがある)-構造を見つける難しさ「逆問題」:限られた数の例からはルールを1つに決めることができない
•データ圧縮の考え方→ルールに関する複雑さを定義できる•学習ができると、世の中が便利に、いろいろ楽しく
ご清聴ありがとうございました
• さらに知りたい人は:
• 「情報理論の基礎―情報と学習の直観的理解のために」- 村田昇(サイエンス社)
• 「通信の数学的理論」- クロード・E. シャノン(筑摩書房)
• 「パターン認識と機械学習」(上/下)- C. M. ビショップ(シュプリンガー)