平成27年度大学院 - keio university · ・表現学習(特徴量自動生成)...
TRANSCRIPT
平成27年度大学院
Webインテリジェンス論
やまぐち たかひら
山口 高平 内線:42673
電話:045-566-1614
FAX; 045-566-1617
Web: www.yamaguti.comp.ae.keio.ac.jp
1
http://bd.comp.ae.keio.ac.jp/
2015/4/7 富士ゼロックス講演会 2
「スキルと実践を重視したビッグデータ・ イノベーション人材育成プログラム」
授業内容と授業計画,講義資料,成績評価
授業内容
人工知能(AI)に関する基礎を学んだ後、AIとインターネットを融合した「セマンティックWebとオント
ロジー、リンクドデータ」について学ぶ。また、ゲストスピーカを招いて、AIの研究開発とビジネスに
ついて学ぶ。
授業計画
①4/07 人工知能の過去・現在・未来
②4/14 前回続き、エキスパートシステム
③4/21 知識獲得
④4/28 知識モデリングとオントロジー(レポート1) 5/5 祝日
⑤5/12 オントロジー分析
⑥5/19 セマンティックWeb概論
⑦5/26 RDF/RDFS/OWL
6/02 クォータ制試験日
⑧6/09 オントロジーエディター Protégé
⑨6/16 オントロジー構築演習(レポート2) ⑩6/23 LOD
⑪6/30 LOD演習 (レポート3) ⑫7/07 ゲストスピーカ1 (①~⑪で実施する可能性あり) ⑬7/14 ゲストスピーカ2 (①~⑪で実施する可能性あり) ⑭まとめ
講義資料:pdf(or ppt)資料をWebに掲載 www.yamaguti.comp.ae.keio.ac.jp
成績:レポート3回程度で評価
3
AIの歴史
1956年夏 ダートマス会議(チェス、定理証明) 探索、推論
1960年~ 第一次AIブーム(単なる期待、Toy Problem)
1970年~ 冬の時代(機械翻訳無理!基礎研究は継続)
1980年~ 第2次AIブーム(知識の時代、 国プロ、産業化、AIベンチャー)
1995年~ 再び冬の時代へ(基礎研究は継続):
インターネット、クラウドサービスの時代へ
2010年~ 第3次AIブーム(確かな期待へ?、 IT企業(IBM, Google, Appleなど)がAIに注力)
4
AIの現状 ①コンピュータの高速化
②記憶装置の大容量化
③ネットワーク広帯域化
④ソフトウェアのオープン(無料)化
に支えられ,
AI要素技術(探索,推論,学習,知識)は進歩
2010年~ 第3次AIブーム?
AI要素技術の進化と統合(周辺関連技術含む)
による 特化された,でも強力なAI の登場
5
① 探索型AI
人とAIが競争し、共創に至る
6
2012.2 AI囲碁 Zen
囲碁はまだまだ!
2012.1 第1回電王戦 故米長元名人vs. ボンクラーズ
1997 AIチェス Deep Blue
AIがプロに迫る&超える
7
10 120 10 220 10 360
※巨大数の例 観測可能な宇宙(800億の銀河)の水素原子数 約1080
RSA公開暗号鍵サイズ 1024bit 21000= (210)100=10300
故米長名人 ボンクラーズは50000棋譜以上から 機械学習で強くなった 。 だから、知らない手が有効なはず
2012年1月 第1回電王戦 一手目
8
故米長元名人 vs.
ボンクラーズ
午前:ボンクラーズは困惑 ?
午後:故米長元名人が 一つのミス
ボンクラーズ 攻撃開始!
9
第1回電王戦 中盤
勝者
敗者
記者会見
ボンクラーズは、 常に、私のミスを待っていた。 ミスをした途端、攻めてきて、 大変なプレッシャーを感じた。
10
第1回電王戦 終局
ボナンザ(保木邦仁氏開発)の評価関数
• 各駒の価値(駒割り) • 王、他の駒2つの位置 • 王、隣接した味方の駒、他の味方の駒3つの位置 • 隣接しあった駒2つの位置関係 • 竜馬飛角桂香の利き上にいる駒の種類 • 竜馬飛角香が動けるマスの数 • ピンされている駒の種類、方向、王との距離 • 角と同じ色のマスにいる味方の歩の数 • 歩桂銀が前進できるか • 竜飛香の前・後の歩 • 王の周囲25マスの利きの配置
2015/4/7 超サイバー社会をにらんだ技術的萌芽と
SSH,ELSI課題 11
12 2015/4/7 超サイバー社会をにらんだ技術的萌芽と
SSH,ELSI課題
電王戦
1 2012 ボンクラーズ 1-0 米長邦雄永世棋聖 一番勝負
2 2013 コンピュータ 3-1
(1持将棋) プロ棋士 五番勝負(団体戦)
3 2014 コンピュータ 4-1 プロ棋士 五番勝負(団体戦)
第1回
Final 第3回
第2回
チェス選手権はフリースタイルの時代へ
混成チーム2 アマチュア+AI
混成チームⅠ プロ+AI
AI プロ
13 2015/4/7 超サイバー社会をにらんだ技術的萌芽と
SSH,ELSI課題
Chess Metaphors: Artificial Intelligence and the Human Mind
14
48チーム参加 (人、コンピュータ、人+コンピュータ) 優勝:ZackSチーム Zackary Stephen(統計学修士,24歳,1381) Steven Cramton(予備校講師,28歳,1685) 使用ソフト:Shredder 8,Fritz 8,Junior 7,Gambit Tiger (※レーティング:初心者800, 中級者1500, 日本チャンピオン2300, グランドマスター 2500, 世界チャンピオン2800)
By Diego Rasskin-Gutman Translated by Deborah Klosky MIT Press (2012)
(2) センシング型AI
AIと製造業
15
無人運転(パターン認識) 2012年 ネバダ州免許
2013年 カリフォルニア州免許
掃除(計画)
16
NHK クローズアップ現代(2013.11)
グーグルと自動運転(アスキークラウド) http://ascii.jp/elem/000/000/855/855663/
Quoc V. Le, Marc’Aurelio Ranzato, Rajat Monga, Matthieu Devin, Kai Chen, Greg S. Corrado, Jeffrey Dean, and Andrew Y. Ng:
Building High-level Features Using Large Scale Unsupervised Learning, ICML2012
2015/4/7 超サイバー社会をにらんだ技術的萌芽と
SSH,ELSI課題 17
Youtube 3日間 1000万 部位画像 人と猫の識別器
DNN (Deep Neural Network)の進展
2012年:教師無しデータによるPre Training 2013年:Rectifier, Dropoutによる教師有りで 直接、巨大ニューラルネットを学習。 ニューラルネットの各構成要素がニューラルネットであるNetwork in Network (NiN)に注目 2014年:短期記憶可能なニューラルネット(LSTM: Long Short Term Memory)。RNN(Recurrent Neural Net.ループを含むようなニューラルネット)が注目。 ・表現学習(特徴量自動生成) ・マルチタスク学習(類似タスクからターゲットタスクの精度改善)
・マルチモーダル学習(画像キャプション自動生成)
2015/4/7 超サイバー社会をにらんだ技術的萌芽と
SSH,ELSI課題 18
Error Rate
2015/4/7 超サイバー社会をにらんだ技術的萌芽と
SSH,ELSI課題 19
ILSVRC (ImageNet Large Scale Visual Recognition Challenge)
http://googleresearch.blogspot.jp/2014/11/a-picture-is-worth-thousand-coherent.html
2015/4/7 超サイバー社会をにらんだ技術的萌芽と
SSH,ELSI課題 20
画像キャプションの自動生成
(3) 知識型AI
AIと情報サービス
21
ナレッジナビゲータ (アップル社の唯一のコンセプトビデオ.1987年)
英語 http://www.youtube.com/watch?v=dyFpu0P4Wek
英語(日本語字幕) http://pantani.cocolog-nifty.com/wannabe/2008/08/iphone_6_knowle_9799.html
日本語吹替 http://www.youtube.com/ watch?v=yc8omdv-tBU&feature=related
22
1966年 ELIZA
• 入力された文章にあるパターンが含まれているか調べ反応 • 会話を理解しているように見せかける,はぐらかす
– ELIZAとの対話における「意味」は,人間から与えられるか用意された限られた数の反応のどちらか
• 事前に用意された定型的な表現の中から応答
• 俺にはみんなが俺を笑っていることはわかっていたんだ → 特に誰のことを考えていますか? • キーワードが見つからない場合 → なぜそう思うのですか?
• これらの対話は非常に限定された局面でしか通用しない – 精神病の治療面接
• 対話において、話し手の一方が、実際の世界について 殆ど何も知らないというポーズをとっても構わない数少ない例の1つ
23
http://www.simsimi.com/talk.htm
1980年代 AIブーム(知識工学)
HPP:Heuristics Programming Project 完全ではないがたいていの場合うまくいく知識や方法
※MYCINプロジェクト(1973~1976) MYCIN,TEIRESIAS,GUIDN,EMYCIN
◎知識表現、知識利用、知識獲得→知識工学 There is power in the knowledge ! (1977) by Prof. E. Feigenbaum 1980年代→知識の時代へ エキスパートシステム,自然言語・画像・音声理解 システム,知的教育支援システム,...
国家プロジェクト,AIハード・ソフトベンダー
24
エキスパートシステム
25
ユーザ
知識
ベース
知識
獲得
推論
エンジン
作業
領域
対話
I/F
説明
機能
(専門家)
1990年代:知識獲得ボトルネック
知識(ルール)
→ESが専門家代行という過大な期待. 知識ベース開発のための知識獲得は大変だ!
通産省:第5世代コンピュータ(1982-1994)の失敗?
→推論マシンに特化しすぎ.知識が余りにも不十分.
1990年代: 大規模知識ベース,大規模辞書プロジェクト
CYC, EDR, WordNet(フリーなので現在も広く使われる)
でも,あまり変化しない静的知識だけ.現実には動的知識が
多い.使えないなぁ.AIブームは完全にさめて下火へ
26
ES→①オントロジー基盤AI統合へ ②業務SWとしては、BRMSとして復活
2003年 QA Challenge !(1) IBM PIQUANT
• 2003~ IBM,PIQUANT プロジェクト
(Practical Intelligent Question Answering Technology)
★閉じた問題ではなく、事前に分からないクイズに解答する という開いた悪構造問題に挑戦
深い論理形式分析と浅い機械翻訳ベースのアプローチを統合
この難しい問題にチェレンジするには、AI技術が未熟で、
マシンパワーも不足して、大きな成果はあげられずに終わる。
28
2011年 QA Challenge ! (2) IBM Watson
・IBM Deep Question Answering Project(ジョパディで,ワトソンがチャンピオンに挑戦して勝利)
Open-Domain Question Answering
PIQUANTから時代が進み,
技術が成熟、マシンパワーが拡大
29
IBM Watsonシステム構成
★大規模知識の獲得(100万冊,2億ページ)
百科事典、辞書、シソーラス、ニュース記事、著作物などを情報源。自動的にコーパスを拡大。 ★徹底した質問文解析:LAT(Lexical Answer Type)と重要語抽出 ★突出した一つのAI技術ではなく,言語理解,情
報検索,不確実性推論,仮説生成,仮説統合とランキング、機械学習,知識表現(オントロジー),構造化データなど,100以上の従来AI技術(20年前の技術もある)の集大成 ★精度、確信度、速度を考慮したAIインテグレーション ★計算力:並列計算による計算パワー ★展開性: 医療、金融、行政、マーケティングにも適用可能
30
NII 東大ロボットプロジェクト 2021年東大入試合格を目指して
http://21robot.org/
31 2015/4/7 超サイバー社会をにらんだ技術的萌芽と
SSH,ELSI課題
200 93.1 95(52) 50.5(41.0)
150 60.2 69(62) 54.2(45.9)
100 45.9 49(42) 51.9(44.7)
100 47.1 40(57) 46.9(51.9)
100 50.4 55(41) 51.9(47.2)
100 40.8 52(58) 56.1(55.2)
100 47.2 44(56) 48.2(56.1)
100 38.1 17(33) 34.3(42.2)
100 32.7 31(39) 49.0(48.3)
900 422.0 386(365) 47.3(45.1)
53.6(47.7)
49.7(46.2)
受験番号 氏名 116-5004E 東ロボクン イチゴウ
科目 満点 全国 平均点
本人得点 (昨年)
本人偏差値 (昨年)
英語
国語(現文+古文)
国語(現代文)
数学I・数学A
数学Ⅱ・数学B
世界史B
日本史B
政治・経済
物理
文系7科目コース
文系3教科偏差値
理系3教科偏差値
東ロボくん 代ゼミ全国センター模試成績(2014.11)
2015/4/7 超サイバー社会をにらんだ技術的萌芽と
SSH,ELSI課題 32
2011年 QA Challenge ! IBM Watson
・IBM Deep Question Answering Project
(ジョパディで,ワトソンがチャンピオンに挑戦して勝利)
Open-Domain Question Answering
PIQUANTから時代が進み,技術が成熟、マシンパワーが拡大
33
IBM Watsonの概要
34
★大規模知識の獲得(100万冊,2億ページ) 百科事典、辞書、シソーラス、ニュース記事、著作物などを情報源。 自動的にコーパスを拡大。 ★徹底した質問文解析:LAT(Lexical Answer Type)と重要語抽出 ★突出した一つのAI技術ではなく,言語理解,情報検索,不確実性推論,仮説生成, 仮説統合とランキング、機械学習,知識表現(オントロジー),構造化データなど, 100以上の従来AI技術(20年前の技術もある)の集大成 ★精度、確信度、速度を考慮したAIインテグレーション ★計算力:並列計算による計算パワー ★汎用性:Jeopardy Challengeに特化していない。TREC QAにも適用して成功。 ★展開性: 医療、金融、行政、マーケティングにも適用可能
NHKサイエンスZERO ①プロジェクト開始: 3.5分 4:02-7:40 ②ワトソン誕生:3.5分 7:40-11:15 ②ワトソン思考回路:3分 11:15-14:15
東大ロボットプロジェクト 2021年東大入試合格を目指して
http://21robot.org/
35 2015/4/7
36
東ロボくん 全国センター模試成績表(抜粋)
受験番号 126-5001D 氏名 東ロボくん
科目 満点 全国 平均
点 本人得点 本人 偏差値
英語 200 88.3 52 41 国語(現文+古文) 150 72.2 62 45.9 国語(現代文) 100 51.5 42 44.7 数学Ⅰ・数学A 100 52 57 51.9 数学Ⅱ・数学B 100 47.6 41 47.2 世界史B 100 46.6 58 55.2 日本史B 100 45.6 56 56.1 物理Ⅰ 100 42 39 48.3 総合7科目コース 900 459.5 387 45 文系3教科偏差値 47.7 理系3教科偏差値 46.2
※「総合7科目」においては、現代文の特典を倍にして「国語」の得点とした。
東ロボくんが合格できる大学はあるか 東ロボくんの「全国センター模試」成績による合格判定結果
大学数 全大学・学部数 合格可能性 80%以上の大
学
国立大学 165大学 566学部 1大学 2学部
私立大学 579大学 1670学部 403大学 814学部 合計 744大学 2236学部 404大学 816学部
合格可能性80%以上の私立大学の内訳 センター利用入試 353大学 715学部
一般入試 324大学 602学部 合計 403大学 814学部
Web上で公開され,相互に連結し合っているRDFデータ
これまで多く研究されてきた抽象的な概念構造が
現実的な有用性を生むには依然高いハードルがある
具体物であるインスタンスの記述をしたRDF(Linked Open Data)の
データベースを公開・共有し合うべきという風潮が高まっている
2007年5月
2008年5月
2011年9月
LODの普及
RDFモデルによるLinked Open Data(LOD)
• LOD規模:5億トリプル(2007) ⇒2011年9月時点で310億トリプルに増加
38
メディア
行政
地理
生命科学
出版
DBpedia
Wikipediaから構造化されたデータを抽出、RDF形式で提供
・データ自体がリンクしている
・情報の公開、共有が容易になる
・第三者によるサービス開発の促進に繋がる 情報流通基盤として期待が集まる
Linked Open Data Initiative 2012年8月に発足
LODを普及促進する活動
日本語LOD Cloudの作成
日本語LOD Cloud 2008年の欧米と同程度の規模
DBpedia Japaneseと相互リンクとなっているのは以下の3つのみ
本家DBpedia
日本語WordNet
日本語Wikipediaオントロジー
DBpedia Japaneseが持っていない概念階層関係の補完として,日本語LODハブの一つとして期待されている
39
DBpedia Japanese DBpedia
日本語WordNet
日本語Wikipediaオントロジー
①言葉(概念) 分類階層木
②言葉(=固有表現、具体物)ネットワーク
40
織田信長
本能寺
墓所
濃姫 妻
法華宗本門流
日本の 寺院
建築物
日本の神
農民 武士
宗派
1415年
創建年
歴史上の身分
神
天文3年5月12日
生誕
豊臣秀吉
主君
本蓮寺
宗派
日本の城
岐阜城
建立
1347年
創建年
人・もの・ こと分析
分け方
オントロジー
2015/4/7
Wikipediaからオントロジー(言葉階層木,言葉のネットワーク)に自動変換して, 人工物に言葉の意味(Sense)を理解させる →日本語Wikipediaオントロジー
人間には,ウィキペディアの内容(意味)が判るけど人工物(コンピュータ,スマフォ,ロボット...)には判らない
日本語Wikipediaオントロジー
2015/4/7 41
日本語Wikipediaオントロジー(文学)
2015/4/7 42
43
さらにズームアップ(模式図)
日本の 小説家
小説家
作家
人物
文学
文化
芥川龍之介
文化活動
家族
日本史の人物
代表作
職業
職業
プロパティ定義域
クラス-インスタンス関係
Is-a関係・プロパティ上位下位関係
トリプル
プロパティ値域
日本の 大学
日本の 小説
日本
存命人物
羅生門 蜘蛛の糸
鼻
小説家
塚本文
芥川也寸志
芥川貴之志
短編小説
日本
東京帝国 大学英文科
日本の映画作品
作曲家
日本のクラシック音楽の作曲家
オペラ 作曲家
夏目漱石 明治の人物
明治大学の人物 門下生
津田青楓
坊っちゃん こゝろ
小説
時代小説・歴史小説作家
誕生
最終学歴
配偶者 子供
著作
国籍
親族
ジャンル
死没
東京都出身の人物
日本出身の人物
文庫本
クラス
プロパティ
インスタンス
俳人
2015/4/7
日本語Wikipediaオントロジー http://www.wikipediaontology.org/
(4) 統合型AI
探索・知識・計測(知覚)・言語・運動 など、様々なインテリジェンスの統合
45
知能ロボット
アシモ Bigdog -> Cheetah (移動型ロボット:運動能力) http://www.youtube.com/watch?v=W1czBcnX1Ww
アイボ パロ (ペット型ロボット:癒し) http://paro.jp/?page_id=247
コミュニケーションロボット 石黒教授 ジェミニ (アンドロイドロボット:見た目)
http://www.youtube.com/watch?v=QMEXBWJDUMk
パペロ ifbot ワカマル NAO
46
2013年3月 NHKスペシャル:ロボット革命 最新アシモ 3分
オントロジーロボット
日本語
ウィキペディアオントロジー
ロボット
キネマティクス
オントロジー
ロボット
動作
オントロジー
47
言葉と動作の連係
マルチロボット連携
オントロジー人型ロボットNAO と子供達・シニア
QA 体操教示
動画1分 48
慶応ロボットカフェ (異機能ロボット連携)
49
対話して(注文)、作って、 運んで、 また対話して、また運ぶ。 (QA)
動画4分
人と機械(AI)の協生
50
Race Against the Machine
米国では,ここ数年, 会計士,税理士の需要が8万人減少 高度コンピュータ による大量失業時代?
アンドリュー・マカフィー MITスローン・スクール、 デジタル・ビジネス・センター 主任リサーチサイエンティスト
51
知能は形式知だけ? ガードナー:多重知能説に基づく知能モデル
言語的 知能
数理的 知能
対人的 知能
個人内 知能
音楽的 知能
空間的 知能
身体 知能
技術的 (学校) 知能
芸術的 知能
人格的 (感情) 知能
52
AI
人
Weak (Specific) AI (2015) vs. Strong (General) AI(2045)
• Specific AI:特定問題解決のみ人に迫り超えるAI
• AI to AGI(Artificial General Intelligence, 汎用人工知能)
• 様々なAGIアプローチ:認知アーキテクチャ、Deep Learning,ニューロモーフィック・コンピューティング
• Strong AI:意識が宿り、人類の全知全能を超えるAI シンギュラリティ(未来科学者レイ・カーツワイル氏は2045年頃までに実現可能と予想)。GNR革命。
• この10年間は、多数のSpecific AIが開発され、人とAIの新しい協働関係が出現してくる
2015/4/7 53 文教大学 情報学学術交流フォーラム