webスクレイピングの基礎知識 #東京スクラッパー

22
第 1 第 Web 第第第第第第第第第第 @ 第第 # 第第第第第第第第Web 第第第第第第第第第第第第 @ nezuq http://pixabay.com/ja/%E3%82%B7%E3%83%A3%E3%83%99%E3%83%AB-%E7%AA %81%E3%81%8F-%E8%B5%A4-%E5%AD%90%E4%BE%9B-%E3%82%B2%E3%83%BC%E3%83%A0- %E6%B5%B7-%E5%96%9C%E3%81%B3-%E5%BB%BA%E8%A8%AD-%E6%9D%90%E6%96%99- %E7%A0%82-164266/

Upload: nezuq

Post on 28-May-2015

5.334 views

Category:

Data & Analytics


5 download

DESCRIPTION

第1回Webスクレイピング勉強会@東京資料。http://tokyoscrapper.connpass.com/event/6809/

TRANSCRIPT

Page 1: Webスクレイピングの基礎知識 #東京スクラッパー

第 1 回 Web スクレイピング勉強会 @ 東京( # 東京スクラッパー)

Web スクレイピングの基礎知識

@nezuq

http://pixabay.com/ja/%E3%82%B7%E3%83%A3%E3%83%99%E3%83%AB-%E7%AA%81%E3%81%8F-%E8%B5%A4-%E5%AD%90%E4%BE%9B-%E3%82%B2%E3%83%BC%E3%83%A0-%E6%B5%B7-%E5%96%9C%E3%81%B3-%E5%BB%BA%E8%A8%AD-%E6%9D%90%E6%96%99-%E7%A0%82-164266/

Page 2: Webスクレイピングの基礎知識 #東京スクラッパー

http://pixabay.com/ja/%E7%94%B7-%E4%BD%9C%E6%A5%AD-%E3%82%B7%E3%83%A3%E3%83%99%E3%83%AB-%E5%BB%BA%E7%89%A9-%E5%BB%BA%E8%A8%AD-%E3%83%80%E3%82%B9%E3%83%88-%E3%83%98%E3%82%A4%E3%82%BA-%E8%8A%B8%E8%A1%93-%E7%94%B7%E6%80%A7-80101/

【定義】

「そもそも、 Web スクレイピングとは?」

ウェブスクレイピング( Web scraping )とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。ウェブ・クローラー (Web crawler) あるいはウェブ・スパイダー (Web spider) とも呼ばれる。

ウェブスクレイピング - Wikipedia より

Page 3: Webスクレイピングの基礎知識 #東京スクラッパー

【目的】

「 Web スクレイピングに立ちはだかる3つの壁を突破する」

倫理技術

事例

http://pixabay.com/ja/%E5%AD%90-%E5%A5%B3%E3%81%AE%E5%AD%90-%E7%94%B7-%E4%BA%BA-%E7%88%B6%E3%81%A8%E5%A8%98-%E7%88%B6-%E6%B5%B7-%E3%83%93%E3%83%BC%E3%83%81-%E6%B3%A2-%E7%A0%82%E6%B5%9C-355176/

Page 4: Webスクレイピングの基礎知識 #東京スクラッパー

http://pixabay.com/ja/%E5%8B%95%E7%89%A9-%E3%83%9A%E3%83%83%E3%83%88-%E9%B3%A5-%E3%81%8B%E3%82%82%E3%82%81-%E3%82%AB%E3%83%A2%E3%83%A1-%E7%A8%AE-%E8%87%AA%E7%84%B6-%E7%BE%BD-%E8%82%96%E5%83%8F%E7%94%BB-%E9%A0%AD-254848/

【第一の壁】

倫理技術

事例

※ 本資料の法解釈は、あくまでも私の意見です。正しい解釈は専門家へお願いします。

Page 5: Webスクレイピングの基礎知識 #東京スクラッパー

http://pixabay.com/ja/%E3%82%AB%E3%83%A2%E3%83%A1-%E3%83%93%E3%83%BC%E3%83%81-%E6%B0%B4-%E6%B5%B7-%E5%A4%AA%E5%B9%B3%E6%B4%8B-%E7%A0%82-%E8%87%AA%E7%84%B6-%E6%B5%B7%E5%B2%B8%E7%B7%9A-51019/

【第一の壁】

「そもそも、 Web スクレイピングは合法なの?」

「情報解析目的なら合法と解釈できます」

(情報解析のための複製等)第 47 条の7 著作物は、電子計算機による情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の統計的な解析を行うことをいう。以下この条において同じ。)を行うことを目的とする場合には、必要と認められる限度において、記録媒体への記録又は翻案(これにより創作した二次的著作物の記録を含む。)を行うことができる。ただし、情報解析を行う者の用に供するために作成されたデータベースの著作物については、この限りでない。

[著作権法]

法庫 より

Page 6: Webスクレイピングの基礎知識 #東京スクラッパー

http://pixabay.com/ja/%E3%82%AB%E3%83%A2%E3%83%A1-%E9%B3%A5-%E5%8B%95%E7%89%A9-%E3%82%B3%E3%83%B3%E3%82%B9%E3%82%BF%E3%83%B3%E3%82%B9%E6%B9%96-%E6%B0%B4-%E3%82%92%E5%8F%82%E7%85%A7%E3%81%97%E3%81%A6%E3%81%8F%E3%81%A0%E3%81%95%E3%81%84-%E6%8A%95%E8%B3%87%E5%AE%B6-300078/

【第一の壁】

文化庁 HP の QA でも、肯定的な記述があります

文化庁 | 著作権 | 著作権制度に関する情報 | 著作権制度の解説資料 | 最近の法改正について | 平成21年通常国会 著作権法改正等について より

問 5 情報解析研究のための複製等について,    無許諾で行えることとする趣旨及び内容について教えてください。 (法第 47条の 7)

著作物は,大量の情報から,それを構成する言語,音,影像等の要素を抽出し,比較分類その他の統計的な解析を行うことを目的とする場合には,

必要と認められる限度において,記録媒体に記録することができることとしています。

Page 7: Webスクレイピングの基礎知識 #東京スクラッパー

http://pixabay.com/ja/%E3%82%AC%E3%83%AB%E3%83%80-%E3%82%AB%E3%83%A2%E3%83%A1-%E9%B3%A5-%E6%B0%B4%E9%B3%A5-%E5%8B%95%E7%89%A9%E3%81%AE%E4%B8%96%E7%95%8C-%E5%BA%A7%E3%81%A3%E3%81%A6-321316/

【第一の壁】

「でも、図書館サイトで行って逮捕された人いたよ?」

「不起訴です。又、サイト制作会社が謝罪しました。 加えて、 罪状は業務妨害罪です。

著作権の点では全くのお咎めなしです。そして、業務妨害罪は過失では成り立ちません」

岡崎市立中央図書館事件

岡崎市立中央図書館事件(おかざきしりつちゅうおうとしょかんじけん)は、2010 年 3 月頃に岡崎市立中央図書館の蔵書検索システムにアクセス障害が発生し、利用者の一人が逮捕された事件である。

岡崎市立中央図書館事件 - Wikipedia より

Page 8: Webスクレイピングの基礎知識 #東京スクラッパー

【第一の壁】

「どこまでが過失と言えるの?」

「常識的な範囲でのサーバアクセスによる障害なら、過失と言えると思います」

http://pixabay.com/ja/%E3%82%AB%E3%83%A2%E3%83%A1-%E9%B4%8E-%E7%BF%BC-%E7%BE%BD-%E7%A9%BA-%E3%83%95%E3%83%A9%E3%82%A4%E3%83%88-343223/

収集対象機関ウェブサーバの負荷軽減のため、ダウンロードの間隔を 1 秒以上あけます。国立国会図書館法によるインターネット資料の収集について(by

国立国会図書館) より

Page 9: Webスクレイピングの基礎知識 #東京スクラッパー

http://pixabay.com/ja/%E7%8A%AC-%E5%8B%95%E7%89%A9-%E5%AD%90%E7%8A%AC-%E3%82%B7%E3%83%99%E3%83%AA%E3%82%A2%E3%83%B3-%E3%83%8F%E3%82%B9%E3%82%AD%E3%83%BC-%E3%83%8F%E3%82%B9%E3%82%AD%E3%83%BC-%E3%83%97%E3%83%BC%E3%83%AB-%E6%B3%B3%E3%81%90-168815/

【第二の壁】

倫理技術

事例

Page 10: Webスクレイピングの基礎知識 #東京スクラッパー

http://pixabay.com/ja/%E5%A4%8F-%E5%A4%AA%E9%99%BD-%E7%A0%82-%E6%B5%B7-%E7%8A%AC-%E5%86%8D%E7%94%9F-%E3%82%B5%E3%83%B3%E3%82%BB%E3%83%83%E3%83%88-%E3%83%93%E3%83%BC%E3%83%81-%E3%82%AA%E3%83%BC%E3%82%B7%E3%83%A3%E3%83%B3-181906/

【第二の壁】

「 Web スクレイピングにプログラミングは必要?」

「実は不要。 Web サービスを使えばいい」( ex. kimono, ScraperWiki, Yahoo! Pipes …… )

「しかし、応用的な事をしたい場合は必要」

Page 11: Webスクレイピングの基礎知識 #東京スクラッパー

http://pixabay.com/ja/%E5%A5%B3%E3%81%AE%E5%AD%90-%E7%8A%AC-%E6%B5%B7-%E3%83%93%E3%83%BC%E3%83%81-%E3%82%B6%E3%83%B3%E3%83%88-%E3%83%95%E3%82%A9%E3%83%BC%E3%83%AB%E3%83%88-%E3%83%AC%E3%83%BC%E3%82%B9-%E5%86%8D%E7%94%9F-244926/

【第二の壁】

「最低限、何の知識があればいい?」

「 HTML ( HyperText Markup Language )」

「 HTML とは?」

「ブラウザ向け文書( Web ページ)を書く為のルール」

Page 14: Webスクレイピングの基礎知識 #東京スクラッパー

http://pixabay.com/ja/%E6%B5%B7-%E7%8A%AC-%E3%83%93%E3%83%BC%E3%83%81-176028/

【第二の壁】

「結局はどういう構造なの?」

「 < メタ情報 > 文章 </ メタ情報 > 」

Page 15: Webスクレイピングの基礎知識 #東京スクラッパー

http://pixabay.com/ja/%E5%A5%B3%E3%81%AE%E5%AD%90-%E3%82%A4%E3%83%AB%E3%82%AB-%E3%83%A4%E3%83%B3%E3%82%B0-%E3%83%A9%E3%82%B9%E3%83%99%E3%82%AC%E3%82%B9-%E3%83%9F%E3%83%A9%E3%83%BC%E3%82%B8%E3%83%A5%E3%81%AE%E3%82%AB%E3%82%B8%E3%83%8E-68819/

【第三の壁】

倫理技術

事例

Page 16: Webスクレイピングの基礎知識 #東京スクラッパー

http://pixabay.com/ja/%E3%82%A4%E3%83%AB%E3%82%AB-%E3%83%91%E3%83%A9%E3%82%AA-%E3%82%A4%E3%83%AB%E3%82%AB%E3%81%AE%E3%82%B8%E3%83%A3%E3%83%B3%E3%83%97-%E3%82%A4%E3%83%AB%E3%82%AB%E3%81%AE%E3%82%B7%E3%83%A7%E3%83%BC-173338/

【第三の壁】

「どういう所で活用すればいいの?」

「最近の流行りは、データジャーナリズム」

Page 17: Webスクレイピングの基礎知識 #東京スクラッパー

http://pixabay.com/ja/%E3%82%A4%E3%83%AB%E3%82%AB-%E6%B5%B7%E6%B4%8B%E7%A7%91%E5%AD%A6%E8%80%85-%E5%AE%87%E5%AE%99%E3%81%AE%E6%B5%B7-%E3%83%A1%E3%83%87%E3%82%A3%E3%82%A2-delphinidae-67527/

【第三の壁】

「データジャーナリズムとは?」

「データからストーリーを見つけ、デジタル技術で表現する手法」

Page 20: Webスクレイピングの基礎知識 #東京スクラッパー

http://pixabay.com/ja/%E3%82%A4%E3%83%AB%E3%82%AB-%E3%82%B8%E3%83%A3%E3%83%B3%E3%83%97-%E8%A1%A8%E7%A4%BA-%E3%83%87%E3%83%A2-%E5%8B%95%E7%89%A9%E5%9C%92-%E5%93%BA%E4%B9%B3%E9%A1%9E-235972/

【第三の壁】

「他の活用方法と比べて何が良いの?」

「ジャーナリズムの大義によるリスクの低下」

Page 21: Webスクレイピングの基礎知識 #東京スクラッパー

http://pixabay.com/ja/%E3%82%B7%E3%83%A3%E3%83%99%E3%83%AB-%E7%AA%81%E3%81%8F-%E8%B5%A4-%E5%AD%90%E4%BE%9B-%E3%82%B2%E3%83%BC%E3%83%A0-%E6%B5%B7-%E5%96%9C%E3%81%B3-%E5%BB%BA%E8%A8%AD-%E6%9D%90%E6%96%99-%E7%A0%82-164266/

【まとめ】

倫理技術

事例

情報解析ならOK だけど1 秒待とう

とりあえずHTML

読めるように

データジャーナリズ

ムで大義確保

Page 22: Webスクレイピングの基礎知識 #東京スクラッパー

Enjoy !