irc セミナー数字が教えてくれないこと-特許/論文データベース分析入門-

122
IRC セミナー 数字が教えてくれないこと -特許/論文データベース分析入門- 2015.05.14 政策研究大学院大学 科学技術イノベーション政策研究センター 科学技術学術政策研究所 (NISTEP) 原泰史 [email protected] Twitter: @harayasushi 5/14/2015 1

Upload: yasushi-hara

Post on 20-Jul-2015

366 views

Category:

Education


2 download

TRANSCRIPT

IRC セミナー

数字が教えてくれないこと-特許/論文データベース分析入門-

2015.05.14

政策研究大学院大学科学技術イノベーション政策研究センター科学技術学術政策研究所 (NISTEP)

原泰史

[email protected]

Twitter: @harayasushi

5/14/2015 1

WP シリーズの目的

• 目的• 特許や論文のデータを使うことで解析できる範囲を知るために、まず分析手法を学ぶ

• 手法• パソコンを用いたハンズオンセミナー方式 (手を動かして覚える!)

• 時間:• 土曜日の夕方に90分-120分程度• 一ヶ月に一回程度 (第一期; 5-6回)

• 場所: • 国立 (一橋大学イノベーション研究センター) または• 六本木 (政策研究大学院大学科学技術イノベーション政策研究センター)

• 参加希望の方は, [email protected]または@harayasushi (twitter) までご連絡ください.

5/14/2015 2

WPシリーズのスケジュール

• [2015/1月] 第0回: 「数字が教えてくれないこと」@一橋イノベーション研究センター

• [2015/3/28] 第1回: 「数字が教えてくれること」@一橋イノベーション研究センター• 特許や論文データはなぜイノベーション指標として活用されているのだろう

• [2015/4/18]第2回: 「巨人の上に立つ」@GRIPS SciREXセンター• 論文データベース (Web of Knowledge, Scopus, Scival etc…) を用いた分析

• [2015/5/14] IRCセミナー@関西学院大学イノベーション研究センター

• [2015/5/16] 第3回: 「select() すると幸せになれる理由」@一橋イノベーション研究センター• IIP データベース/patRデータベースを用いた日本特許分析

• [2015/6/27] 第4回: 「科学とイノベーションの関係」• 組織学会@一橋大学のため第四週におこないます• サイエンスリンケージデータベースを用いた特許/論文の連結分析

• [2015/7/18]第5回: 「行間を読むっていろいろと大切」• 書誌テキスト分析 (KHcoder) を使って分析できること

• [2015/8/8] 第6回 : 「まとめ」• 科学とイノベーションのあれこれは書誌情報からどこまでわかるのだろう

5/14/2015 3

今日取り上げる内容

1. はじめに: イノベーションを測るとはなにか?

2. 論文データベースの利用方法• Web of Knowledge• Scopus

3. 特許データベースの利用方法• 米国特許のデータベース

• Thomson Innovation• Ultra Patent• USPTO database

• 日本特許のデータベース• MySQL の導入• Access の導入• 基本的なコマンド

4. サイエンスリンケージデータベースの利用方法

5. 数字ではわからないこと (今日のまとめ)

5/14/2015 4

論文 特許サイエンスリンケージ

1. はじめにイノベーションを測るとは何か?

5/14/2015 5

Framework of Innovation Indicators (Pakes and Griliches 1984)

Other Economic

Factors

Non-Knowledge Factors of Production Output:

ProductivityFirm’s Value

Patent

PatentingPropensity

Inputs to InnovationR&D, designing,

marketing research etc…

Knowhow and First Mover Advantage

5/14/2015 6

Other Economic

Factors

Non-Knowledge Factors of Production Output:

ProductivityFirm’s Value

Patent

PatentingPropensity

Inputs to InnovationR&D, designing,

marketing research etc…

Knowhow and First Mover Advantage

Paper

5/14/2015 7

Framework of Innovation Indicators (Pakes and Griliches 1984)

Other Economic

Factors

Non-Knowledge Factors of Production Output:

ProductivityFirm’s Value

Patent

PatentingPropensity

Inputs to InnovationR&D, designing,

marketing research etc…

Knowhow and First Mover Advantage

Paper

In-tangibleknowledge

5/14/2015 8

Framework of Innovation Indicators (Pakes and Griliches 1984)

イノベーションのプロセスを明らかにする方法• 定性的なアプローチ

• なにかしらの理論モデルにもとづき、文献調査や実地調査、インタビューなどを使って証拠を集める。集まった証拠にもとづきロジックを組み立てて、結果を観察する

• データソース• 誰かが書いた文章 (論文や特許や報告書や白書 etc…)

• 誰かの頭のなか (をインタビューを使って収集する)

• 定量的なアプローチ• なにかしらの理論モデルにもとづき、統計データベースを使ってデータを集める。それを回帰分析 etc… などの統計的な処理をして、結果を観察する

• データソース• 統計データベースを使う

• サーベイ調査をする

• 政府統計を使う

結論

インプリケーション(ex. 政策的な含意)

問い(リサーチクエスチョン)

Literature Review(先行研究の調査)

Hypothesis(問いに対する仮説の提示)

5/14/2015 9

イノベーションプロセスを知る方法

1. ひとにきく1. 発明したひと (=発明者) にきく

1. インタビューをする2. サーベイ調査をする (アンケートを

とる)2. 発明に関与したひとにきく

1. インタビューをする2. サーベイ調査をする (アンケートを

とる)

2. 測ってみる1. 特許ではかってみる

1. だれとだれが特許を書いたかではかってみる

2. だれがだれの特許を引用しているかではかってみる

2. 論文ではかってみる1. だれとだれが論文を書いたかでは

かってみる2. だれとだれの論文を引用している

かではかってみる

3. 特許と論文のつながりではかってみる

1. どの特許が、どの論文を引用しているかで測ってみる

2. どの論文が、どの特許を引用しているかで測ってみる

5/14/2015 10

はかってみる=論文や特許のデータベースを使い、論文や特許の数や流れを調べてみる。

5/14/2015 11

公開された特許や論文の情報はどうやって調べればいいのか?

5/14/2015 12

もしかして: ググる

しかし:単純にgoogle や bingで検索してもわからない場合がある→ 専用のデータベースを使う

5/14/2015 13

今日取り上げる内容

1. はじめに

2. 論文データベースの利用方法• Web of Knowledge• Scopus

3. 特許データベースの利用方法• 米国特許のデータベース

• Thomson Innovation• Ultra Patent• USPTO database

• 日本特許のデータベース• MySQL の導入• Access の導入• 基本的なコマンド

4. サイエンスリンケージデータベースの利用方法

5. 数字ではわからないこと (今日のまとめ)

5/14/2015 14

論文 特許サイエンスリンケージ

2. 論文データベース

5/14/2015 15

論文データベース

•何がわかるのか• だれが、いつ、どこで、どんな論文を書いたのかがわかる

• だれが、いつ、どこで、どんな論文を引用したかがわかる

• メリット• 先行研究を知ることができる

• みんなが読んでいる論文がわかる!

• インパクトファクターの高い論文がわかる!(就職に有利な!)

• どんな研究が世の中で行われているかがわかる!

5/14/2015 16

論文データベースに掲載されている情報

アブストラクト

タイトル

著者名

ジャーナル名とページ数

発行年

論文キーワード

著者の所属と住所

パブリッシャー論文の分類

論文のタイプと使用言語

論文の引用数と被引用数

5/14/2015 17

前方引用と後方引用: Schumpeter 1947 の場合

時点 : t

"An Approach to the Study of

Entrepreneurship," THE TASKS OF

ECONOMIC HISTORY (Supplemental

Issue of THE JOURNAL OF

ECONoMIc HISTORY), VI (1946), 1-15

Oscar Lange, "A Note on

Innovations," Review of Economic

Statistics, XXV (1943), 19-25

F. W. Taussig, Inventors and

Money-Makers (New York: The

Macmillan Company, 1915).

Fritz Redlich, The Molding of American

Banking—Men and Ideas (New York: HafnerPublishing Company, 1947).

Robert A. Gordon, Business

Leadership in the Large Corporation

(Washington, D.C.: The Brookings

Institution, 1945).

F. J. Marquis and S. J. Chapman on the

managerial stratum ,of the Lancashire cotton

industry in the Journal of the Royal Statistical

Society, LXXV, Pt. III (1912). 293-306.

前方引用後方引用5/14/2015 18

Schumpeter 1947 の後方引用数推移(Web of knowledge)

5/14/2015 19

論文のデータベースを使うと何がわかる?

•著者の数が多い論文は被引用数が多くなる?

• どういうジャンルの論文を, 特定の大学や企業が投稿している?

• ある産業内では, どういった企業が論文を多く投稿している?

• スターサイエンティストはだれ?

•引用する論文が多いほど, 被引用数が増える?

•博士ホルダーが書いた論文は, 普通の研究者に比べてパフォーマンスが高くなる?

•様々なジャンルに投稿している研究者のパフォーマンスは高くなる?

5/14/2015 20

ただし

• 世の中に「完備な」データベースはありません

• 「大人は嘘つきではありません、ただ間違いをするだけなのです…」• 組織名が違う• 自分の名前が違う• 所属国が違う• 論文のカテゴリが違うことが多々出てきます。

• 自らのリサーチクエスチョンに合わせて精緻な分析を行うためには、(1) 問いに対応する最適なデータベースを選び, (2) データのクリーニング作業を行う必要があります

5/14/2015 21

(英文)論文データベース名前 Web of Knowledge Scopus

作っている会社 トムソン・ロイター エルゼビア

カバー範囲 ・社会科学文献の書誌および引用情報(1898年-2015年)・自然科学文献の書誌および引用情報(1900年-2015年)

・5000以上の出版社の21,000誌以上の学術ジャーナル・20000タイトル以上の査読ジャーナル・370タイトルのブックシリーズ・550万件以上の会議録

メリット ・過去データが豊富・社会科学のカバー率が高い・他のデータベースとリンクさせることが比較的容易

・分野分類が (Web of Knowledge) に比べて明確・自然科学のカバー率は Web of Knowledge に比べ高い

・企業名および著者名の名寄せの精度が高いこともないみたい・・・

デメリット ・1945年以前のデータはカバー範囲が限られている・カテゴリ分類が不明確

・現在カバー範囲が(Web of Knowledge に比べ)狭い[引用情報は1996年以降のみカバー](2016年に向け拡大される予定)

価格 すごく高い! すごく高い!

気をつけること ・一橋大学では利用可能・大学によってカバーしているデータ範囲が違う

一橋大学では利用不能 (部局によっては契約している場合あり)

5/14/2015 22

まず注意すること: データのカバー範囲

• Web of Knowledge やScopus は大学によってカバーしているデータの範囲が異なります

• ある大学では検索できた結果が, 異なる大学では検索出来ないことがあります

2015/5/13 23

Web of knowledge のデータカバー範囲を確認する方法 (1)

1. Web of Knowledge にアクセスし, “Web of Knowledge Core Collection” を選択する

2015/5/13 24

Web of knowledge のデータカバー範囲を確認する方法 (2)

2. 画面下にある “詳細設定” をクリックする

2015/5/13 25

Web of knowledge のデータカバー範囲を確認する方法 (3)• GRIPSの場合

• Science Citation Index Expanded (1993-現在)

• Conference Proceedings Citation Index – Science (1990-現在)

•一橋大学の場合• Science Citation Index Expanded

(1900-現在)

• Social Sciences Citation Index (1900-現在)

• Arts & Humanities Citation Index (1975-現在)

2015/5/13 26

Web of knowledge のデータカバー範囲を確認する方法 (4)•関西学院大学の場合:

http://library2.kwansei.ac.jp/information/web_database/uweb_database_dlist.cgi• “関西学院大学では1975年から現在までの人文科学・社会科学・自然科学の学術論文情報と1990年から現在までの会議録などProceedingsを検索することができます。また、文献管理ツールEndNote Webもあわせて利用できます。検索可能範囲・Science Citation Index Expanded (SCI-EXPANDED) --1975-現在・Social Sciences Citation Index (SSCI) --1975-現在・Arts & Humanities Citation Index (A&HCI) --1975-現在・Conference Proceedings Citation Index- Science (CPCI-S) --1990-現在”

5/14/2015 27

2-1. Web of Knowledge

•一橋の学内からはどこからでも利用可能

•一橋大学図書館のMy Library からリモートログインで利用可能

• GRIPS でも利用可能

5/14/2015 28

http://ip-science.thomsonreuters.jp/products/web-of-science/yokuwakaru/

Excercise1: Web of Knowledge を使って一橋大学から2013年に公刊された論文を取り出してみる

• 1. 検索 -> Web of Science Core Collection -> 詳細検索を選ぶ

5/14/2015 29

Excercise1: Web of Knowledge を使って一橋大学の2013年に公刊された論文を取り出してみる

•検索条件を入力する• PY: 年

• OG: 組織名

• [検索] をクリックする

5/14/2015 30

Excercise1: Web of Knowledge を使って一橋大学の2013年に公刊された論文を取り出してみる

•検索が実施され, データが抽出される. 検索履歴より “80” をクリックする

5/14/2015 31

Excercise1: Web of Knowledge を使って一橋大学の2013年に公刊された論文を取り出してみる

•検索結果が表示される

5/14/2015 32

Excercise1: Web of Knowledge を使って一橋大学の2013年に公刊された論文を取り出してみる

•画面の一番下までスクロールし, “他のファイルフォーマットで保存” を選択する

5/14/2015 33

Excercise1: Web of Knowledge を使って一橋大学の2013年に公刊された論文を取り出してみる

• [レコード件数]から保存するレコード数

• [レコードコンテンツ]から”詳細表示と引用文献”

• [ファイルフォーマット]から”タブ区切り(Win (またはMac))” を選択し保存をクリックする

5/14/2015 34

Excercise1: Web of Knowledge を使って一橋大学の2013年に公刊された論文を取り出してみる

•取り出したテキストファイルをExcel に取り込む• H Shimizu 先生が見つかったりする

5/14/2015 35

Excercise1: Web of Knowledge を使って一橋大学の2013年に公刊された論文を取り出してみる

• Alternative: エクセルを使うのがめんどくさい人向け• [レコード件数]から保存するレコード数

• [レコードコンテンツ]から”詳細表示と引用文献”

• [ファイルフォーマット]から”テキスト” を選択し保存をクリックする

5/14/2015 36

Excercise1: Web of Knowledge を使って一橋大学の2013年に公刊された論文を取り出してみる

• Raw Data っぽいファイルが出力される• 自分でコードを書いて処理するか, Vantage Point (後述)を使う

• ヒント: 終端処理はEF なので, そいつと先頭行を潰せばいくらでもデータ連結が可能

5/14/2015 37

「研究分野」と「Web of Knowledge Category」

• 研究分野• 研究分野は、すべての Web of

Science 製品データベースで共有される主題分野を構成します。その結果、同じ主題に属する複数のデータベースのドキュメントを識別、検索、分析することができます。

• Current Contents ConnectおよびWeb of Science Core Collectionに含まれる各ジャーナルおよび書籍は、Web of Science の分野の少なくとも 1 つに割り当てられます。Web of Science の各分野は 1 つの研究分野にマップされます。

• Web of Knowledge Category• “Web of Science Core Collection に含まれるすべてのジャーナルおよび書籍は、以下の主題分野の少なくとも1 つに割り当てられます。Web of Science Core Collection のすべてのレコードは、[Web of Science の分野] フィールドに出版物の主題分野を含みます。”※. ひとつの論文に対して複数の Web of Knowledge Category が割り当てられていることがある

5/14/2015 38

Web of Knowledge で注意するポイント

• カテゴリ分けが1:1 の関係にはなっていない• 精緻に行うためには, ジャーナル名などで名寄せする必要性

•部局名などの名寄せが行われていない• NISTEP 表記ゆれ辞書などを活用する

• Scopus を利用する(?)

• Web 経由では, 1回500件しかダウンロードできない• Excel でひたすらくっつけていくか, Raw Data 方式でダウンロードしひたすら連結, 処理をしたのち手元のSQL などに放り込む

• ロボット検索すると怒られます

5/14/2015 39

NISTEP: “大学・公的機関名英語表記ゆれテーブル(Web of Science版)(Ver.2014.1)”• “1996-2012 年の期間にWeb of Scienceに採録された論文のうち、日本の機関に所属する著者を含む論文のデータ(約150万件)を対象に、機関名英語表記のゆれを調査・分析しリスト化した結果”

• http://www.nistep.go.jp/research/scisip/randd-on-university からダウンロード可能

• カバー範囲 1996-2012

• Creative Commons BY-SA

5/14/2015 40

“大学・公的機関名英語表記ゆれテーブル(Web of Science版)(Ver.2014.1)”• F 列が表記バリエーションになっているので, C列の機関ID で

Matching させる

• Web of Knowledge で取り出したデータと, 例えばExcel なら vlookupなどして連結させる

5/14/2015 41

引用分析

•後方引用をたどることで, 発明に至る知識の流れを明らかにする

• JST プロジェクトの Feasibility Study• Shuji Nakamura Patent に至るまでのMain Path

• 特許と、特許に引用された論文について調査

• ソース: Web of Knowledge / Thomson Innovation

5/14/2015 42

Network 全体 (属性付き)

赤色はMain Path に選択された Node を示す.

5/14/2015 43

1930s 1960s 1970s 1990s 2000s

1910-2007 (1次引用すべて導入; 上位12社明記)

1980s5/14/2015 44

2-2. Scopus

• エルゼビアが提供する論文データベース

• “Scopus has twice as many titles and over 30% more publishers listed than any other A&I database”

• Journals や Book, Conference Papers や Patents もカバー

• Scivalを用いることで, 研究機関ごとのパフォーマンスを知ることも可能

• なお、一橋では現時点 (2015年) では契約していないので使えません

5/14/2015 45

Scopus のインターフェース例: シュンペーターの論文を探してみよう1. www.scopus.comを開き, 「著者検索」に Last Name と First Name を入力する.

5/14/2015 46

Scopus のインターフェース例: シュンペーターの論文を探してみよう2. 著者名の候補が表示されるので, 該当する著者をクリックする

5/14/2015 47

Scopus のインターフェース例: シュンペーターの論文を探してみよう3. 論文の一覧が表示される

5/14/2015 48

Scopus を使う上で注意するポイント

• Web of Knowledge に比べたらカテゴリや組織や研究者個人の名寄せがキッチリしているかと思ったけど, 別にそんなことはないみたい

• データのカバー範囲が広い事, データベース構造がWeb of Knowledge に比べ比較的単純なのがメリットなくらい

5/14/2015 49

https://twitter.com/noricoco/status/585677912705261569

大学・公的機関名英語表記ゆれテーブル(Scopus版)(ver.2013.1)• “1996-2010 年の期間にScopusに採録された論文のうち、日本の機関に所属する著者を含む論文のデータ(約150万件)を対象に、機関名英語表記のゆれを調査・分析しリスト化した結果”

• http://www.nistep.go.jp/research/scisip/randd-on-university からダウンロード可能

5/14/2015 50

大学・公的機関名英語表記ゆれテーブル(Scopus版)(ver.2013.1)• JSTだけでも様々な表記が

5/14/2015 51

Scopus-NISTEP大学・公的機関名辞書対応テーブル(ver.2013.1)• “科学論文の計量的分析に用いられるデータベース、Scopusの論文

ID(Scopus_eid)とNISTEP大学・公的機関名辞書の機関ID(NID)の対応テーブルです。1996-2010 年の期間にScopusに採録された論文のうち、日本の機関に所属する著者を含む論文のデータ(約150万件)を対象に、国内の大学・公的機関の機関名称の名寄せを行った結果”

• http://www.nistep.go.jp/research/scisip/randd-on-university からダウンロード可能

•論文IDごとに機関ID が割り振られているので, より正確に組織名で名寄せができる

• データ量が巨大なので、MySQL/PostgreSQL か Access を使いましょう• Excel でなんとかやれないこともないけど大変

5/14/2015 52

Scopus-NISTEP大学・公的機関名辞書対応テーブル(ver.2013.1)• Access に取り込んだ結果: レコード数2718337件

5/14/2015 53

では, Web of Knowledge? Scopus? Or Google Scholar?

• (Kulkarni, Aziz, Shams and Busse2009)• Google Scholar, Web of Knowledge と

Scopus の Citation 推移を比較• “Cohort study of 328 articles published

in JAMA, Lancet, or the New England Journal of Medicine between October 1, 1999, and March 31, 2000. Total citation counts for each article up to June 2008 were retrieved from Web of Science, Scopus, and Google Scholar.”

• Findings• “Compared with Web of Science, Scopus

retrieved more citations from non–English-language sources (median, 10.2% vs 4.1%) and reviews (30.8% vs 18.2%), and fewer citations from articles (57.2% vs 70.5%), editorials (2.1% vs 5.9%), and letters (0.8% vs 2.6%) (allP < .001).”

5/14/2015 54

JAMA. 2009;302(10):1092-1096. doi:10.1001/jama.2009.1307

2015年現時点での論文データベース利用法

• Web of KnowledgeとScopus, どちらにもデメリットとメリットがある• Web of Knowledge: データベース全体の構造が複雑, かつノイズデータも多いけど長い期間をカバーしている

• Scopus: Web of knowledge に比べればデータベース全体の構造は比較的単純. Author ID や Affiliation ID などを備えているので一見 Name-Matching の手間は省けそうだけど, やはりノイズデータが含まれている. 今後に期待.

• (高いから比べられないし, だいたいの大学ではひとつしか使えないし)論文データベースはWeb of Knowledge, Scopus のいずれかを使う

• 恐らく, 両データベースの接合を試みるだけでたくさんの Paper が書ける(けれど大変)

• 指標を使って, クエリを投げてデータを取り出した後, 整合性が取れているかチェックしていく (別の組織が入っていないか, 別の国が入っていないか, ダブルカウントしていないか etc…)

5/14/2015 55

http://www.elsevier.com/jp/press-releases/2014/201403275/14/2015 56

今日取り上げる内容

1. はじめに

2. 論文データベースの利用方法• Web of Knowledge• Scopus

3. 特許データベースの利用方法• 米国特許のデータベース

• Thomson Innovation• Ultra Patent• USPTO database

• 日本特許のデータベース• MySQL の導入• Access の導入• 基本的なコマンド

4. サイエンスリンケージデータベースの利用方法

5. 数字ではわからないこと (今日のまとめ)

5/14/2015 57

論文 特許サイエンスリンケージ

3. 特許データベース

5/14/2015 58

特許データベース

•何がわかるのか• だれが、いつ、どこで、どんな特許を書いたのかがわかる

• だれが、いつ、どこで、どんな特許を引用したかがわかる

• メリット• みんなが読んでいる特許がわかる!

• インパクトファクターの高い特許がわかる!

• どんな研究開発が世の中で行われているかがわかる!

5/14/2015 59

特許データベース

• アメリカ特許のデータベース• Google Patent• USPTO Patents• Ultra Patents• Thomson Innovation

• ヨーロッパ特許のデータベース• Espacenet• PATSTAT

• 日本の特許データベース• 特許図書館• IIP データベース• 研究用特許データベース (patR)

5/14/2015 60

3-1. PATSTAT

• EPO の特許データベース

• Web インターフェースも存在

• Raw Data 版は有償

• Web 版 PATSTAT は2ヶ月間無料

5/14/2015 61

PATSTATのデータ構造

http://documents.epo.org/projects/babylon/eponet.nsf/0/95da6bccf12e54a1c1257aa1002e2d1d/$FILE/patstat_data%20elements_v1.1.pdf

5/14/2015 62

PATSTAT のデータ構造

5/14/2015 63

PATSTAT のモデル図

5/14/2015 64

PATSTAT Online (beta)

• http://www.epo.org/searching/subscription/patstat-online.html

5/14/2015 65

Excercise2. 日本に属する組織または個人が2014年に出願した特許のうち, 他国の組織または企業とどのくらいコラボレーションをしているのか調べてみる

• クエリ• SELECT COUNT(*) AS numberOfCommonApplications,

p1.doc_std_name as name1, p1.person_ctry_code as cc1,p2.doc_std_name as name2, p2.person_ctry_code as cc2FROM tls206_person p1JOIN tls207_pers_appln pa1 ON p1.person_id = pa1.person_idJOIN tls207_pers_appln pa2 ON pa1.appln_id = pa2.appln_idJOIN tls206_person p2 ON pa2.person_id = p2.person_idjoin tls201_appln p3 on pa1.appln_id = p3.appln_idWHERE p1.person_ctry_code = 'JP'AND p3.appln_filing_date >= '2014-01-01'

AND p3.appln_filing_date <= '2014-12-31‘AND pa1.appln_id > 0AND pa2.appln_id > 0AND p1.person_ctry_code <> p2.person_ctry_codeGROUP by p1.doc_std_name, p1.person_ctry_code, p2.doc_std_name, p2.person_ctry_codeORDER BY numberOfCommonApplications DESC, p1.doc_std_name ASC,p2.doc_std_name ASC

5/14/2015 66

Excercise2.コラボレーション国ランキングUS 855(空白) 489

GB 131DE 105KR 101CN 82CA 59SG 57FR 57NL 27SA 20CH 18BE 18IL 15TH 14LU 13IN 11

5/14/2015 67

Excercise2.企業ランキングPANASONIC CORP 100

SONY CORP 81

SHARP KK 46

KOBE STEEL LTD 41

FUJITSU LTD 36

TAKEDA PHARMACEUTICAL 28

NISSAN MOTOR 27

OTSUKA PHARMA CO LTD 23

HONDA MOTOR CO LTD 23

NIPPON STEEL & SUMITOMO METAL 20

TEXAS INSTRUMENTS JAPAN 20

TOSHIBA KK 20

CANON KK 20

HADANO HIROYUKI 19

NEC CORP 16

SHIONOGI & CO 14

SAWADA HARUKO 13

TOSHIBA TECHNO CT INC 13

SUGIO TOSHIYASU 13

IBM JAPAN 12

SATO YOSHITAKA 11

KYOCERA CORP 11

UNITIKA LTD 10

TATEISHI TAKAAKI 10

MASAKI TAKAKI 10

FUNAI ELECTRIC CO 105/14/2015 68

Excercise2.コラボレーション国x企業

国名PANASONICCORP

SONY CORP

SHARP KK

KOBE STEEL LTD

FUJITSU LTD

TAKEDA PHARMACEUTICAL

NISSAN MOTOR

HONDA MOTOR CO LTD

OTSUKA PHARMA CO LTD

TOSHIBA KK

TEXAS INSTRUMENTS JAPAN

NIPPON STEEL & SUMITOMO METAL

CANON KK

総計

(空白) 68 6 40 33 14 27 1 5 3 16 213

US 6 56 3 7 5 21 5 10 12 4 129

GB 9 3 17 8 7 5 1 50

CN 12 1 10 6 1 1 31

FR 1 4 10 15

KR 8 8

DE 3 4 7

SG 6 6

BE 3 1 4

MY 4 4

5/14/2015 69

参考文献

• PATSTAT ONLINE (beta)• http://www.epo.org/searching/subscription/patstat-online.html

• SQL Self-Study Course• http://documents.epo.org/projects/babylon/eponet.nsf/0/55df36d61f27cdb

2c1257b1600323d91/$FILE/patstat_introduction_sql_en.pdf

• Data Elements of PATSTAT Raw Data• http://documents.epo.org/projects/babylon/eponet.nsf/0/95da6bccf12e54a

1c1257aa1002e2d1d/$FILE/patstat_data%20elements_v1.1.pdf

5/14/2015 70

研究用特許データベース

• (1)整理標準化データ (patRデータベース)• 特許庁での特許の出願、審査請求、拒絶、権利維持、最終処分まで、手続きを記録したもの

• 提供時期は1964年以降2010年3月まで• データ量が多いため、研究に必要な項目を限定してデータベースに格納

• (2)公報データ (td_5 データベース)• 特許の明細書および書誌情報を年別・公報種別によって記録したもの• 発行時期は公開公報:1993年から2012年まで• 特許公報:1994年から2012年まで• 公表公報:1996年から2012年まで• 再公表公報:1996年から2012年まで。すべてのデータを格納。

5/14/2015 71

(1)patR (ER図; 抜粋)

5/14/2015 72

・特許庁の手続きデータを工業所有権情報・研修館が提供している整理標準化データが元データ。・app_info が中心にデータが構成されるリレーショナル・データベース方式

リレーショナル・データベース

• Excel のようにひとつのテーブルですべてのデータを管理するのではなく, キーを介して複数のテーブルから構成されるデータベース

5/14/2015 73

中間試験の成績・学籍番号・問1の得点・問nの得点

期末試験の成績・学籍番号・問1の得点・問nの得点

平常点の成績・学籍番号・出席点・小テストの得点

総合成績・学籍番号・総合得点(=中間試験+期末試験+平常点)・最終成績

(1) patR• app_info 出願経過テーブル

5/14/2015 74

フィールド名

型 インデックス内容(カッコ内はコード表インデックス)

1 app_num varchar(20) 出願番号:すべて半角(B0010)

2 count int(11) ワーク用カウンタ3 title varchar(255) 発明の名称4 app_date date 出願日5 renewal_date date 更新日付:出願マスタ6 id bigint(20) 元処理番号7 pat_app_num varchar(10) 原出願記事番号(B0010)8 app_type varchar(4) 原出願記事関連種別(B0310,C0025)9 pub_num varchar(10) 公開番号10 pub_date date 公開日

11exam_pub_num

varchar(10) 公告番号

12exam_pub_date

date 公告日

13 intl_app_num varchar(12) 国際出願番号14 pry_cnty char(2) 筆頭優先権主張国

15num_claim_app

int(11) 請求項の数:出願時

16num_claim_examed

int(11) 請求項の数:公告決定時

17num_claim_reg

int(11) 請求項の数:登録査定時

18 reg_num varchar(19) 特許番号または登録番号19 reg_date date 登録日20 rej_rsn char(2) 拒絶理由条文コード(C0710)

21 cnln_cl char(2) 本権利抹消識別(C0780)

22term_date

date 本権利消滅年月日

23pry_claim_date

date 優先権主張日

24dspn_exam_date

date 審査最終処分日

25dspn_exam_code

char(3) 審査最終処分種別コード(C0360)

26 apnumvarchar(13)

MUL ‘JPP’をapp_numの先頭につけた文字列

27 fin_decn char(1) 査定種別コード(C0350)

28fin_decn_date

date 査定発送日

29trans_subm_date

date 翻訳文提出日

30trans_pub_num

varchar(10)

公表番号

31 idp int(11) PRI 本テーブルの固有行番号

32num_claim_reg_info

int(11) 請求項の数(登録情報)

33 udate date ワーク用日付フィールド

34 IPC8varchar(255)

国際特許分類第8版

35acc_exam_mark

char(1) 早期審査マーク(C0240)

(1) patR• citation 引用情報テーブル

5/14/2015 75

フィールド名

型インデック

内容(カッコ内はコード表インデックス)

1 citing varchar(10) MUL引用特許出願番号(B0010)

2 cited varchar(10) MUL被引用特許出願番号(B0010)

3 type int(11) MUL

種別(1:審査官引用2:特許公

報に記載された引用3:上記両

方に記載の引用)

フィールド名型 インデックス

内容(カッコ内はコード表インデックス)

1 ids int(11) PRI 固有行番号

2 name text 氏名

3 addr text 住所

4 prefecture char(2)住所の国県コード(C0050)

5 id_num varchar(9)出願人コード(B0070)

6 req_type char(1)個法官別コード(C0070)

7 type int(11) ワーク用

8 name1024 varchar(1024) MUL氏名のインデックス文字列

9 addr1024 varchar(1024) MUL住所のインデックス文字列

• applicant 出願人right_holder 権利者テーブル

(1) patR• inventor 発明者テーブル

5/14/2015 76

フィールド名型 インデックス

内容(カッコ内はコード表インデックス)

1 name text 氏名

2 addr text 住所

3 req_type char(1)個法官別コード(C0070)

4 organization Varchar(255)所属する組織の名称

5 ids int(11) PRI 固有行番号

6 name1024 varchar(1024) MUL氏名のインデックス文字列

7 addr1024 varchar(1024) MUL住所のインデックス文字列

フィールド名 型 インデックス内容(カッコ内はコード表インデック

ス)

1 apnum varchar(13) MUL‘JPP’+出願番号(B0010)

2 app_num varchar(10) MUL 出願番号(B0010)

3 pub_num varchar(10) MUL 公開番号

4 intl_app_num varchar(12) MUL 国際出願番号

5 intl_pub_num varchar(12) MUL 国際公開番号

6 trans_pub_num varchar(10) MUL 公表番号

7 exam_pub_num varchar(10) MUL 公告番号

8 reg_num varchar(10) MUL 特許番号または登録番号

9 ref_pub_num varchar(13) MUL 文献公開番号

10ref_trans_pub_num

varchar(13) MUL 文献公表番号

11ref_examd_pub_num

varchar(13) MUL 文献公告番号

12 ref_reg_num varchar(13) MUL 文献登録番号

13 ref_intl_pub_num varchar(13) MUL 文献国際公開番号

• numbers 番号表テーブル

Exercise 3: patRデータベースをmysqlクライアントを使って分析してみる

• 0. mysqlクライアントを http://dev.mysql.com/downloads/mysql/ よりダウンロードする• Linux とMac, Windows の場合で異なる

5/14/2015 77

Exercise 3: patRデータベースをmysqlクライアントを使って分析してみる• 0-1. mysqlクライアントをインストールする

• 注意点その1: 文字コードに utf8 を利用すること

5/14/2015 78

Exercise 3: patRデータベースをmysqlクライアントを使って分析してみる

• 0-1. mysqlクライアントをインストールする• 注意点その2: クライアントPC 上でmysqlサービスが動作していることを確認すること

5/14/2015 79

Exercise 3: patRデータベースをmysqlクライアントを使って分析してみる

• 1. mysqlデータベースにアクセスする• mysql –h (データベースサーバ名) –u (ユーザ名) –p とタイプし, パスワードを入力する

5/14/2015 80

Exercise 3:(つづき)

• 2. parRデータベースの中身をチェックする• “show tables from patr5_1123;”とタイプし, part5_1123 テーブルの中身をチェックする.

• mysqlコマンドの末尾には, セミコロン “;” を明記すること

• app_infoや inventor など, どのようなデータが格納されているかチェックできる

5/14/2015 81

Exercise 3:(つづき)

• 3. テーブルの構造をチェックしてみる• “desc (チェックするデータベース).(テーブル名)” で, フィールド名, データの格納タイプ (文字列なのか, 日時なのか etc),主キー (格納されたデータ情報が一意なものであるか) なのかチェックできる.

5/14/2015 82

Exercise 3:(つづき)

• 4. 実際にデータを取得してみる• 2011年に出願された特許のうち, 1. 審査官引用件数の合計 2. 特許公報に記載された引用の件数の合計をそれぞれ抽出してみる

• クエリをなげると, それぞれ合計数を取得することができる

5/14/2015 83

Exercise 3:(つづき)

• 4. 実際にデータを取得してみる (大まかなコマンドの説明)• Select : 「データをデータベースから引っ張ってきますよ」という宣言

• Count(*) : 「ひっぱってきたデータを数え上げてみますよ」という説明

• from patr5_1123.citation : 「patr5_1123 というデータベースのなかの, citation テーブルからデータを引っ張りますよ」 という宣言

• Where : 「ただし, 以下の条件でね」という宣言• where citing like : 「citing のデータがこんな感じのがほしいです」

• ‘2011%’ : 先頭が2011 ではじまるデータ• and : かつ• (type = 1 or type = 3) : (1:審査官引用 3:上記両方に記載の引用)

• (type = 2) : (2:特許公報に記載された引用 )

5/14/2015 84

まとめてみると、「patr5_1123 データベースの中の citation テーブルのうち, citing フィールドのデータの先頭が 2011 ではじまり、かつ “1. 審査官引用または 3. 上記両方記載に引用” にカテゴライズされているデータの数を数えてね」になります

Exercise 3:(つづき)

• 5. IPCデータを抽出してみる• Patr5_1123 データベースの

pub_IPCより, IPC_CLASS と合計数を, CLASS ごとにもとめ, カウント数で並べ直す.• count(*) as count ; 合計数を count と名付ける

• group by IPC_class ; IPC_classでまとめる

• order by count ; count 数でソートする

5/14/2015 85

列1 IPC_Class 詳細 カウント数1H01L 半導体装置固体装置それらの部品の製造処理に特に適用される方法 2567401

2G06F データ処理装置 1863464

3H04N データ転送, テレビジョン装置 13637314A61K 医薬品製剤 12989395A61P 化合物または医薬製剤の特殊な治療活性 971151

6G03G 光,熱,電子を照射して原画像の記録を行なうための記録材料 841739

7G11B機械的カッティング,変形プレスによる,例.溝ピットの,記録機械的感知による再生そのための記録担体

829606

8B41J タイプライタの種類または選択的プリンティング機構の種類 7239029G01N 材料の調査分析, サンプリング調査用標本の調製 693957

10G02B使用物質によって特徴づけられた光学要素光学要素のための光学的コーティング

619495

Exercise 3:(つづき)

• 6. 特定の発明者のデータを抽出してみる• アクテムラの開発者である大杉先生の特許一覧データを探してみる

• 実行するコマンド• 公開日, 公開番号, 特許名, 発明者名の情報を抽出

5/14/2015 86

select app_info.pub_date, app_info.pub_num, app_info.title, inventor.namefrom inventorinner join inventor_corr_last

on inventor.ids=inventor_corr_last.idsinner join app_info

on inventor_corr_last.idp=app_info.idpwhere inventor.name='大杉 義征';

Exercise 3:(つづき)

•実行するコマンドの説明 (1)

5/14/2015 87

select app_info.app_date, app_info.pub_date, app_info.pub_num, app_info.title, inventor.namefrom inventorinner join inventor_corr_last

on inventor.ids=inventor_corr_last.idsinner join app_info

on inventor_corr_last.idp=app_info.idpwhere inventor.name='大杉 義征';

App_infoテーブルより、・特許の出願日 (app_date)・特許の公開日 (pub_date)・特許のタイトル (title)・特許の公開番号 (pub_num) Inventor テーブルより、・特許の発明者名 (inventor)を取得 (select) する

Inventor テーブルよりデータをもってくる

inventor. テーブルの name フィールドが“大杉 義征” なデータをもってくる

select app_info.app_date, app_info.pub_date, app_info.pub_num, app_info.title, inventor.namefrom inventorinner join inventor_corr_last

on inventor.ids=inventor_corr_last.idsinner join app_info

on inventor_corr_last.idp=app_info.idpwhere inventor.name='大杉 義征';

Exercise 3:(つづき)

•実行するコマンドの説明 (2)

5/14/2015 88

Inventor_corr_lastテーブルの ids キーを介して, inventor テーブルと app_infoテーブルの情報を接続する (inner join)

Exercise 3:(つづき)

•実行結果• 大杉先生の特許一覧が出力される

5/14/2015 89

app_date pub_date pub_num title name1976/4/12 1977/1/29 1977012141新規アミノ安息香酸誘導体、その製法及び医薬組成物 大杉 義征1977/11/2 1979/5/29 1979066645安息香酸誘導体 大杉 義征

1978/6/9 1979/12/26 1979163540テレフタル酸アミド誘導体及びその塩 大杉 義征1978/12/5 1980/6/10 1980076853テレフタル酸アミド誘導体の製法 大杉 義征1986/1/22 1986/11/27 1986267515腎炎治療剤 大杉 義征1986/1/24 1986/11/27 1986267516気管支拡張剤 大杉 義征1986/5/22 1987/3/9 1987053966新規ピリジン誘導体 大杉 義征

1987/11/20 1988/10/5 1988239217抗アレルギー剤 大杉 義征1989/6/30 1991/2/14 1991034932糸球体腎疾患治療剤 大杉 義征

1990/4/9 1991/12/20 1991291236感作T細胞関与疾患の治療剤 大杉 義征1990/8/17 1992/3/31 1992099800組換えマウスIL―6レセプターの製造方法 大杉 義征1995/10/6 1996/8/13 1996208514 IL−6アンタゴニストを有効成分とする慢性関節リウマチ治療剤 大杉 義征1998/8/14 1999/5/25 1999139988抗IL−6レセプター抗体を有効成分として含有する全身性エリテマトーデスの予防および/または治療剤 大杉 義征2002/9/25 NULL NULL ウイルムス腫瘍遺伝子に対する新規なアンチセンスオリゴヌクレオチド誘導体 大杉 義征2003/9/18 NULL NULL 癌抑制遺伝子WT1の産物に基づく癌抗原とカチオン性リポソームとを含んで成る癌ワクチン 大杉 義征2003/11/7 NULL NULL C型肝炎ウイルスに対する新規なアンチセンスオリゴヌクレオチド誘導体 大杉 義征2005/5/30 2005/9/15 2005247872抗IL−6レセプター抗体を有効成分として含有する全身性エリテマトーデスの予防および/または治療剤 大杉 義征

2006/11/15 NULL NULL 細胞傷害性T細胞の誘導抑制剤 大杉 義征2008/10/3 2009/4/16 2009079054癌抑制遺伝子WT1の産物に基づく癌抗原とカチオン性リポソームとを含んで成る癌ワクチン 大杉 義征2009/5/25 2009/8/20 2009185073抗IL-6レセプター抗体を有効成分として含有する全身性エリテマトーデスの予防および/または治療剤 大杉 義征

特許データベースの詳細

• http://enq.iir.hit-u.ac.jp

• http://www.alife-lab.co.jp

5/14/2015 90

今日取り上げる内容

1. はじめに

2. 論文データベースの利用方法• Web of Knowledge• Scopus

3. 特許データベースの利用方法• 米国特許のデータベース

• Thomson Innovation• Ultra Patent• USPTO database

• 日本特許のデータベース• MySQL の導入• Access の導入• 基本的なコマンド

4. サイエンスリンケージデータベースの利用方法

5. 数字ではわからないこと (今日のまとめ)

5/14/2015 91

論文 特許サイエンスリンケージ

4. サイエンスリンケージデータベース

5/14/2015 92

サイエンスリンケージデータベース

•特許と論文との引用関係を明らかにする

•論文による科学的知見の集積が, どのように特許で活用されているのか?

5/14/2015 93

Science Linkage

• References Cited in Patent • “Other Publications”

• Proceeding in Academic Conference

• Scientific Paper

• “Patents”• US Patents

• Foreign Patents

945/14/2015

Science Linkage Example:(Imaginary?) STAP Cell Patent, and cited iPS Cell Paper

• Patent (Vacanti Kojima Obokata… 2013)

95

・Paper (Takahashi and Yamanaka 2006)

7 years

5/14/2015

サイエンスリンケージデータベースのデータセット

• サイエンスリンケージデータベース: 特許と文献の引用関係に基づくリレーショナル・データベース• データソース:Derwent Patent Index Database、DIIおよびWeb of Science (SCIE, SSCI)

• 特許発行年が1992年から2011年で3極(JP,US,EP)をパテントファミリーの中に含む特許情報を同定• 上記条件を満たす特許レコードに引用されている文献を同定• 特許と文献引用リンクテーブル: 2011年時点• 特許に引用されたWoS文献データ: 1981年以降

• データ項目• 特許公報番号(Patent Publication Number)、特許出願年、特許発行年、IPCサブクラス

(例:A01B)、特許出願国、特許出願人の居住国• WoS論文ユニーク番号(UT)、論文発行年、WoS250分野、ESI22分野、全著者所属機関の国

• 特許番号、その特許が引用しているWoS論文ユニーク番号

965/14/2015

ER図

Web of Knowledge

Thomson InnovationDWPI (LinkTable)

5/14/2015 97

Table Info (Patent)

カラム名 カラム定義名 データ型 BYTE

公開番号 PAT CHAR 16

出願年 AppYear CHAR 4

公報発行年 PubYear CHAR 4

• DWPI_INFO

• DWPI_IPCカラム名 カラム定義名 データ型 BYT

E

公開番号 PAT CHAR 16

IPCサブクラス IPC Varchar 4

カラム名 カラム定義名 データ型 BYTE

公開番号 PAT CHAR 16

特許出願国 AppCountry Varchar 2

• DWPI_AppCountry

• DWPI_AssCountryカラム名 カラム定義名 データ型 BYTE

公開番号 PAT CHAR 16

居住国 AssCountry Varchar 30

5/14/2015 98

Table Info (LinkageTable+Family)

• LinkTable

• FamilyTable

カラム名 カラム定義名 データ型 BYTE

公開番号 PAT CHAR 16

WoS論文ユニーク番号 UT Varchar 15

カラム名 カラム定義名 データ型 BYTE

アクセッション番号 AccNo CHAR 10

公開番号(PAT) PAT CHAR 16

5/14/2015 99

Table Info (Paper)

• WOS_INFO

• WOS_CATEGORY

カラム名 カラム定義名 データ型 BYTE

WoS論文ユニーク番号

UT CHAR 15

論文発行年 UTYear CHAR 4

ESI22分野 ESI Varchar

30

カラム名 カラム定義名 データ型 BYTE

WoS論文ユニーク番号

UT CHAR 15

WoSカテゴリ Category Varchar 50

• WOS_Country

カラム名 カラム定義名 データ型 BYTE

WoS論文ユニーク番号

UT CHAR 15

著者所属機関国 UTCountry Varchar 20

5/14/2015 100

4-2. サイエンスリンケージデータベースを用いた解析結果(preliminary)

5/14/2015 101

採録特許数と論文数の推移

0

10000

20000

30000

40000

50000

60000

70000

80000

900001

90

0

19

04

19

08

19

12

19

16

19

20

19

24

19

28

19

32

19

36

19

40

19

44

19

48

19

52

19

56

19

60

19

64

19

68

19

72

19

76

19

80

19

84

19

88

19

92

19

96

20

00

20

04

20

08

20

12

appyear pubyear wos_year5/14/2015 102

Patent Application Country

AT0%AU0%BE0%CA0%CH0%CN0%CS0%

DE2%

DK0%

EP27%

ES0%

FI0%

FR2%GB1%GC0%IE

0%JP0%KR0%LU0%NL0%NO0%NZ0%PL0%RU0%SE0%

US40%

WO28%

ZA0%

5/14/2015 103

ESI CategoryESI Category Number PercentClinical Medicine 224940 19.5%Biology & Biochemistry 182544 15.9%Chemistry 175132 15.2%Molecular Biology & Genetics 81736 7.1%Engineering 74388 6.5%Physics 73309 6.4%Immunology 54835 4.8%Pharmacology & Toxicology 50955 4.4%Microbiology 44728 3.9%Neuroscience & Behavior 43761 3.8%Materials Science 38522 3.3%Plant & Animal Science 33938 2.9%Computer Science 31547 2.7%Agricultural Sciences 17935 1.6%Environment/Ecology 5175 0.4%Geosciences 4341 0.4%Psychiatry/Psychology 4084 0.4%Multidisciplinary 3522 0.3%Social Sciences, general 3183 0.3%Economics & Business 1389 0.1%Mathematics 1163 0.1%Space Science 309 0.0%Total 1151436

Clinical Medicine Biology & Biochemistry

Chemistry Molecular Biology & Genetics

Engineering Physics

Immunology Pharmacology & Toxicology

Microbiology Neuroscience & Behavior

Materials Science Plant & Animal Science

Computer Science Agricultural Sciences

Environment/Ecology Geosciences

Psychiatry/Psychology Multidisciplinary

Social Sciences, general Economics & Business

Mathematics Space Science5/14/2015 104

Exercise 4:論文公刊から特許出願/公開までの年数を求めて, 特許出願年順に並べる• クエリ構文

select distinct linktable.pat, linktable.ut, wos_info.UTYear, dwpi_info.AppYear, dwpi_info.PubYear, dwpi_info.PubYear - wos_info.UTYear, dwpi_info.AppYear - wos_info.UTYearfrom linktable

Inner Join wos_infoON linktable.ut=wos_info.utInner Join dwpi_infoON linktable.pat=dwpi_info.pat

where ESI = "Physics"order by linktable.pat;

5/14/2015 105

Exercise 4:論文公刊から特許出願/公開までの年数を求めて, 特許出願年順に並べる• クエリ構文

select distinct linktable.pat, linktable.ut, wos_info.UTYear, dwpi_info.AppYear, dwpi_info.PubYear, dwpi_info.PubYear - wos_info.UTYear, dwpi_info.AppYear - wos_info.UTYearfrom linktable

Inner Join wos_infoON linktable.ut=wos_info.utInner Join dwpi_infoON linktable.pat=dwpi_info.pat

where ESI = "Physics"order by linktable.pat;

Select : 特許番号, 論文番号, 論文の公刊年, 特許の出願年, 特許の公開年, 特許の公開年-論文の公刊年, 特許の出願年 –論文の公刊年を表示する

from : linktableからデータを持ってくる

Inner Join : linktableに wos_infoを接続する. このとき, linktable.utをキーとして wos_info.utと対応するように接続する

Inner Join : linktableに dwpi_infoを接続する. このとき, linktable.patをキーとして dwpi_info.pat と対応するように接続する

where : ESI が”Physics” なデータのみを抽出する

order by : linktable.patの順番に並べる

5/14/2015 106

ER図で取得したデータの内容を確認する

Web of Knowledge

Thomson InnovationDWPI (LinkTable)

5/14/2015 107

Physics

0

5000

10000

15000

20000

25000

30000

0

2

4

6

8

10

12

14

# of patents 平均 / dwpi_info.AppYear - wos_info.UTYear 平均 / dwpi_info.PubYear - wos_info.UTYear

5/14/2015 108

他のデータベースとの接続

•特許データベースとはpub_number

•論文データベースとは wos番号

を用いることで, どのような組織がサイエンスリンケージを活用しているのか分析を拡張することができる

5/14/2015 109

5. 数字ではわからないこと:JST/RISTEX 長岡PJ「イノベーションの科学的源泉とその経済効果」

5/14/2015 110

特許や論文の情報ではわからない知識

• たとえば• (研究者や発明者が)こっそり使っていた技術/技法

• 企業秘密

• 研究や実験手法

• 研究設備

• 競合する企業による特許や論文

• JST/RISTEX 長岡PJ• 知識フロー分析 (特許や論文で測れる科学的源泉と, 特許や論文で測れない科学的源泉を調査)

5/14/2015 111

「イノベーションの科学的源泉とその経済効果」

1. 「源泉研究」• サイエンスからイノベーションへの知識の流れの経路 (学術文献、研究機器・試料、産学連携) を識別し包括的に捕らえ、また、サイエンスを活用するメカニズムや能力の理解を深める

2. 「知識フロー研究」• 特許における引用などの書誌情報がどの程度現実の知識フローを把握しているのか調査する

3. 「経済効果研究」• 新しい財、その効果 (寿命, 入院日数)、利益確保可能性• 知識の波及効果と競争メカニズム

• サイエンスベースのイノベーションの経済効果を分析し、その貢献を高めるための政策や制度設計の在り方を提言する

5/14/2015 112

研究手法

•事例調査

•サーベイ調査

•計量経済学的分析• 疾患分野 X 医薬品 X 年のパネルデータを作成

5/14/2015 113

日本の11 の革新的医薬の事例研究

• コンパクチン(※. 第二相臨床試験で開発中止)

1. メバロチン

2. クレストール

3. アクテムラ

4. オノン

5. アリセプト

6. リュープリン

7. ブロプレス

8. クラビット

9. ハルナール

10.アクトス

11.プログラフ

5/14/2015 114

大規模サーベイの実施実施体制 対象 回収数 備考

医薬品サーベイ 日本製薬工業協会研究開発委員会及び同医薬産業政策研究所と協力

日本企業オリジンのNME(新有効成分含有医薬品)の探索・開発プロジェクト(約1100プロジェクト)(1)1990以降に日本において承認(2)2012年時点において非臨床から~申請中、および(3)開発が中止されたあるいは現在留保に選択

探索:234プロジェクト(回収率約22%)、臨床開発:180プロジェクト(回収率17%)

日本製薬工業協会の会員企業トップレベルの了解を得て実施

発明者サーベイ 経済産業研究所と協力

日本と欧州に(そして大半の場合米国にも)特許出願されている発明2,689

843名(回収率は32.4%)

追加サーベイ

バイオベンチャー・サーベイ

バイオインダストリー協会と協力

約700社の日本のバイオベンチャーを対象

2012年度 約177社(15.3%)

毎年度実施

5/14/2015 115

JST 長岡PJ 事例調査知識フロー研究

• 特許・論文の(後方)引用情報、共著者及び共同発明者等の公表データが、現実の重要知識 (イノベーションに係る科学的源泉) のフローをどの程度捕捉しているか評価する

• サイエンスからイノベーションへの知識フローを定量的に把握する手法の開発

• 発明における引用• 従来技術の開示

• 米国特許では出願人の義務• 従来技術=発明の新規性・進歩性の評価に有用な文献

• 発明自体の説明• 発明を第三者が実施できるように開示

5/14/2015 116

(omited)

5/14/2015 117

Conclusion

•サイエンスからイノベーションへの知識フローの把握には、サーベイによる把握など補完的な手段の利用が重要

•共同研究を介した知識フローは共同発明者などのデータから把握可能

5/14/2015 118

Implication

•サイエンスリンケージの可視化・精緻化• サイエンスリンケージを精緻化するためには, 特許の非特許文献情報のみでは不十分. 特許内の本文内にある文献情報を抽出するアルゴリズムの開発が必要. (書誌テキスト分析などの援用)

• 特許⇔論文間のリンケージデータ (特許フロントページの引用非特許文献と特許番号のマッチング)整備は米国特許および欧州特許では進められている一方、日本特許および日本語文献ではサイエンスリンケージを特定するためには個別資料の精査が必要不可欠

• 日本特許の出願において出願人が非特許文献を開示する場合、雑誌や論文のID を併記することを推進し、データベースの整備を行う必要性

5/14/2015 119

まとめ

•特許や論文のデータを調べることで、知識の流れ (トラジェクトリ) や知識の生成過程 (社会的な構築プロセス) がわかるかもしれない

•特許や論文の書誌情報からわからない情報もたくさんある

• イノベーションプロセスを理解して有益な含意を導き出すには、いろいろな分析手法を組み合わせる必要がある

5/14/2015 120

Acknowledgement

• 文部科学省 SciREX 事業

• 「政策のための科学」基盤的研究・人材育成拠点事業(領域開拓拠点)イノベーションマネジメント・政策プログラム(Innovation Management and Policy Program:IMPP)

• 独立行政法人科学技術振興機構社会技術研究開発センターによる「科学技術イノベーション政策のための科学研究開発プログラム」: • 「イノベーションの科学的源泉とその経済効果」

• 「科学技術イノベーション政策の経済成長分析評価プロジェクト」

1215/14/2015