2011/05/16

KAKENのRDFを利用した共同研究者ネットワークの可視化

国立情報学研究所が提供する科学研究費補助金データベースKAKENは、科学研究費補助金の研究課題と研究者を検索できるシステムである。現行のシステムは2009年4月にリリースされ、以来、研究課題が開始される年度初めや9月の申請時期に多くの研究者に利用されている。広く一般に、どのような研究課題がありどのような成果があげられているのかを閲覧できるツールとなっている。

KAKENの収録範囲は、採択課題情報については1965年から、実績報告書と成果報告書概要については1985年から今日までである。2008年からは従来の紙の報告書からPDF版へと媒体を変えて、成果報告書が公開されている。自己評価報告書は新たに2008年から追加された中間報告書である。

KAKENに収録される情報は、採択課題情報を文部科学省から電子データのコピーの提供を受け、現在でも紙で提出される実績報告書、成果報告書概要についてはパンチ入力によって国立情報学研究所がデータ作成している。PDF版で提出される成果報告書と自己評価報告書についても、メタデータ抽出にあたってパンチ入力によってデータ作成している。

これらのデータは、クリーニング処理をへたのち、データベースへ投入される。少なくとも、データベースのキーとなる項目については完全なクリーニングが必要となっている。たとえば、研究課題番号や研究者番号である。データが作成されるまでに人間のかかわるところはすべてデータバグの可能性があり、研究者自身の報告書に記載される段階やパンチャーがパンチ入力する段階に起こる。あまりデータクリーニングをしてこなかった研究分担者の研究者番号を取り上げて調査したところ、10パーセント程度誤っていることが分かっている

クリーニングによってデータの整合性を極限まで高めることによって、はじめて信頼できるデータベースが構築できる。継続的に蓄積されるこれらの情報は資料的価値が高く、2次利用されることも期待されている。

Tim O’Reilly のいうGovernment 2.0では、政府はオープンプラットフォーム化しなければならないという(“government itself become an open platform that allows people inside and outside government to innovate”)。
政府がデータを一般に提供し、よいアイデアを持った者がWeb2.0の技術をベースにデータを利用し、よりイノベーティブで価値あるサービスを多く生むことが期待されるというものだ。政府のデータはオープンでしかるべきであり、オープンなイノベーションに寄与するべきというのである。この考え方に通じる政府のデータ提供サイトは、米国ではdata.gov であり、英国ではdata.gov.uk である。

国立情報学研究所のKAKENもこれらと同じくGoverment2.0のコンセプトと同様に、Web2.0の技術を利用することを前提に、オープンでかつスタンダードなデータ提供基盤であろうとしている。2010年6月から機械処理のためのAPIを備え、研究課題と研究者のURIを提供し、そのURIに対して成果情報データをRDF (Resource Description Framework)によって提供している。

KAKENのRDFを使うことによってたとえば、次のようなインターラクティブに動作する共同研究者のグラフをリアルタイムにブログ上に描くことができる。グラフの中心にいる研究者に対し、科研費の研究課題の共同研究者がリンクによってつながれている。中心以外の研究者名をクリックすると、その研究者に関連する科研費研究者番号およびKAKENの研究者ページへのリンク、キーワードが右側の白い枠に列挙される。また、グラフはクリックした研究者の共同研究者を追加して最適な配置で再描画される。次々と研究者名をクリックしていくことで、共同研究者のネットワークが明らかになる。また、右上の研究者番号のGOをクリックすれば、グラフはその研究者番号の研究者を中心として再描画される。研究者番号を書き換えて、新たな研究者に関するグラフを描きなおすこともできる。グラフ上に表示されるデータは、グラフ内のプログラムが筆者のラボ上に置かれたサーバープログラムを介してリアルタイムに取得している。グラフ内のプログラムはJavaScriptで記述されており、サーバープログラムへJSONパディングしたコールバク関数を呼び出して非同期通信している。サーバープログラムは、コールバック関数の呼び出しに応じて、KAKENからRDFフォーマットでデータを取得している。また、グラフ表示にはJavaScript InfoVis Toolkitを用いた。

(ここにインタラクティブに操作できるアプリがありましたが、重いのでコメントアウトしました。下の絵をクリックして、別ページでグラフを操作できます。)

操作は、背景をドラッグしてグラフを移動し、マウスのホイールを上下にスクロールするとグラフの拡大縮小になる。

筆者の共同研究者のグラフは少なくて操作はしやすいが、次に示すように国立情報学研究所の所長の例のように多数の共同研究者がいて大きなネットワークが構成されている場合もあろう。




ここに示したグラフはブログの掲載幅に合わせて小さいものを開発して例示している。より大きなグラフを操作するために、このリンクをたどった先で共同研究者のネットワークを探索してみてほしい。ここでは、グラフの中心は常にクリックした研究者となっている。下の例のように大きなグラフをブラウズできる。