kk#blog: 2011

2011/10/27

ソフトウェア開発の発注から気づいたこと

以下の文章は、ソフトウエア技術者協会のメルマガの幹事コラムで執筆したものの転載です。
(蔵川圭, ソフトウェア開発の発注から気づいたこと, 幹事コラム, SEA-MAIL メルマガ版 2011 年第 10 号, 2011.10)

----
現在、国立情報学研究所で学術情報サービスのソフトウェアの開発を行っている。開発といっても、研究開発的なプロトタイプ作成から実際のサービスとして事業化するための発注と運用を行っている。SEAの仲間に加えてもらって活動をしはじめた頃には、ソフトウェアエンジニアリングとは何かということを大学に籍を置きながら本や論文を読んで、実際のソフトウェア開発ではいったい何が問題であるのかということに思いめぐらしていたことを思い出す。その頃から今に至るまで、一貫してソフトウェアの設計や開発はどうあるべきか、ということを心の中に抱き続けている。

ソフトウェアの仕組み、コンピューターがどう計算するのかという原理、どう設計開発するのかということを大学におけるカリキュラムや研究室の議論で学んだ。現在の居室の隣で毎日のように開講されている弊所の看板事業の一つであるTopSEの講座に立つ講師の声から想像される内容と大学にいたときに学んだことはおそらく同じである。これまでに、細かいことが理解できたかどうかはともかく、ソフトウェアエンジニアリングにはどのような議論や考え方があるのかを知ったことは今の仕事の基礎となっている。

国立情報学研究所にも、事業として提供している情報サービスがある。大学における図書館業務のシステムや、論文や研究助成に関連する学術情報のデータベースであり、それらはWeb上に公開されたエンタープライズシステムとなっている。日本の研究者の中には、NACSIS-CAT、CiNii、KAKENなどの学術情報サービス名を聞いたことがある人も多いと思われる。学術情報サービスというドメインは、ソフトウェアに要求される機能と要件が、よく授業で取り上げられる医療機器の組み込みシステムや大規模な証券システムとは異なる。少なくとも、学術情報サービスは、生死に直結するような品質を求められることもないし、金銭に絡んで紛争を起こすようなこともない。ただ、大学の先生や研究者の名誉や評判に関わるようなことには気を使う。

国立情報学研究所に来て事業システムの開発が仕事の一つとなり、最初に持った興味は、実際の開発はどのように行われているのかということであった。弊所では内製はしておらず、ソフトウェアの仕様を作成して発注する。開発者とは定期的に打ち合わせを行いながら詳細な仕様を決定していき、最終的にソフトウェアとドキュメントができあがる。ドキュメントには設計書やテスト仕様書、運用手順書などが含まれる。これらのすべてをもって、開発の様子を想像する。

弊所での開発体験から得た最初の気づきは、実際のソフトウェアは思うようには動いていないということであった。第二の気づきは、かならずしも大学で教えるような技術をすべての開発者が使っている訳ではないということであった。第三の気づきは、ソフトウェア開発の見積もりはできないということであった。こう言い切ってしまうと弊所の開発チームを無能呼ばわりしているような誤解を与えるが、そうではなくて、どんなに優秀なチームであってもこれらの問題に立ち向かいながら最終プロダクトをリリースするというのがソフトウェアプロジェクトの本質ではないかと思う。

これらのことが起きるのは、少なくとも私が関わっている開発では、初期の仕様を発注仕様書として与えてからプロジェクトがスタートし、徐々に詳細な仕様をつめていって最終プロダクトとして実現されるプロセスを追うからである。仕様詳細化のプロセスを追うとき、上流仕様変更は開発者が最も嫌い、仕様の詳細化にあたっても常に一貫性をもった詳細化が求められる。初期の発注仕様がおおまかな外部要求としてプロジェクトに投入されてからは、発注者としての私がどう詳細化したいかではなく、プロダクトはどう詳細化されたがっているかを常に考えるようにしている。詳細化の結果は論理的な思考のみに導かれる。詳細な仕様が初期の予想と異なっていても、そこに至る思考を明示することで、不思議と開発者は納得して仕様変更を受け入れる。

事業として開発を進めるときコストと納期を常に意識する。ソフトウェアエンジニアリングにおける技術を習熟したり適用したりするにも、コストと納期を意識した結果、あまり細かいことを問わない方が良い結果を生むときがある。むしろその技術の適用によって左右されるインパクトよりも、ソフトウェアを作る人の個性がもたらすインパクトの方が、大きく最終プロダクトの善し悪しを決めると思われる。そういった意味で、適材適所のチーム構成が最終プロダクトの性格を決める結果となることを体感している。

ソフトウェアの見積もりは、開発者との阿吽の呼吸になっている。詳細な仕様が決定していなければ細かい見積もりもできず、あまり細かすぎる見積もりはむしろそれにコストがかかってしまう。発注者の私ならこういう手順でこうプログラムを書いていくというワークを想像しながら、開発者の思いとすりあわせていく。コスト見積もり手法とはほど遠い。開発経験のない営業との折衝ではこの方法はまったく通用しなくなる。

ソフトウェア開発は仕様の決定と実装にかかわる連続的なコミュニケーションの結果であることを発注者の立ち位置から体験している。ここでは関係者全員が理性的であることを常に求められている。理性がコミュニケーションコストを最小にする唯一の方法ではないかと考えている。

最後に、現在もなお私の頭を悩ませていることがある。それは、ハードウェアについて見積もり合わせした結果一番安く想定した製品を購入できるように、まだあまり仕様のはっきりしないソフトウェアの開発案件を見積もり合わせして、結果的に一番安く、想定したソフトウェアを手に入れるうまい方法が見つからないことである。これは可能か、否か？これができれば官公庁のソフトウェア開発入札業務がもっと明瞭で合理的になるであろうに。

2011/07/29

OAI7

オープンアクセスに関する国際会議の一つCERN Workshop on Innovations in Scholarly Communication (OAI7)は、スイスのジュネーブにおいてプレカンファレンスイベントも含めて6月21日から24日まで開催された。今回のOAI7は、オープンアクセスムーブメントを主導するSPARC Europeが主催し、これまでの会議は2001年のCERNから始まってここジュネーブにおいて隔年で開催され、今回は7回目ということである。ヨーロッパのオープンアクセス活動の英知がここOAI7に集結している。

会議のオープニングは、初日の午後から始まり、まず、SPARC EuropeのディレクタAstrid Van Wesenbeeckから、オープンアクセスムーブメントを進め、オープンアクセスに関する知識を交換する会議の趣旨が示され、それを受けた会議の構成について紹介があった。続けて、ジュネーブ大学のVice Directorで図書館にもかかわるAnik de Ribaupierreから祝辞が述べられ、あわせて最近研究大学コミュニティにおいてリサーチポリシーについて、とくにオープンアクセスの議論をしたエピソードを披露された。出版した論文をリポジトリに登録する活動には様々な困難が伴うが重要であるということであった。また、ジュネーブ大学は設立450年ということもあわせて紹介された。続けて、チェアの一人であるロンドン大学のPaul Ayrisから、264人の参加があったこと、オープンアクセスロードマップがロンドン大学のサーバーで公開されたこと、会議スポンサーの紹介があった。

OAI7 Poster

Welcome Speech from Paul Ayris

会議は基本的にはシングルトラックで構成され、オープニング前のチュートリアルとディスカッションセッションの2つだけマルチトラックでセッションが展開される。チュートリアルは初日の午前に開催され、基本的なことからこれからの技術まで幅広く用意されている。具体的には、書誌の重複検出を行うMarcXimiL、CERNのリポジトリシステムINVENIO、MementoとOpen Annotation、OJS(Online Journal Systems)、ハーベスタおよびサブジェクトリポジトリ、初心者用OAおよびOAI講座である。INVENIOはCERNが提供しているリポジトリソフトウェアであり、CERNのDocument ServerやHEP（高エネルギー物理）分野のリポジトリであるINSPIRE、そのほかいくつかの機関で使われている。Open AnnotationはWeb上にあるアノテーションを関連付ける技術である。MementoはWebアーカイビングにおける時間を考慮した新しい技術であり、時間軸によるナビゲーションを可能とする。

Harvester tutorial by Friedrich Summann

チュートリアル、オープニングの次は、プレナリーセッションである。最初のセッションの司会はMementoやOpen Annotationの開発者であるHervert van de Sompelが務め、Towards Machine Actionable Scholarly Communicationという魅力的なテーマであった。研究者が学術コミュニケーションをWeb上で行うこと、Semantic Webの技術を利用した世界で行うことを前提とした、機械駆動の世界を描いている。発表の一つの題目として挙げられたNanopublicationは新しいキーワードの一つであり、RDF (Resource Description Framework)のSubject-Predicate-Objectを構成するトリプルを知識として出版し、トリプル同士を連携させて再利用して知識として引用し論文を執筆する。別の発表では、Open Annotationの技術を取り入れたマニュスクリプトアノテーションツールが紹介されていた。

Harvard van de Sompel and a speaker those who are duscussing a question

Audiences listening to a talk

Many participants argue and duscuss about their ideas during a coffee break.

30分のコーヒーブレイクをはさんで、グラスゴー大学のWilliam Nixonの司会でAggregationと題したセッションが開始する。メタデータを収集してサービスするシステムの発表が続いた。その中でもUKのDiscoveryというサービスはリポジトリからメタデータを収集したのち、使いやすいように再配布することを目的としている。使いやすさの対象は、ユーザーだけでなくマシンをも対象としてその双方を含む。

初日の夜は、ソーシャルイベントとして、CERNのGlobe of Science and Innovationと呼ばれる会場でレセプションがおこなわれた。CERNの50周年記念として建てられた、ジュネーブにおけるサイエンスの象徴ということだ。ここにきて目につくのはLarge Hadron Collidar (LHC)という世界最大の加速器の紹介ポスターである。LHCの外周は27Kmということだ。世界にはいくつもの加速器が稼働しているらしいが、たとえば日本のSpring8の外周は1.436Kmである。けた違いに大きい。これによって宇宙の原理を解明するという。

CERN Globe

Participants in the reception hall

レセプションでは、CERNに関係するローカルチェアのあいさつからはじまり、どこかでみたような液体窒素をつかった超伝導の実験もおこなわれ、会場はリラックスした雰囲気の中にも活気に満ちていた。そして、忘れてはならないのは、CERNの研究棟の見学のなかで、とある一角に「Web発祥の地」と書かれた看板があった。見学ツアーでは我々にもっとも関係のある場所だ。OAIではあたりまえに使っている技術の根源はここCERNにあったことを強く感じさせられる。なぜかここに来る直前に案内をしてくれた研究所の副所長から参加者全員は「Tim Berners-Lee」を連呼させられた。いい思い出ではある。

The panel of "Where the Web was Born" in a corridor of CERN research building

Visitors took a snapshot of "Where the Web was Born"

2日目の朝はAdvocacyのセッションから始まった。SPARC Europeの前ディレクターであるDavid Prossorの司会であった。本セッションで予定されていた最後のパネルディスカッションを中止して、Alma SwanがOpen Access Mapのベータ版が公開されたことを報告する。オープンアクセスに関するサイトのリストが一か所にあったほうがいいという。リポジトリだけでなく、ジャーナルサイト、ポリシー表明サイト、そのほかOAに関するものならなんでもありだ。フォームから自由に登録申請をすることができ、レビューを通過すると世界地図に反映される。

Surprisingly, Alma Swan introduced Open Access Map

続けて、アドボカシーについて、まず、南アフリカのUniversity of Pretoriaの例、UKのグラスゴー大学の例が紹介された。グラスゴー大学では、リポジトリとCRIS(Current Research Information System)が統合されたシステムがあり、とくにCRISは学内システムの中心に位置している。People, Processes, Policiesが大事だということだ。また、続けて米国SPARCディレクタのHeather Josephによるホワイトハウスへのロビイングに関する報告があった。

SPARC Director, Heather Joseph gives a talk of OA advocacy

2日目の午前は、コーヒーブレイクも兼ねたポスターセッションが行われた。筆者は、このポスターセッションで日本のリポジトリのハーベスタであるJAIROの著者検索フレームワークについて紹介した。筆者の発表内容の本質は以下のユースケースで説明できる。リポジトリのメタデータのクリエイターフィールドにID属性を付加し、ここに著者を表すURIを挿入する。JAIROはこのメタデータをハーベストし、研究者リゾルバーに統一的な研究者リゾルバーのIDへの変換問い合わせし、JAIROはこのIDを基礎に著者検索機能を提供する。この研究者リゾルバーIDもURIとしてあらわすことができる。一方で、研究者リゾルバーはリポジトリのIDと研究者リゾルバーのIDとのマッピングテーブルをあらかじめ構築しておく。マッピングテーブルを構成する一つの方法は、機関がアップロードする研究者プロファイルに基づく。ハーベスターレベルのIDによる著者検索はまだ世界でも不十分であり、JISCの職員やMicrosoft Researchのエンジニアなど幾人かの参加者からJAIROの著者検索を実現するフレームワークに対して興味深く質問された。

Conference Venue, the University of Geneva, Uni Mail Building

My poster hanging on the wall of Uni Mail Building

さらに、午後は、オープンアクセス出版について報告があった。SOAP (Study of Open Access Publishing)プロジェクトの報告、PEER (Publishing and the Ecology of European Research)プロジェクトの報告、いずれも、OA出版に関する現状分析とOA出版の特徴について分析結果をまとめている。続けて、Mark PattersonによるPLoS (Public Library of Science)の紹介である。PLoSは、成功したオープンアクセス出版者の一つである。MarkはPLoSプラットフォームの機能を紹介していた。彼の発表の中で興味深かった視点は、今後の学術出版におけるコミュニケーションとして、ある記事がOA出版された後、様々なデータやブログ記事で”Post-publication content enhancement”する2段階になるといっているところであった。

その後続けて、6つのトラックに分かれるディスカッションのセッションが開始された。それぞれのトラックのテーマは、次世代OAI-PMH、OA出版、リサーチデータ、アグリゲーティングサービス、アドボカシー、オープンサイエンスであった。筆者は、次世代OAI-PMHのセッションに参加したが、これはOAI-PMHを作ったHarvard van de Sompelが出席するからであった。彼がディスカッションの最中、プロトコルを作る際にもう一度学術コミュニケーションを考え直してみればいいと述べていたのは印象的であった。

3日目の朝一番はオープンサイエンスというセッションであった。これは、サイエンス自体が開かれたものであるという主張である。Citizen Cyberscienceがこれからくるという発表があった。＊＊＊＠HOMEという個人が自宅のコンピュータを貸して、科学的な計算をしようというようなものだが、これがたくさんのプロジェクトとして浮上しているということだ。次に、無料のレファレンス管理ツールとしては成功したMendeleyの紹介があった。SNSの機能と融合しているところが特徴である。PLoSのAPIとMendeleyのAPIを合わせてアプリケーションを作るコンテストの紹介もあった。

a snapshot after Mendeley co-founder, Victor Henning gave a presentation about his businness

最後のセッションは、Research Dataであった。Anja Jentzsch からLinked Dataについて活動の紹介があった。彼女は、CKANというData HubのLOD Cloud Data Catalogをつくっている作者である。続けて、最後の発表は、マックスプランク所属のPeter Wittenburgからリサーチデータに関するヨーロッパにおけるビジョン作成するグループ(High Level Expert Group)の成果報告であった。

最後に、クロージングスピーチとなり、SPARC EuropeのディレクタのAstrid van Wesenbeeckと、ロンドン大学のPaul Ayrisからまとめの言葉で締めくくられた。次は2年後に会いましょうということであった。

OAI7という会議に初めて出席したが、招待講演のみによる内容の濃い発表で埋め尽くされていた印象があった。基礎的技術を作った著名人とそれをとりまく熱意ある人々、これからも続くであろう現実的で実務に根差した議論とその実践がこの場所に集まってくる。ヨーロッパを中心として世界中から、オープンアクセスとウェブという2つのキーワードが融合するところ、これから訪れる学術コミュニケーションの在り方を模索しようと、アカデミアを志向する人々が集まって、それぞれが実践者としての次の一歩を確かめようとしていた。

【追記】
本文では触れなかったが、OAI7に併設されていくつかのミーティングが催された。これらも大変内容の濃いものであったので、軽く紹介しよう。

プレカンファレンスイベントは本会議の前日に開催され、リポジトリソフトウェアであるDSpaceとIslandoraのユーザーグループミーティングが開かれた。DSpaceのユーザーグループミーティングはベルギーに本社のある@mireというカスタマイズおよび運用を支援するソフトウェア企業が主催した。朝から夕方まで一日行われ、リポジトリ関連の講演とDSpaceの新しい機能紹介があった。@mireはDSpaceのコミッターの中でも目立っている企業である。

a scene during the DSpace user group meeting presented by @mire

また、OAI7の昼休みの時間を使って、COAR(Confederation for Open Access Repository)のBOF(Birds of a Feather)が1時間ほど行われた。3つあるワーキンググループの報告があり、どちらかというと顔合わせに近い感じの会だった。

BOF (Birds of a Fether) of COAR where the officer, Birgit Schmidt chaired

そして、これが最も熱い内容の併設イベントであったが、SITS(The Scholarly Infrastructure Technical Summit)ミーティングというのがあった。OAI7のクロージングが終了して、配られたランチバッグを持ち寄って、ミーティングが始まる。招待制のJISC主催の会議で午後と次の日の午前中の合計2回集まった。集まったメンバーは、Duraspaceのスタッフや、EPrintsの開発者、Microsoft Researchのエンジニア、アメリカやイギリスのシステムズライブラリアンなど、システムエンジニアの面々が集まっている。これはとりわけテクニカルなインフラについてブレインストーミングをする会議で、議論する内容と優先順位をその場で決めていく。もちろんテーマとしては、OAI7においてとりあげられたホットトピックである。この時の最初のトピックはResearcher Identificationであり、筆者がポスターで発表したテーマと同じであった。そのときの議事録はこちら。

SITS meeting started

the second day in the morning of SITS meeting in a cafe. well-known Les Carr took in the left side

英国、米国、オーストラリアのネイティブ3か国＋日本、容赦ない英語の議論でした。（楽しかった～。:-)）

2011/07/14

OR2011

第6回オープンリポジトリ年次国際会議(Open Repositories 2011)は、プレカンファレンスイベントを含めて、2011年6月6日から11日までの6日間、米国テキサス州オースティンにあるテキサス大学オースティン校、AT&T Conference Centerで行われた。今回の会議のテーマは、“Collaboration and Community: The Social Mechanics of Repository Systems”であり、リポジトリシステムの開発者、マネージャ、ユーザーが融合してソーシャルダイナミクスを生み出し、システムは持続的な成長を続けていくという意味が込められた。

プログラムチェアのTom Cramerによると、250以上の著者から160件の投稿があり、24件のジェネラルトラック論文、4ブロックの24x7（24件）、3件のパネル、36件のポスターが採択された。会議は、3日にわたるメインカンファレンスとともに、2日にわたるDSpace, ePrints, Fedoraのユーザーグループミーティング、2日にわたるワークショップ、チュートリアル、ワーキンググループミーティングで構成された。参加者登録人数は300人を超えた。

メインカンファレンスは中3日間で行われ、初めのオープニングプレナリーは、Apacheソフトウェア財団 (Apache Software Foundation)のPresidentであるJim Jagielskiによる講演であった。Jagielski氏はApache ソフトウェア財団の設立者の一人であり、コミッターを長年務めている。講演では、オープンソースについて、特にApacheソフトウェア財団の組織の構成と、オープンソースコミュニティの在り方についてスピーチされた。今ではオープンソースコミュニティそのものは開発スタイルとして一般に受け入れられるものとなっているが、健康な(Healthy)コミュニティこそが質の高いソフトウェアを生み出していると指摘していることは印象的であった。リポジトリソフトウェアの、特に、DSpaceやFedoraはオープンソースコミュニティによって開発されている典型であり、Apacheの開発スタイルを参考にすることは開発コミュニティそのものを持続していくうえで重要なことであろう。

Opening Plenary: Jim Jagielski, President, Apache Software Foundation

Slide title of the Jagielski’s talk

Audiences for the opening plenary speech

続けて、2つのパラレルトラックに分かれて、ジェネラルセッションが行われた。初日のセッションのテーマは、セマンティックWebとLinked Data、クラウドソリューション、SWORD、識別子とオーソリティであった。2日目のセッションのテーマは、大規模な保存とアクセス、プラットフォームの進化、よりよい学術コミュニケーション、コラボレーションフレームワーク開発、リポジトリサービスへのコミュニティ参画、データ共有と再利用、ソーシャルネットワーク、国の視点とアプローチ、であった。また、今回から24x7という24枚のスライドで7分間発表するという形式のセッションが新設された。従来のポスターセッションとジェネラルセッションの中間に位置するセッションである。これも、ジェネラルセッションと混ざって2つのパラレルトラックに分かれて行われた。テーマは、福袋(Grab Bag)－今までとは全く違うもの、コミュニティ、ツール、であった。

ジェネラルセッションの発表の中で、筆者に関係の深い著者識別子関係の3件の発表に触れる。1件目は、ANDS(Australian National Data Service)の支援を受けて実施された、オーストラリアのサウザン・クイーンズラインド大学と、ニューキャッスル大学、スウィンバーン工科大学と発表者Peter Sefton、Duncan Dickinsonらソフトウェア開発者の共同による、オーソリティコントロールサービスMintである。彼らはもともとデータのリポジトリを持っており、セマンティックWebを作り上げるにはそれらのデータに対してそれぞれリンクをしなければならないという認識の下、たとえば著者のIDや統制された語彙をリンク先としてサービスするシステムを考案している。Mintは、語彙と名前をスプレッドシートや、SKOS、スクリプトを介して簡単にインポートし、また、内容をJSONで返却するルックアップサービスを備える。2件目は、MITのRichard RodgersによるORCIDの紹介である。ORCIDのシステムは、学術関連の著者IDの公開レジストリとして紹介された。開発のタイムラインとしては、2011年中にプロダクションシステムのベータ版を構築し、2012年初頭から一般の登録を開始するということであった。また、図書館サイドのワークフローを付け加え、自組織の研究者のパブリケーションを研究者のIDに結び付ける作業を80パーセント自動で、20パーセント手動で行うことを示した。3件目は、香港大学のDavid Palmerによる、The HKU Scholars Hubの紹介である。これは香港大学の研究者ディレクトリであり、研究業績として出版リスト、指導した学生のリスト、研究助成、ビブリオメトリクスが表示される。表示内容は細かく入力可能であり、表示設定できるようになっている。概してよく作りこまれている。特にビブリオメトリクスは外部サービスのIDをもとに引用している点が目を惹く。Scopus, BiomedExperts, PubMed, ResearcherID, Microsoft Academic Search, Google Scholarである。

Coffee break: everyone talk each other outside of the main hall

初日の最後は、ポスターレセプションである。ポスターレセプションでは、ポスター会場に用意されたワインやビールなどのお酒を片手に、興味のあるポスター展示の前でポスター発表者と気軽に議論できるようになっている。ポスターレセプションに先立って、ポスター1件当たり1分間の説明時間が割り当てられるMinutes Madnessと呼ばれる一大セッションがある。ここでは壇上に順番に発表者が並んで、総勢36人の説明が矢継ぎ早に繰り広げられる。興味のあるポスターをここで探すというわけである。筆者はここのポスター発表に採択されたので1分スピーチを行った。筆者は、Web上の日本の研究者の著者名典拠として研究者リゾルバー（Researcher Name Resolver）を開発しており、ポスターではこれを用いて、日本の機関リポジトリポータルであるJAIROにおいて正確な著者名検索を実現するフレームワークを紹介した。ポスター会場では、テーマが適時だったためか、多くの参加者とコミュニケーションをとることができた。写真は筆者のポスターを映し出している。

My poster presentation in the poster room

2日目の後半は、ディベロッパーチャレンジという、お題は1か月前に与えられるが、カンファレンス開催期間内にも特別に用意された部屋で最後まで開発して、参加者の前に披露するセッションがある。今回のお題は「未来のリポジトリを見せる」であった。写真はデモンストレーションの場面である。開発者コミュニティを育てる企画であり、発表後は会場にいる人たちの拍手でまるでテレビ番組のようにその時の点数が決められる。ただし、その後のレセプションで表彰される優勝者は必ずしも拍手の点数で決められたわけではなく、本質的に有用だと思われる機能を紹介したチームであった。審査員は実務的観点からアイディアを見ているのだろう。

A scene in the developer challenge

3日目の朝は、クロージングプレナリである。締めくくりにふさわしく、学術コミュニケーション技術のオピニオンリーダーであるCNI(Coalition for Networked Information)のClifford Lynchであった。彼は「Repositories: Major Progress and Open Questions」というタイトルでリポジトリの今を概観した。リポジトリに関するディスカッションはどこまで達成したか。まず一つは、一連のクリティカルディスカッションのフォーカスポイントを提供してきたことがあげられる。2つ目は、IRが様々な人たちを含んだコラボレーションのフォーカルポイントとなったことである。この2つは、学術コミュニケーションのランドスケープを変えるほどに達成したことであるという。

続けて、Lynchはまだ答えのない問題が残っていると指摘する。IRだけでなく出版全体の名前典拠の問題、IRメタデータ＆発見サービスの問題。また、観察によると、IRとそれをとりまく学術システムの発展の仕方はばらばらであること。学習管理システム(LMS: Learning Management Systems)はいまどこにでもあるが、IRとの関係は不明。講義キャプチャシステム(Lecture Capture Systems)は、LMSより有用だが、どうしてキャプチャするのかという議論がなく、IRとの関係も不明。また、よくわからないのは、IRがワークフローに手をどこまで伸ばしていくか。大きくなったデータセットをどうするかも問題。最後に、バーチャル組織はIRを使うとして、組織が終了したらどうなるのかということ。また、長期的な責任問題として機関にどうマップするのか。他には、ソフトウェア。これは多くの関心を集積したものであり、データの再利用は難しい。それらを使った結果の出所がはっきりしない。そういうソフトウェアをリポジトリがどう扱うか。リタイヤした教員のリポジトリコンテンツ、大学を超えたIRの再解釈、などである。

最後は、オープンイッシューについて触れた。保存に関するアイディア。単一障害点を取り除く地理を考慮したコピー。異なる機関で重複したプリントを持つなどが考えられる。長期的保存について機関がコミットする意思があるかどうかを確認し、なければ別の機関へ手渡す必要もある。また、これからの話として増えていくコレクションをどうするか。機関と社会との関係の再考をしていく必要があるという。IRは単独では存在しえないからとうことだ。

Lynchのリポジトリを取り巻く考察を、聴衆は次の課題としてとらえられたに違いない。

Closing Plenary: Clifford Lynch (Coalition for Networked Information)

メインカンファレンスが終了すると、続けてDSpace、Fedora、EPrintsのユーザーグループミーティングが始まった。45件ほどの発表が複数の会場で2日間続く。

筆者はDSpaceを中心にして参加した。ここでの印象は、DSpaceはコミュニティを重視しているということである。コミュニティを盛り上げていくことが、DSpaceというシステムを継続して発展させていく原動力であるということだ。写真はSandy PayetteがDuraspaceの歴史を振り返る一コマである。彼女は近々学位を取るということで、あたかもDuraspaceの活動を卒業するかのような発言が見られた。

Sandy Payette in the Duraspace User Group Meeting

これでOR2011は終了する。しかし、順番は前後してしまうが、プレカンファレンスミーティングを付け加えてぜひ紹介したい。プレカンファレンスミーティングは、メインカンファレンスの前日に2日間にわたって行われた。リポジトリに関係のあるグループが普段Face to Faceで議論できないメンバーが集まって活動する場として企画される側面もある。リポジトリ関連企業が社内の活動や宣伝を兼ねてセミナーを開くものもある。

筆者はDSpaceの開発者ミーティングに参加したのでそれについて紹介する。実は、このDSpaceの開発者ミーティングこそがリポジトリ開発の真髄ではないかと思うような熱気がここにはあった。朝から夕方までほぼ一日、Lead DeveloperのTim Donohueの司会の下、30人ほどの参加者が日頃のネット上での議論を交わしている。多くの参加者は、普段DSpaceの運用マネージャでありアドバイザーで構成されるDCAT(DSpace Community Advisory Team)と、開発コミッターである。

ここでは、これからのDSpaceはどうあるべきかについて網羅的にブレインストーミングが行われた。実務の延長としての機能を全員で列挙していった。また、それとは別に、より具体的なことを決議していく。時期リリースとしてDSpace1.8.0の機能について担当者を明確にしながら確定し、また、バージョンナンバリングスキームについてディスカッションした。さらに、Google Summer of Code、Fedora Inside、 DSpace1.8.0のプランニングについて報告された。Google Summer of Codeの事例はDSpaceがプログラミング教育に使われていることが見て取れる。写真はミーティングの様子を示している。

DSpace developer meeting: hot discussion enthusiast together

その他にも、マイクロソフトリサーチの活動の紹介や、Fedora、Hydra、Curation TaskについてのBOFなど15コマほど用意されていた。

今回のOpen Repositoriesも昨年同様大変な熱気に包まれて、有意義な経験ができた。ここでは生きたリポジトリ開発、ひいてはWeb上の学術コミュニケーションシステム構築へのエネルギーが渦巻いている。年に一回の充電をここでするのはよいことだと思う。

おまけ。会場近くのテキサス州議会議事堂。そびえたっていました。

Texas State Capitol: standing on the ground

2011/05/16

KAKENのRDFを利用した共同研究者ネットワークの可視化

国立情報学研究所が提供する科学研究費補助金データベースKAKENは、科学研究費補助金の研究課題と研究者を検索できるシステムである。現行のシステムは2009年4月にリリースされ、以来、研究課題が開始される年度初めや9月の申請時期に多くの研究者に利用されている。広く一般に、どのような研究課題がありどのような成果があげられているのかを閲覧できるツールとなっている。

KAKENの収録範囲は、採択課題情報については1965年から、実績報告書と成果報告書概要については1985年から今日までである。2008年からは従来の紙の報告書からPDF版へと媒体を変えて、成果報告書が公開されている。自己評価報告書は新たに2008年から追加された中間報告書である。

KAKENに収録される情報は、採択課題情報を文部科学省から電子データのコピーの提供を受け、現在でも紙で提出される実績報告書、成果報告書概要についてはパンチ入力によって国立情報学研究所がデータ作成している。PDF版で提出される成果報告書と自己評価報告書についても、メタデータ抽出にあたってパンチ入力によってデータ作成している。

これらのデータは、クリーニング処理をへたのち、データベースへ投入される。少なくとも、データベースのキーとなる項目については完全なクリーニングが必要となっている。たとえば、研究課題番号や研究者番号である。データが作成されるまでに人間のかかわるところはすべてデータバグの可能性があり、研究者自身の報告書に記載される段階やパンチャーがパンチ入力する段階に起こる。あまりデータクリーニングをしてこなかった研究分担者の研究者番号を取り上げて調査したところ、10パーセント程度誤っていることが分かっている。

クリーニングによってデータの整合性を極限まで高めることによって、はじめて信頼できるデータベースが構築できる。継続的に蓄積されるこれらの情報は資料的価値が高く、2次利用されることも期待されている。

Tim O’Reilly のいうGovernment 2.0では、政府はオープンプラットフォーム化しなければならないという(“government itself become an open platform that allows people inside and outside government to innovate”)。
政府がデータを一般に提供し、よいアイデアを持った者がWeb2.0の技術をベースにデータを利用し、よりイノベーティブで価値あるサービスを多く生むことが期待されるというものだ。政府のデータはオープンでしかるべきであり、オープンなイノベーションに寄与するべきというのである。この考え方に通じる政府のデータ提供サイトは、米国ではdata.gov であり、英国ではdata.gov.uk である。

国立情報学研究所のKAKENもこれらと同じくGoverment2.0のコンセプトと同様に、Web2.0の技術を利用することを前提に、オープンでかつスタンダードなデータ提供基盤であろうとしている。2010年6月から機械処理のためのAPIを備え、研究課題と研究者のURIを提供し、そのURIに対して成果情報データをRDF (Resource Description Framework)によって提供している。

KAKENのRDFを使うことによってたとえば、次のようなインターラクティブに動作する共同研究者のグラフをリアルタイムにブログ上に描くことができる。グラフの中心にいる研究者に対し、科研費の研究課題の共同研究者がリンクによってつながれている。中心以外の研究者名をクリックすると、その研究者に関連する科研費研究者番号およびKAKENの研究者ページへのリンク、キーワードが右側の白い枠に列挙される。また、グラフはクリックした研究者の共同研究者を追加して最適な配置で再描画される。次々と研究者名をクリックしていくことで、共同研究者のネットワークが明らかになる。また、右上の研究者番号のGOをクリックすれば、グラフはその研究者番号の研究者を中心として再描画される。研究者番号を書き換えて、新たな研究者に関するグラフを描きなおすこともできる。グラフ上に表示されるデータは、グラフ内のプログラムが筆者のラボ上に置かれたサーバープログラムを介してリアルタイムに取得している。グラフ内のプログラムはJavaScriptで記述されており、サーバープログラムへJSONパディングしたコールバク関数を呼び出して非同期通信している。サーバープログラムは、コールバック関数の呼び出しに応じて、KAKENからRDFフォーマットでデータを取得している。また、グラフ表示にはJavaScript InfoVis Toolkitを用いた。

（ここにインタラクティブに操作できるアプリがありましたが、重いのでコメントアウトしました。下の絵をクリックして、別ページでグラフを操作できます。）

操作は、背景をドラッグしてグラフを移動し、マウスのホイールを上下にスクロールするとグラフの拡大縮小になる。

筆者の共同研究者のグラフは少なくて操作はしやすいが、次に示すように国立情報学研究所の所長の例のように多数の共同研究者がいて大きなネットワークが構成されている場合もあろう。

ここに示したグラフはブログの掲載幅に合わせて小さいものを開発して例示している。より大きなグラフを操作するために、このリンクをたどった先で共同研究者のネットワークを探索してみてほしい。ここでは、グラフの中心は常にクリックした研究者となっている。下の例のように大きなグラフをブラウズできる。

登録: 投稿 (Atom)

kk#blog