2013/04/08

JAIRO 著者検索

日本国内の機関リポジトリで公開されたコンテンツを横断検索可能なポータルJAIROに対し、ユーザーインターフェースを見直し、著者識別子で検索する機能を追加し2013年3月22日に公開した。ここでは、追加した著者識別子で検索する機能を紹介する。
--------------------

学術論文などのコンテンツを検索する際、コンテンツのキーワードを検索条件として検索結果を得るのが最も一般的な手順である。一方で、コンテンツの作者を指定して検索することもあるであろう。論文を例にとれば、論文に記述された知識をキーワードをたよりに検索し、知識の関連性を確認しながら読み進めていくことになる。論文どうしの引用関係をたよりに論文をたどっていくこともある。論文の重要性が被引用の数として現れるからである。そして、時々、論文の著者を指定して検索する。論文の著者を指定することで、ある研究者がもたらした研究の発展の方向をたよりに知識の展開を確認できるからである。

著者を指定して検索する時、著者名を検索条件に指定することがまず思い浮かぶ。しかし、名前には曖昧性の問題(Name Disambiguity Problem)があるため、この方法では十分でないことがわかる。それは以下のような理由による。論文の著者の中には同姓同名の異人が存在し、母集団の規模が大きければ大きいほどその割合が増える[蔵川, 2009]。また、研究者は婚姻を境に本名を変更した時、論文に記載する名前を追従して変更する場合もあるし、旧姓のまま記載続ける場合もある。論文が欧文雑誌に掲載される場合は、日本人を含めた漢字圏の研究者は漢字名を翻字に変えてアルファベット表記する。アルファベット表記の名前は、姓名表記の大文字小文字、省略形を雑誌によって指定される場合があり、表記が揺れる。

このような名前の曖昧性の問題を解決する方法は、著者に識別子を付与することである。論文の著者に識別子を付与するタイミングとしては、既に出版された論文の著者に識別子を付ける場合と論文の発表と同時に著者に識別子を付ける場合とがある。識別子を付与する方法は、計算機によって自動で処理する方法と人手によって付与する方法がある。機関リポジトリでは、既に出版された論文を機関リポジトリに掲載するタイミングで、人手で書誌のメタデータを作成する際に著者名を記述しつつ著者識別子を付与していく。

日本の機関リポジトリを対象とした横断検索ポータルJAIROで著者検索を実現するためには、JAIRO全体で一意に指定された整合性のある著者識別子が著者に付与されている必要がある。JAIROは著者識別子に研究者リゾルバーの提供する研究者識別子を用いる[Kurakawa, 2012]。

JAIROは著者フィールドに著者識別子が付与されたメタデータを機関リポジトリから収集する。もっとも簡便なケースは、以下のようにメタデータの著者識別子属性(creatorフィールドのid属性)に研究者リゾルバーの研究者URIが挿入される場合である。このためには、機関リポジトリの担当者はメタデータの著者フィールドに研究者リゾルバーの識別子を紐づけ、junii2のメタデータフォーマットのcreatorフィールドにid属性を付加して識別子をURI形式でメタデータ出力するようにクロスウォークを設定しさえすればよい。研究者リゾルバーの識別子は、科研費データベースKAKENに掲載された8桁数字の研究者番号を再利用して構成しているため、科研費の研究者番号を著者の識別子として利用している機関リポジトリでは、クロスウォークで8桁数字の先頭に”10000”の5桁の数字を付加して研究者リゾルバーの研究者URIに変換してid属性に挿入すればよいということになる。

 <?xml version="1.0" encoding="UTF-8" ?>  
 <OAI-PMH   
  xmlns="http://www.openarchives.org/OAI/2.0/"   
  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"   
  xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">  
  <responseDate>2011-05-26T13:34:09Z</responseDate>  
  <request metadataPrefix="junii2" verb="GetRecord" identifier="oai:ir.lib.shizuoka.ac.jp:10297/5644">http://ir.lib.shizuoka.ac.jp/dspace-oai/request</request>  
  <GetRecord>  
   <record>  
    <header>  
     <identifier>oai:ir.lib.shizuoka.ac.jp:10297/5644</identifier>  
     <datestamp>2011-05-22T08:02:22Z</datestamp>  
     <setSpec>hdl_10297_24</setSpec>  
    </header>  
    <metadata>  
     <junii2   
      xmlns="http://irdb.nii.ac.jp/oai"   
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"   
      xsi:schemaLocation="http://irdb.nii.ac.jp/oai http://irdb.nii.ac.jp/oai/junii2.xsd">  
      <title>Orientation-dependent epitaxial growth of GaAs by current-controlled liquid phase epitaxy</title>  
      <creator>Mouleeswaran, D.</creator>  
      <creator id=“http://rns.nii.ac.jp/nr/1000001133354”>Koyama, T.</creator>  
      <creator id=“http://rns.nii.ac.jp/nr/1000048520242”>Hayakawa, Yasuhiro</creator>  
      <NDC>459</NDC>   
      <description>The orientation dependence of the selective epitaxial growth of Gallium Arsenide (GaAs) has been investigated to achieve a thick epitaxial layer for application to X-ray detectors. Selective epitaxial growth was carried out on patterned GaAs with [0 1 1], [0 1 2], [0 1 0], [0 1 −2], [0 1 −1] and their equivalent seed orientations by current-controlled liquid phase epitaxy (CCLPE). SiO2 was used as a mask layer to fabricate the various seed orientations on the Si-doped GaAs (1 0 0) substrate and various growth periods and current densities were considered. Solute transport in the solution was enhanced by the electromigration of solute by an applied DC electric current, which caused an incremental growth in vertical and lateral directions in all orientations. The highest vertical thickness of 268 μm in the [0 1 −1] orientation and the largest lateral growth of 318 μm in the [0 1 2] orientation were achieved at 7.5 A cm−2 current density for 6 h. The seed aligned in the [0 1 2] orientation was favorable for high lateral growth of GaAs. The [0 1 1], [0 1 0] and [0 1 −2] seed orientations were suitable for application in a GaAs X-ray detector.</description>  
      <publisher>Elsevier</publisher>  
      <NIItype>Journal Article</NIItype>  
      <format>application/pdf</format>  
      <URI>http://hdl.handle.net/10297/5644</URI>  
      <fullTextURL>http://ir.lib.shizuoka.ac.jp/bitstream/10297/5644/1/110520001.pdf</fullTextURL>  
      <jtitle>Journal of Crystal Growth</jtitle>  
      <issn>00220248</issn>  
      <NCID>AA00696341</NCID>  
      <volume>321</volume>   
      <issue>1</issue>  
      <spage>85</spage>  
      <epage>90</epage>  
      <dateofissued>2011-04-15</dateofissued>  
      <language>eng</language>  
      <doi>info:doi/10.1016/j.jcrysgro.2011.02.026</doi>  
      <rights>Copyright © 2011 Elsevier B.V. All rights reserved.</rights>  
      <textversion>author</textversion>  
     </junii2>  
    </metadata>  
   </record>  
  </GetRecord>  
 </OAI-PMH>  


機関リポジトリを運営する組織によっては、独自の著者識別子を付与したい場合も考えられる。研究者リゾルバーは、このようなケースにも対処できるよう、研究者リゾルバーの研究者識別子と組織ごとに付与した著者識別子の対応表を保持する仕組みを備えている。この対応表を作るためのアプローチはいくつか考えうるが、ここでは説明を簡単にするためにあえて述べないことにする。

JAIROは、著者識別子という新たな基礎を獲得することで、厳密な著者検索を可能とし、従来とは異なるユーザーエクスペリエンスを提供できるようになる。

JAIROのトップページの詳細検索画面を図1に示す。ここでの特徴は、著者名フィールドに著者識別子を指定して検索できることである。著者識別子は、研究者リゾルバーの13桁数字の識別子である。ここでは、図2に示すように、著者名の一部を入力することで、JAIROに既に登録されたコンテンツの著者名が識別子とともにサジェストされる。図では、「佐藤」と入力したときのサジェストの様子が示されている。各行には、「姓,名(13桁番号)」の形式が上位に示され、続けて、識別子のない姓名表記が続く。ここから、たとえば「"/佐藤, 伸一(1000020215792)/"」さんを選択すれば、図3に示すように、その著者のリポジトリコンテンツを検索結果一覧に得ることができる。複数の機関リポジトリから収集したメタデータには一意に著者の識別子が付与されるため、結果として機関リポジトリを横断した著者検索が可能である。例では、長崎大学と金沢大学のリポジトリの双方に論文が登録されている様子が見て取れる。また、図4に示すように、該当する姓名表記が表記の形式を問わずハイライトされることも取り上げるべき特徴であろう。

図1 JAIROの詳細検索画面 

図2 著者名を入力して識別子付でサジェストされる

図3 ある著者(研究者リゾルバーの識別子)で検索した結果一覧

図4 漢字姓名とローマ字姓名が混在してハイライトされる

著者識別子によって厳密にある著者の検索結果一覧を得ることで、検索結果に対するいくつかのフィルターが意味を持つことになる。著者識別子を指定した場合の検索結果一覧は、特別に「資料種別」と「機関」による分類表示を可能とする。図5に示すように、検索結果件数が表示された帯の右側にプルダウンメニューからフィルターしたい分類を選択できる。ある研究者はどのような資料をどのぐらいの割合で機関リポジトリにデポジットしたのか、どの機関リポジトリにいくつのコンテンツをデポジットしたのかを知ることができる。これによって機関リポジトリ特有の、資料種別や機関という枠組みを意識してオープンアクセスへの貢献度を測ることができるようになる。図6に資料種別を選択する様子、図7に機関を選択する様子を示す。

図5 著者検索によって検索結果一覧を得たときに、分類表示が可能となる

図6 著者検索によって検索結果一覧を得た後、資料種別によって分類表示する

図7 著者検索によって検索結果一覧を得た後、機関によって分類表示する

検索結果一覧で、スニペットの鮮やかな青色で表示された著者名は識別子によって区別されていることを示しており、クリックするとその著者の識別子で再検索される。機関リポジトリの担当者は、自らの機関リポジトリで公開するコンテンツの著者に識別子を付与することによって、JAIRO上の表示にこのような変化が現れることを体感できる。

検索結果一覧から、一つのアイテムを選択してクリックすれば書誌ページへ遷移する。書誌ページでは、論文の内容がわかりやすいようにレイアウトされており、コンテンツを起点としたいくつかの機能を配置している。その一つは、図8に示すように、著者名の右側に研究者リゾルバーへのリンク(研究者リゾルバーのアイコン)である。ここをクリックすれば、当該研究者の研究者リゾルバーのページへ遷移し、そこから、たとえば科研費データベースKAKENの当該研究者のページへ遷移する。図の例では、研究者が確かに金沢大学と長崎大学に属していたことがわかる。

図8 JAIROの書誌ページ上の著者名の右側にある研究者リゾルバーアイコンをクリックして、研究者リゾルバー、およびKAKENへ遷移する

著者識別子が付与された研究者だけが正確に検索結果一覧に表示され、著者識別子固有の意味のあるユーザーエクスペリエンスとともにコンテンツがオープンアクセスで公開される。JAIROにメタデータをハーベストされる機関リポジトリでは、ぜひ著者識別子を付与して著者検索の機能を体験してほしい。

謝辞
JAIROの著者検索機能の実現にあたっては、金沢大学、静岡大学、関西学院大学、奈良女子大学、長崎大学、北海道大学、大阪市立大学の各リポジトリ担当者の協力を得た。また、NIIのリポジトリ担当、および開発支援者、およびJAIROならびに関連システムの開発者の協力を得た。これらの関係者にこの場を借りて感謝申し上げたい。

参考文献
[蔵川, 2009] 蔵川圭,武田英明,高久雅生,相澤彰子,研究者リゾルバーαの同姓同名推定モデルと実データによる分析,「大規模データ・リンケージ,データマイニングと統計手法」研究会; 東京, 統計数理研究所; 10p. (2009-10)
[Kurakawa, 2012] Kei Kurakawa, Hideaki Takeda, Ryo Shiozaki, Shun Morimoto, Hideki Uchijima, Researcher Identifiers and National Federated Search Portal for Japanese Institutional Repositories, The 7th International Conference on Open Repositories (OR2012), Edinburgh, UK, July 9-13, 2012

2011/10/27

ソフトウェア開発の発注から気づいたこと

以下の文章は、ソフトウエア技術者協会のメルマガの幹事コラムで執筆したものの転載です。
(蔵川 圭, ソフトウェア開発の発注から気づいたこと, 幹事コラム, SEA-MAIL メルマガ版 2011 年 第 10 号, 2011.10)


----
現在、国立情報学研究所で学術情報サービスのソフトウェアの開発を行っている。開発といっても、研究開発的なプロトタイプ作成から実際のサービスとして事業化するための発注と運用を行っている。SEAの仲間に加えてもらって活動をしはじめた頃には、ソフトウェアエンジニアリングとは何かということを大学に籍を置きながら本や論文を読んで、実際のソフトウェア開発ではいったい何が問題であるのかということに思いめぐらしていたことを思い出す。その頃から今に至るまで、一貫してソフトウェアの設計や開発はどうあるべきか、ということを心の中に抱き続けている。

ソフトウェアの仕組み、コンピューターがどう計算するのかという原理、どう設計開発するのかということを大学におけるカリキュラムや研究室の議論で学んだ。現在の居室の隣で毎日のように開講されている弊所の看板事業の一つであるTopSEの講座に立つ講師の声から想像される内容と大学にいたときに学んだことはおそらく同じである。これまでに、細かいことが理解できたかどうかはともかく、ソフトウェアエンジニアリングにはどのような議論や考え方があるのかを知ったことは今の仕事の基礎となっている。

国立情報学研究所にも、事業として提供している情報サービスがある。大学における図書館業務のシステムや、論文や研究助成に関連する学術情報のデータベースであり、それらはWeb上に公開されたエンタープライズシステムとなっている。日本の研究者の中には、NACSIS-CAT、CiNii、KAKENなどの学術情報サービス名を聞いたことがある人も多いと思われる。学術情報サービスというドメインは、ソフトウェアに要求される機能と要件が、よく授業で取り上げられる医療機器の組み込みシステムや大規模な証券システムとは異なる。少なくとも、学術情報サービスは、生死に直結するような品質を求められることもないし、金銭に絡んで紛争を起こすようなこともない。ただ、大学の先生や研究者の名誉や評判に関わるようなことには気を使う。

国立情報学研究所に来て事業システムの開発が仕事の一つとなり、最初に持った興味は、実際の開発はどのように行われているのかということであった。弊所では内製はしておらず、ソフトウェアの仕様を作成して発注する。開発者とは定期的に打ち合わせを行いながら詳細な仕様を決定していき、最終的にソフトウェアとドキュメントができあがる。ドキュメントには設計書やテスト仕様書、運用手順書などが含まれる。これらのすべてをもって、開発の様子を想像する。

弊所での開発体験から得た最初の気づきは、実際のソフトウェアは思うようには動いていないということであった。第二の気づきは、かならずしも大学で教えるような技術をすべての開発者が使っている訳ではないということであった。第三の気づきは、ソフトウェア開発の見積もりはできないということであった。こう言い切ってしまうと弊所の開発チームを無能呼ばわりしているような誤解を与えるが、そうではなくて、どんなに優秀なチームであってもこれらの問題に立ち向かいながら最終プロダクトをリリースするというのがソフトウェアプロジェクトの本質ではないかと思う。

これらのことが起きるのは、少なくとも私が関わっている開発では、初期の仕様を発注仕様書として与えてからプロジェクトがスタートし、徐々に詳細な仕様をつめていって最終プロダクトとして実現されるプロセスを追うからである。仕様詳細化のプロセスを追うとき、上流仕様変更は開発者が最も嫌い、仕様の詳細化にあたっても常に一貫性をもった詳細化が求められる。初期の発注仕様がおおまかな外部要求としてプロジェクトに投入されてからは、発注者としての私がどう詳細化したいかではなく、プロダクトはどう詳細化されたがっているかを常に考えるようにしている。詳細化の結果は論理的な思考のみに導かれる。詳細な仕様が初期の予想と異なっていても、そこに至る思考を明示することで、不思議と開発者は納得して仕様変更を受け入れる。

事業として開発を進めるときコストと納期を常に意識する。ソフトウェアエンジニアリングにおける技術を習熟したり適用したりするにも、コストと納期を意識した結果、あまり細かいことを問わない方が良い結果を生むときがある。むしろその技術の適用によって左右されるインパクトよりも、ソフトウェアを作る人の個性がもたらすインパクトの方が、大きく最終プロダクトの善し悪しを決めると思われる。そういった意味で、適材適所のチーム構成が最終プロダクトの性格を決める結果となることを体感している。

ソフトウェアの見積もりは、開発者との阿吽の呼吸になっている。詳細な仕様が決定していなければ細かい見積もりもできず、あまり細かすぎる見積もりはむしろそれにコストがかかってしまう。発注者の私ならこういう手順でこうプログラムを書いていくというワークを想像しながら、開発者の思いとすりあわせていく。コスト見積もり手法とはほど遠い。開発経験のない営業との折衝ではこの方法はまったく通用しなくなる。

ソフトウェア開発は仕様の決定と実装にかかわる連続的なコミュニケーションの結果であることを発注者の立ち位置から体験している。ここでは関係者全員が理性的であることを常に求められている。理性がコミュニケーションコストを最小にする唯一の方法ではないかと考えている。

最後に、現在もなお私の頭を悩ませていることがある。それは、ハードウェアについて見積もり合わせした結果一番安く想定した製品を購入できるように、まだあまり仕様のはっきりしないソフトウェアの開発案件を見積もり合わせして、結果的に一番安く、想定したソフトウェアを手に入れるうまい方法が見つからないことである。これは可能か、否か?これができれば官公庁のソフトウェア開発入札業務がもっと明瞭で合理的になるであろうに。

2011/07/29

OAI7

オープンアクセスに関する国際会議の一つCERN Workshop on Innovations in Scholarly Communication (OAI7)は、スイスのジュネーブにおいてプレカンファレンスイベントも含めて6月21日から24日まで開催された。今回のOAI7は、オープンアクセスムーブメントを主導するSPARC Europeが主催し、これまでの会議は2001年のCERNから始まってここジュネーブにおいて隔年で開催され、今回は7回目ということである。ヨーロッパのオープンアクセス活動の英知がここOAI7に集結している。

会議のオープニングは、初日の午後から始まり、まず、SPARC EuropeのディレクタAstrid Van Wesenbeeckから、オープンアクセスムーブメントを進め、オープンアクセスに関する知識を交換する会議の趣旨が示され、それを受けた会議の構成について紹介があった。続けて、ジュネーブ大学のVice Directorで図書館にもかかわるAnik de Ribaupierreから祝辞が述べられ、あわせて最近研究大学コミュニティにおいてリサーチポリシーについて、とくにオープンアクセスの議論をしたエピソードを披露された。出版した論文をリポジトリに登録する活動には様々な困難が伴うが重要であるということであった。また、ジュネーブ大学は設立450年ということもあわせて紹介された。続けて、チェアの一人であるロンドン大学のPaul Ayrisから、264人の参加があったこと、オープンアクセスロードマップがロンドン大学のサーバーで公開されたこと、会議スポンサーの紹介があった。

OAI7 Poster

Welcome Speech from Paul Ayris

会議は基本的にはシングルトラックで構成され、オープニング前のチュートリアルとディスカッションセッションの2つだけマルチトラックでセッションが展開される。チュートリアルは初日の午前に開催され、基本的なことからこれからの技術まで幅広く用意されている。具体的には、書誌の重複検出を行うMarcXimiL、CERNのリポジトリシステムINVENIO、MementoとOpen Annotation、OJS(Online Journal Systems)、ハーベスタおよびサブジェクトリポジトリ、初心者用OAおよびOAI講座である。INVENIOはCERNが提供しているリポジトリソフトウェアであり、CERNのDocument ServerやHEP(高エネルギー物理)分野のリポジトリであるINSPIRE、そのほかいくつかの機関で使われている。Open AnnotationはWeb上にあるアノテーションを関連付ける技術である。MementoはWebアーカイビングにおける時間を考慮した新しい技術であり、時間軸によるナビゲーションを可能とする。

Harvester tutorial by Friedrich Summann

チュートリアル、オープニングの次は、プレナリーセッションである。最初のセッションの司会はMementoやOpen Annotationの開発者であるHervert van de Sompelが務め、Towards Machine Actionable Scholarly Communicationという魅力的なテーマであった。研究者が学術コミュニケーションをWeb上で行うこと、Semantic Webの技術を利用した世界で行うことを前提とした、機械駆動の世界を描いている。発表の一つの題目として挙げられたNanopublicationは新しいキーワードの一つであり、RDF (Resource Description Framework)のSubject-Predicate-Objectを構成するトリプルを知識として出版し、トリプル同士を連携させて再利用して知識として引用し論文を執筆する。別の発表では、Open Annotationの技術を取り入れたマニュスクリプトアノテーションツールが紹介されていた。

Harvard van de Sompel and a speaker those who are duscussing a question

Audiences listening to a talk

Many participants argue and duscuss about their ideas during a coffee break.

30分のコーヒーブレイクをはさんで、グラスゴー大学のWilliam Nixonの司会でAggregationと題したセッションが開始する。メタデータを収集してサービスするシステムの発表が続いた。その中でもUKのDiscoveryというサービスはリポジトリからメタデータを収集したのち、使いやすいように再配布することを目的としている。使いやすさの対象は、ユーザーだけでなくマシンをも対象としてその双方を含む。

初日の夜は、ソーシャルイベントとして、CERNのGlobe of Science and Innovationと呼ばれる会場でレセプションがおこなわれた。CERNの50周年記念として建てられた、ジュネーブにおけるサイエンスの象徴ということだ。ここにきて目につくのはLarge Hadron Collidar (LHC)という世界最大の加速器の紹介ポスターである。LHCの外周は27Kmということだ。世界にはいくつもの加速器が稼働しているらしいが、たとえば日本のSpring8の外周は1.436Kmである。けた違いに大きい。これによって宇宙の原理を解明するという。

CERN Globe

Participants in the reception hall

レセプションでは、CERNに関係するローカルチェアのあいさつからはじまり、どこかでみたような液体窒素をつかった超伝導の実験もおこなわれ、会場はリラックスした雰囲気の中にも活気に満ちていた。そして、忘れてはならないのは、CERNの研究棟の見学のなかで、とある一角に「Web発祥の地」と書かれた看板があった。見学ツアーでは我々にもっとも関係のある場所だ。OAIではあたりまえに使っている技術の根源はここCERNにあったことを強く感じさせられる。なぜかここに来る直前に案内をしてくれた研究所の副所長から参加者全員は「Tim Berners-Lee」を連呼させられた。いい思い出ではある。

The panel of "Where the Web was Born" in a corridor of CERN research building

Visitors took a snapshot of "Where the Web was Born"

2日目の朝はAdvocacyのセッションから始まった。SPARC Europeの前ディレクターであるDavid Prossorの司会であった。本セッションで予定されていた最後のパネルディスカッションを中止して、Alma SwanがOpen Access Mapのベータ版が公開されたことを報告する。オープンアクセスに関するサイトのリストが一か所にあったほうがいいという。リポジトリだけでなく、ジャーナルサイト、ポリシー表明サイト、そのほかOAに関するものならなんでもありだ。フォームから自由に登録申請をすることができ、レビューを通過すると世界地図に反映される。

Surprisingly, Alma Swan introduced Open Access Map

続けて、アドボカシーについて、まず、南アフリカのUniversity of Pretoriaの例、UKのグラスゴー大学の例が紹介された。グラスゴー大学では、リポジトリとCRIS(Current Research Information System)が統合されたシステムがあり、とくにCRISは学内システムの中心に位置している。People, Processes, Policiesが大事だということだ。また、続けて米国SPARCディレクタのHeather Josephによるホワイトハウスへのロビイングに関する報告があった。

SPARC Director, Heather Joseph gives a talk of OA advocacy

2日目の午前は、コーヒーブレイクも兼ねたポスターセッションが行われた。筆者は、このポスターセッションで日本のリポジトリのハーベスタであるJAIROの著者検索フレームワークについて紹介した。筆者の発表内容の本質は以下のユースケースで説明できる。リポジトリのメタデータのクリエイターフィールドにID属性を付加し、ここに著者を表すURIを挿入する。JAIROはこのメタデータをハーベストし、研究者リゾルバーに統一的な研究者リゾルバーのIDへの変換問い合わせし、JAIROはこのIDを基礎に著者検索機能を提供する。この研究者リゾルバーIDもURIとしてあらわすことができる。一方で、研究者リゾルバーはリポジトリのIDと研究者リゾルバーのIDとのマッピングテーブルをあらかじめ構築しておく。マッピングテーブルを構成する一つの方法は、機関がアップロードする研究者プロファイルに基づく。ハーベスターレベルのIDによる著者検索はまだ世界でも不十分であり、JISCの職員やMicrosoft Researchのエンジニアなど幾人かの参加者からJAIROの著者検索を実現するフレームワークに対して興味深く質問された。

Conference Venue, the University of Geneva, Uni Mail Building

My poster hanging on the wall of Uni Mail Building

さらに、午後は、オープンアクセス出版について報告があった。SOAP (Study of Open Access Publishing)プロジェクトの報告、PEER (Publishing and the Ecology of European Research)プロジェクトの報告、いずれも、OA出版に関する現状分析とOA出版の特徴について分析結果をまとめている。続けて、Mark PattersonによるPLoS (Public Library of Science)の紹介である。PLoSは、成功したオープンアクセス出版者の一つである。MarkはPLoSプラットフォームの機能を紹介していた。彼の発表の中で興味深かった視点は、今後の学術出版におけるコミュニケーションとして、ある記事がOA出版された後、様々なデータやブログ記事で”Post-publication content enhancement”する2段階になるといっているところであった。

その後続けて、6つのトラックに分かれるディスカッションのセッションが開始された。それぞれのトラックのテーマは、次世代OAI-PMH、OA出版、リサーチデータ、アグリゲーティングサービス、アドボカシー、オープンサイエンスであった。筆者は、次世代OAI-PMHのセッションに参加したが、これはOAI-PMHを作ったHarvard van de Sompelが出席するからであった。彼がディスカッションの最中、プロトコルを作る際にもう一度学術コミュニケーションを考え直してみればいいと述べていたのは印象的であった。

3日目の朝一番はオープンサイエンスというセッションであった。これは、サイエンス自体が開かれたものであるという主張である。Citizen Cyberscienceがこれからくるという発表があった。***@HOMEという個人が自宅のコンピュータを貸して、科学的な計算をしようというようなものだが、これがたくさんのプロジェクトとして浮上しているということだ。次に、無料のレファレンス管理ツールとしては成功したMendeleyの紹介があった。SNSの機能と融合しているところが特徴である。PLoSのAPIとMendeleyのAPIを合わせてアプリケーションを作るコンテストの紹介もあった。

a snapshot after Mendeley co-founder, Victor Henning gave a presentation about his businness

最後のセッションは、Research Dataであった。Anja Jentzsch からLinked Dataについて活動の紹介があった。彼女は、CKANというData HubのLOD Cloud Data Catalogをつくっている作者である。続けて、最後の発表は、マックスプランク所属のPeter Wittenburgからリサーチデータに関するヨーロッパにおけるビジョン作成するグループ(High Level Expert Group)の成果報告であった。

最後に、クロージングスピーチとなり、SPARC EuropeのディレクタのAstrid van Wesenbeeckと、ロンドン大学のPaul Ayrisからまとめの言葉で締めくくられた。次は2年後に会いましょうということであった。

OAI7という会議に初めて出席したが、招待講演のみによる内容の濃い発表で埋め尽くされていた印象があった。基礎的技術を作った著名人とそれをとりまく熱意ある人々、これからも続くであろう現実的で実務に根差した議論とその実践がこの場所に集まってくる。ヨーロッパを中心として世界中から、オープンアクセスとウェブという2つのキーワードが融合するところ、これから訪れる学術コミュニケーションの在り方を模索しようと、アカデミアを志向する人々が集まって、それぞれが実践者としての次の一歩を確かめようとしていた。



【追記】
本文では触れなかったが、OAI7に併設されていくつかのミーティングが催された。これらも大変内容の濃いものであったので、軽く紹介しよう。

プレカンファレンスイベントは本会議の前日に開催され、リポジトリソフトウェアであるDSpaceとIslandoraのユーザーグループミーティングが開かれた。DSpaceのユーザーグループミーティングはベルギーに本社のある@mireというカスタマイズおよび運用を支援するソフトウェア企業が主催した。朝から夕方まで一日行われ、リポジトリ関連の講演とDSpaceの新しい機能紹介があった。@mireはDSpaceのコミッターの中でも目立っている企業である。

a scene during the DSpace user group meeting presented by @mire

また、OAI7の昼休みの時間を使って、COAR(Confederation for Open Access Repository)のBOF(Birds of a Feather)が1時間ほど行われた。3つあるワーキンググループの報告があり、どちらかというと顔合わせに近い感じの会だった。

BOF (Birds of a Fether) of COAR where the officer, Birgit Schmidt chaired

そして、これが最も熱い内容の併設イベントであったが、SITS(The Scholarly Infrastructure Technical Summit)ミーティングというのがあった。OAI7のクロージングが終了して、配られたランチバッグを持ち寄って、ミーティングが始まる。招待制のJISC主催の会議で午後と次の日の午前中の合計2回集まった。集まったメンバーは、Duraspaceのスタッフや、EPrintsの開発者、Microsoft Researchのエンジニア、アメリカやイギリスのシステムズライブラリアンなど、システムエンジニアの面々が集まっている。これはとりわけテクニカルなインフラについてブレインストーミングをする会議で、議論する内容と優先順位をその場で決めていく。もちろんテーマとしては、OAI7においてとりあげられたホットトピックである。この時の最初のトピックはResearcher Identificationであり、筆者がポスターで発表したテーマと同じであった。そのときの議事録はこちら

SITS meeting started

the second day in the morning of SITS meeting in a cafe. well-known Les Carr took in the left side

英国、米国、オーストラリアのネイティブ3か国+日本、容赦ない英語の議論でした。(楽しかった~。:-))

2011/07/14

OR2011

第6回オープンリポジトリ年次国際会議(Open Repositories 2011)は、プレカンファレンスイベントを含めて、2011年6月6日から11日までの6日間、米国テキサス州オースティンにあるテキサス大学オースティン校、AT&T Conference Centerで行われた。今回の会議のテーマは、“Collaboration and Community: The Social Mechanics of Repository Systems”であり、リポジトリシステムの開発者、マネージャ、ユーザーが融合してソーシャルダイナミクスを生み出し、システムは持続的な成長を続けていくという意味が込められた。

プログラムチェアのTom Cramerによると、250以上の著者から160件の投稿があり、24件のジェネラルトラック論文、4ブロックの24x7(24件)、3件のパネル、36件のポスターが採択された。会議は、3日にわたるメインカンファレンスとともに、2日にわたるDSpace, ePrints, Fedoraのユーザーグループミーティング、2日にわたるワークショップ、チュートリアル、ワーキンググループミーティングで構成された。参加者登録人数は300人を超えた。

メインカンファレンスは中3日間で行われ、初めのオープニングプレナリーは、Apacheソフトウェア財団 (Apache Software Foundation)のPresidentであるJim Jagielskiによる講演であった。Jagielski氏はApache ソフトウェア財団の設立者の一人であり、コミッターを長年務めている。講演では、オープンソースについて、特にApacheソフトウェア財団の組織の構成と、オープンソースコミュニティの在り方についてスピーチされた。今ではオープンソースコミュニティそのものは開発スタイルとして一般に受け入れられるものとなっているが、健康な(Healthy)コミュニティこそが質の高いソフトウェアを生み出していると指摘していることは印象的であった。リポジトリソフトウェアの、特に、DSpaceやFedoraはオープンソースコミュニティによって開発されている典型であり、Apacheの開発スタイルを参考にすることは開発コミュニティそのものを持続していくうえで重要なことであろう。

Opening Plenary: Jim Jagielski, President, Apache Software Foundation

Slide title of the Jagielski’s talk

Audiences for the opening plenary speech

続けて、2つのパラレルトラックに分かれて、ジェネラルセッションが行われた。初日のセッションのテーマは、セマンティックWebとLinked Data、クラウドソリューション、SWORD、識別子とオーソリティであった。2日目のセッションのテーマは、大規模な保存とアクセス、プラットフォームの進化、よりよい学術コミュニケーション、コラボレーションフレームワーク開発、リポジトリサービスへのコミュニティ参画、データ共有と再利用、ソーシャルネットワーク、国の視点とアプローチ、であった。また、今回から24x7という24枚のスライドで7分間発表するという形式のセッションが新設された。従来のポスターセッションとジェネラルセッションの中間に位置するセッションである。これも、ジェネラルセッションと混ざって2つのパラレルトラックに分かれて行われた。テーマは、福袋(Grab Bag)-今までとは全く違うもの、コミュニティ、ツール、であった。

ジェネラルセッションの発表の中で、筆者に関係の深い著者識別子関係の3件の発表に触れる。1件目は、ANDS(Australian National Data Service)の支援を受けて実施された、オーストラリアのサウザン・クイーンズラインド大学と、ニューキャッスル大学、スウィンバーン工科大学と発表者Peter Sefton、Duncan Dickinsonらソフトウェア開発者の共同による、オーソリティコントロールサービスMintである。彼らはもともとデータのリポジトリを持っており、セマンティックWebを作り上げるにはそれらのデータに対してそれぞれリンクをしなければならないという認識の下、たとえば著者のIDや統制された語彙をリンク先としてサービスするシステムを考案している。Mintは、語彙と名前をスプレッドシートや、SKOS、スクリプトを介して簡単にインポートし、また、内容をJSONで返却するルックアップサービスを備える。2件目は、MITのRichard RodgersによるORCIDの紹介である。ORCIDのシステムは、学術関連の著者IDの公開レジストリとして紹介された。開発のタイムラインとしては、2011年中にプロダクションシステムのベータ版を構築し、2012年初頭から一般の登録を開始するということであった。また、図書館サイドのワークフローを付け加え、自組織の研究者のパブリケーションを研究者のIDに結び付ける作業を80パーセント自動で、20パーセント手動で行うことを示した。3件目は、香港大学のDavid Palmerによる、The HKU Scholars Hubの紹介である。これは香港大学の研究者ディレクトリであり、研究業績として出版リスト、指導した学生のリスト、研究助成、ビブリオメトリクスが表示される。表示内容は細かく入力可能であり、表示設定できるようになっている。概してよく作りこまれている。特にビブリオメトリクスは外部サービスのIDをもとに引用している点が目を惹く。Scopus, BiomedExperts, PubMed, ResearcherID, Microsoft Academic Search, Google Scholarである。

Coffee break: everyone talk each other outside of the main hall

初日の最後は、ポスターレセプションである。ポスターレセプションでは、ポスター会場に用意されたワインやビールなどのお酒を片手に、興味のあるポスター展示の前でポスター発表者と気軽に議論できるようになっている。ポスターレセプションに先立って、ポスター1件当たり1分間の説明時間が割り当てられるMinutes Madnessと呼ばれる一大セッションがある。ここでは壇上に順番に発表者が並んで、総勢36人の説明が矢継ぎ早に繰り広げられる。興味のあるポスターをここで探すというわけである。筆者はここのポスター発表に採択されたので1分スピーチを行った。筆者は、Web上の日本の研究者の著者名典拠として研究者リゾルバー(Researcher Name Resolver)を開発しており、ポスターではこれを用いて、日本の機関リポジトリポータルであるJAIROにおいて正確な著者名検索を実現するフレームワークを紹介した。ポスター会場では、テーマが適時だったためか、多くの参加者とコミュニケーションをとることができた。写真は筆者のポスターを映し出している。

My poster presentation in the poster room

2日目の後半は、ディベロッパーチャレンジという、お題は1か月前に与えられるが、カンファレンス開催期間内にも特別に用意された部屋で最後まで開発して、参加者の前に披露するセッションがある。今回のお題は「未来のリポジトリを見せる」であった。写真はデモンストレーションの場面である。開発者コミュニティを育てる企画であり、発表後は会場にいる人たちの拍手でまるでテレビ番組のようにその時の点数が決められる。ただし、その後のレセプションで表彰される優勝者は必ずしも拍手の点数で決められたわけではなく、本質的に有用だと思われる機能を紹介したチームであった。審査員は実務的観点からアイディアを見ているのだろう。

A scene in the developer challenge

3日目の朝は、クロージングプレナリである。締めくくりにふさわしく、学術コミュニケーション技術のオピニオンリーダーであるCNI(Coalition for Networked Information)のClifford Lynchであった。彼は「Repositories: Major Progress and Open Questions」というタイトルでリポジトリの今を概観した。リポジトリに関するディスカッションはどこまで達成したか。まず一つは、一連のクリティカルディスカッションのフォーカスポイントを提供してきたことがあげられる。2つ目は、IRが様々な人たちを含んだコラボレーションのフォーカルポイントとなったことである。この2つは、学術コミュニケーションのランドスケープを変えるほどに達成したことであるという。

続けて、Lynchはまだ答えのない問題が残っていると指摘する。IRだけでなく出版全体の名前典拠の問題、IRメタデータ&発見サービスの問題。また、観察によると、IRとそれをとりまく学術システムの発展の仕方はばらばらであること。学習管理システム(LMS: Learning Management Systems)はいまどこにでもあるが、IRとの関係は不明。講義キャプチャシステム(Lecture Capture Systems)は、LMSより有用だが、どうしてキャプチャするのかという議論がなく、IRとの関係も不明。また、よくわからないのは、IRがワークフローに手をどこまで伸ばしていくか。大きくなったデータセットをどうするかも問題。最後に、バーチャル組織はIRを使うとして、組織が終了したらどうなるのかということ。また、長期的な責任問題として機関にどうマップするのか。他には、ソフトウェア。これは多くの関心を集積したものであり、データの再利用は難しい。それらを使った結果の出所がはっきりしない。そういうソフトウェアをリポジトリがどう扱うか。リタイヤした教員のリポジトリコンテンツ、大学を超えたIRの再解釈、などである。

最後は、オープンイッシューについて触れた。保存に関するアイディア。単一障害点を取り除く地理を考慮したコピー。異なる機関で重複したプリントを持つなどが考えられる。長期的保存について機関がコミットする意思があるかどうかを確認し、なければ別の機関へ手渡す必要もある。また、これからの話として増えていくコレクションをどうするか。機関と社会との関係の再考をしていく必要があるという。IRは単独では存在しえないからとうことだ。

Lynchのリポジトリを取り巻く考察を、聴衆は次の課題としてとらえられたに違いない。

Closing Plenary: Clifford Lynch (Coalition for Networked Information)

メインカンファレンスが終了すると、続けてDSpace、Fedora、EPrintsのユーザーグループミーティングが始まった。45件ほどの発表が複数の会場で2日間続く。

筆者はDSpaceを中心にして参加した。ここでの印象は、DSpaceはコミュニティを重視しているということである。コミュニティを盛り上げていくことが、DSpaceというシステムを継続して発展させていく原動力であるということだ。写真はSandy PayetteがDuraspaceの歴史を振り返る一コマである。彼女は近々学位を取るということで、あたかもDuraspaceの活動を卒業するかのような発言が見られた。

Sandy Payette in the Duraspace User Group Meeting

これでOR2011は終了する。しかし、順番は前後してしまうが、プレカンファレンスミーティングを付け加えてぜひ紹介したい。プレカンファレンスミーティングは、メインカンファレンスの前日に2日間にわたって行われた。リポジトリに関係のあるグループが普段Face to Faceで議論できないメンバーが集まって活動する場として企画される側面もある。リポジトリ関連企業が社内の活動や宣伝を兼ねてセミナーを開くものもある。

筆者はDSpaceの開発者ミーティングに参加したのでそれについて紹介する。実は、このDSpaceの開発者ミーティングこそがリポジトリ開発の真髄ではないかと思うような熱気がここにはあった。朝から夕方までほぼ一日、Lead DeveloperのTim Donohueの司会の下、30人ほどの参加者が日頃のネット上での議論を交わしている。多くの参加者は、普段DSpaceの運用マネージャでありアドバイザーで構成されるDCAT(DSpace Community Advisory Team)と、開発コミッターである。

ここでは、これからのDSpaceはどうあるべきかについて網羅的にブレインストーミングが行われた。実務の延長としての機能を全員で列挙していった。また、それとは別に、より具体的なことを決議していく。時期リリースとしてDSpace1.8.0の機能について担当者を明確にしながら確定し、また、バージョンナンバリングスキームについてディスカッションした。さらに、Google Summer of Code、Fedora Inside、 DSpace1.8.0のプランニングについて報告された。Google Summer of Codeの事例はDSpaceがプログラミング教育に使われていることが見て取れる。写真はミーティングの様子を示している。

DSpace developer meeting: hot discussion enthusiast together

その他にも、マイクロソフトリサーチの活動の紹介や、Fedora、Hydra、Curation TaskについてのBOFなど15コマほど用意されていた。

今回のOpen Repositoriesも昨年同様大変な熱気に包まれて、有意義な経験ができた。ここでは生きたリポジトリ開発、ひいてはWeb上の学術コミュニケーションシステム構築へのエネルギーが渦巻いている。年に一回の充電をここでするのはよいことだと思う。





おまけ。会場近くのテキサス州議会議事堂。そびえたっていました。

Texas State Capitol: standing on the ground

2011/05/16

KAKENのRDFを利用した共同研究者ネットワークの可視化

国立情報学研究所が提供する科学研究費補助金データベースKAKENは、科学研究費補助金の研究課題と研究者を検索できるシステムである。現行のシステムは2009年4月にリリースされ、以来、研究課題が開始される年度初めや9月の申請時期に多くの研究者に利用されている。広く一般に、どのような研究課題がありどのような成果があげられているのかを閲覧できるツールとなっている。

KAKENの収録範囲は、採択課題情報については1965年から、実績報告書と成果報告書概要については1985年から今日までである。2008年からは従来の紙の報告書からPDF版へと媒体を変えて、成果報告書が公開されている。自己評価報告書は新たに2008年から追加された中間報告書である。

KAKENに収録される情報は、採択課題情報を文部科学省から電子データのコピーの提供を受け、現在でも紙で提出される実績報告書、成果報告書概要についてはパンチ入力によって国立情報学研究所がデータ作成している。PDF版で提出される成果報告書と自己評価報告書についても、メタデータ抽出にあたってパンチ入力によってデータ作成している。

これらのデータは、クリーニング処理をへたのち、データベースへ投入される。少なくとも、データベースのキーとなる項目については完全なクリーニングが必要となっている。たとえば、研究課題番号や研究者番号である。データが作成されるまでに人間のかかわるところはすべてデータバグの可能性があり、研究者自身の報告書に記載される段階やパンチャーがパンチ入力する段階に起こる。あまりデータクリーニングをしてこなかった研究分担者の研究者番号を取り上げて調査したところ、10パーセント程度誤っていることが分かっている

クリーニングによってデータの整合性を極限まで高めることによって、はじめて信頼できるデータベースが構築できる。継続的に蓄積されるこれらの情報は資料的価値が高く、2次利用されることも期待されている。

Tim O’Reilly のいうGovernment 2.0では、政府はオープンプラットフォーム化しなければならないという(“government itself become an open platform that allows people inside and outside government to innovate”)。
政府がデータを一般に提供し、よいアイデアを持った者がWeb2.0の技術をベースにデータを利用し、よりイノベーティブで価値あるサービスを多く生むことが期待されるというものだ。政府のデータはオープンでしかるべきであり、オープンなイノベーションに寄与するべきというのである。この考え方に通じる政府のデータ提供サイトは、米国ではdata.gov であり、英国ではdata.gov.uk である。

国立情報学研究所のKAKENもこれらと同じくGoverment2.0のコンセプトと同様に、Web2.0の技術を利用することを前提に、オープンでかつスタンダードなデータ提供基盤であろうとしている。2010年6月から機械処理のためのAPIを備え、研究課題と研究者のURIを提供し、そのURIに対して成果情報データをRDF (Resource Description Framework)によって提供している。

KAKENのRDFを使うことによってたとえば、次のようなインターラクティブに動作する共同研究者のグラフをリアルタイムにブログ上に描くことができる。グラフの中心にいる研究者に対し、科研費の研究課題の共同研究者がリンクによってつながれている。中心以外の研究者名をクリックすると、その研究者に関連する科研費研究者番号およびKAKENの研究者ページへのリンク、キーワードが右側の白い枠に列挙される。また、グラフはクリックした研究者の共同研究者を追加して最適な配置で再描画される。次々と研究者名をクリックしていくことで、共同研究者のネットワークが明らかになる。また、右上の研究者番号のGOをクリックすれば、グラフはその研究者番号の研究者を中心として再描画される。研究者番号を書き換えて、新たな研究者に関するグラフを描きなおすこともできる。グラフ上に表示されるデータは、グラフ内のプログラムが筆者のラボ上に置かれたサーバープログラムを介してリアルタイムに取得している。グラフ内のプログラムはJavaScriptで記述されており、サーバープログラムへJSONパディングしたコールバク関数を呼び出して非同期通信している。サーバープログラムは、コールバック関数の呼び出しに応じて、KAKENからRDFフォーマットでデータを取得している。また、グラフ表示にはJavaScript InfoVis Toolkitを用いた。

(ここにインタラクティブに操作できるアプリがありましたが、重いのでコメントアウトしました。下の絵をクリックして、別ページでグラフを操作できます。)

操作は、背景をドラッグしてグラフを移動し、マウスのホイールを上下にスクロールするとグラフの拡大縮小になる。

筆者の共同研究者のグラフは少なくて操作はしやすいが、次に示すように国立情報学研究所の所長の例のように多数の共同研究者がいて大きなネットワークが構成されている場合もあろう。




ここに示したグラフはブログの掲載幅に合わせて小さいものを開発して例示している。より大きなグラフを操作するために、このリンクをたどった先で共同研究者のネットワークを探索してみてほしい。ここでは、グラフの中心は常にクリックした研究者となっている。下の例のように大きなグラフをブラウズできる。

2010/12/28

NPOとなったORCIDの参加者会議

 2010年9月7日にORCID (Open Researcher and Contributor ID)が米国デラウェア州のNPO法人に承認されたというプレスリリースが出され、ボードメンバーは10月8日に新たに組織内の役割を選挙によって決定した。参加者が集まる会議としては選挙後初めてであり、新しい顔ぶれによって進捗内容が報告された。ここでは、その会議の概要を紹介することにしよう。

 参加者会議は、2010年11月18日の9時から13時までタイトなスケジュールが組まれて、英国ロンドンにあるWellcome Trustの会議室で行われた。Wellcome Trustのオフィスはセキュリティが厳重であり、オフィス内に入るのも出るのも職員の許可が必要な場所であったが、透明なガラスを基調としたモダンな造りの建物は美術館を思わせるようなセンスの良さと高い吹き抜けが象徴するような風通しの良さが心地よいオフィスの雰囲気を作っていた。

 会議は、6階にある会議室で80名あまりの参加者とおそらく30名程度の電話会議参加者とが集まってスタートした。オープニングは、新たにボードメンバーのチェアとなったNature Publishing GroupのHoward Ratnerが行った。Howard Ratnerは、これまではテクニカルワーキンググループのチェアであったが、今回の選挙でORCID全体のチェアを務めることになった人物である。

 まず、Howard Ratnerから会議全体のオーバービューと組織のアップデートついて報告があった。続けて、エグゼクティブコミッティメンバーの一人ACMのBernard Rousから、新たに定義されたORCID Principlesの紹介があった。これにもとづいて今後の組織のかじ取りが行われる予定である。取り上げるべき事項としては次のものがあるであろう。研究者がORCIDに寄稿したり申告したりしたプロファイルデータは、すべての人がダウンロード可能であり、クリエイティブコモンズの定義した自らが著作権を主張しないという意味のCC0ライセンスとして権利放棄することが示された。さらに、ORCIDのシステムはオープンソースイニシアティブの認定するオープンソースとして公開する予定であることが示された。

 続けて、ビジネスワーキンググループのチェアの一人CrossRefのEd Pentzからは、持続可能な経営の在り方について報告がなされた。エグゼクティブコミッティメンバーの一人MITのMackenzie Smithからは、10月末に行ったサーベイの結果が報告された。ステークホルダーのORCIDに期待する最も関心の高い項目は著者名寄せであることが再確認された。アウトリーチワーキンググループチェアでHannover Medical SchoolのMartin Fennerからは、様々なメディアを用いてORCIDの公報の在り方について紹介があった。そして、さきほどのBernard Rousから、NIHとの交渉を進めていることの報告があった。NIHのPubMed Author IDとORCIDのIDを対応させるということである。NIHとの交渉はこれからであるが、NIHグラントの研究成果に付随する義務化という強制力とブランド力は今後のORCIDの活用に大きく影響することは否めない。続けて、OCLCのJenifer GatenbyからISNIについて紹介があった。ISNIはORCIDより扱う対象が広く、IDはCreatorにつけられる。ISNIとORCIDはID連携する予定である。テクニカルワーキンググループのチェアでThomson ReutersのBrian Wilsonからアップデートの報告があった。ワーキングの組織の構成について新たに紹介があった。

 会議の後半は、3人のステークホルダーからそれぞれのORCIDとのかかわりについて紹介があった。さきほどのMITのMacKenzie Smithからは研究大学の図書館からの視点、CERNのSalvatore MeleからはINSPIREという論文検索サービスを提供しているCERNの視点からORCIDとのかかわりについて発表があった。ワシントン大学のKristi HolmesからはNIHのプロジェクトとして進めている研究者ショーケースサービスVIVOについてWebExの電話会議経由で発表があった。

 NPO法人として組織化され新しい顔ぶれとなったORCIDで今後の展開が期待される。ここで触れた会議の内容はORCIDのメンバー組織となることでGoogleサイトからより多くの情報を取得することができる。無料でメンバー組織になることができるので、学術情報流通の新しい世界とサービスを築く重要な技術として著者IDに興味のある組織はぜひとも参加してはいかがだろうか。

ACMのBernard RousとNature Publishing GroupのHowar Ratner

会議の参加者

会場となったWellcome Trustの受付

2010/08/16

OR2010

 第5回International Conference on Open Repositoriesは、スペインはマドリードで2010年7月6日から9日まで4日間おこなわれた。オープンアクセスとリポジトリという2つのキーワードで、現実に利用される研究インフラとして必要なものは何かを議論し、実際に利用されている状況を報告するという実務ベースの会議である。会議は大きく分けて二つの構成になっている。これからの研究・教育環境としてのリポジトリに必要な用件について議論を行い先進的な実践を報告する前半、世界で最も利用されている2つのリポジトリE-PrintsDuraSpace (Fedora, DSpace)の開発に関連した報告を行う後半である。どちらも熱い思いが伝わってくる発表で埋め尽くされ、参加者は400人を超えていたのではないかと思われる。参加者の顔ぶれをみるとファンディングエイジェンシーのマネージャ、研究者、ライブラリアンが多勢であり、出版社は見受けられなかった。アカデミックサイドの活動であることが見て取れる。

 最初にスタートを切る基調講演は、英国サウサンプトン大学のDavid De Roure氏からmyExperimentの紹介であった。myExperimentは、ユーザー同士が研究・実験のワークフロー(Workflow)を共有し、Linked Dataの技術を活用して公開するプラットフォームである。リポジトリにおいて、研究に関連したワークフローを共有することが重要であることをグッドプラクティスとして示した。基調講演を受けて、リポジトリに必要な視点が網羅的に取り上げられる形で各セッションが展開される。研究データ、引用と書誌、管理者用システム、リポジトリプラットフォーム、リポジトリフレームワーク、相互運用ポリシー、データ統合と曖昧性解消、デジタル保存とアーカイブ、アカデミックワークフロー、国レベルのアプローチ、利用統計、持続性とビジネスオペレーション、リポジトリインフラストラクチャ、オープンアクセスポリシーである。筆者はデータ統合と曖昧性解消のセッションにおいて、Web上の研究者名典拠を実現する研究者リゾルバーについて発表を行った。そして3日目の朝、これらすべてを受けて、研究基盤にリポジトリを統合すると題したパネルディスカッションが行われた。これから十年先を見据えて実用的な研究基盤としてのリポジトリはどうあるべきかについて、DuraSpace開発マネージャのSandy Payette、天体観測データ環境整備を行てきたFrancoise Genova、リポジトリ運用連合COARを率いるNorbert Lossou、研究データキュレーションセンターCDLのマネージャStephen Abramsが、ローカルチェアの一人Wolfram Horstmanの司会のもと、率直な意見を述べあった。

 後半では、これらの総体としての著名な実装であるE-PrintsとDuraSpaceの開発に関連するテーマで報告が行われた。実装ベースの議論であるので、実際にコードを書き運用している経験をもとに具体的なモデルが議論されている。そして、ワークショップでは、利用されているプロトコルの理解やインストールしながらの動作確認、関連システムのデモンストレーションが行われた。

 会議全体に言えることは、Web上に展開されるオープンなリポジトリに対してこれから先の研究環境として重要な機能を見出し、それを実装してベストプラクティスを示すことが求められていることである。

 未来を見据えて研究教育環境づくりを志すDRFのメンバーは率先して参加すべき、世界をリードする先進のリポジトリにかかる議論と開発を行う一員となるための国際会議の一つではなかろうか。

この文章は月刊DRF7月号に寄稿したものと同じ内容です。
会場となったマドリードの街並み