2010/12/28

NPOとなったORCIDの参加者会議

 2010年9月7日にORCID (Open Researcher and Contributor ID)が米国デラウェア州のNPO法人に承認されたというプレスリリースが出され、ボードメンバーは10月8日に新たに組織内の役割を選挙によって決定した。参加者が集まる会議としては選挙後初めてであり、新しい顔ぶれによって進捗内容が報告された。ここでは、その会議の概要を紹介することにしよう。

 参加者会議は、2010年11月18日の9時から13時までタイトなスケジュールが組まれて、英国ロンドンにあるWellcome Trustの会議室で行われた。Wellcome Trustのオフィスはセキュリティが厳重であり、オフィス内に入るのも出るのも職員の許可が必要な場所であったが、透明なガラスを基調としたモダンな造りの建物は美術館を思わせるようなセンスの良さと高い吹き抜けが象徴するような風通しの良さが心地よいオフィスの雰囲気を作っていた。

 会議は、6階にある会議室で80名あまりの参加者とおそらく30名程度の電話会議参加者とが集まってスタートした。オープニングは、新たにボードメンバーのチェアとなったNature Publishing GroupのHoward Ratnerが行った。Howard Ratnerは、これまではテクニカルワーキンググループのチェアであったが、今回の選挙でORCID全体のチェアを務めることになった人物である。

 まず、Howard Ratnerから会議全体のオーバービューと組織のアップデートついて報告があった。続けて、エグゼクティブコミッティメンバーの一人ACMのBernard Rousから、新たに定義されたORCID Principlesの紹介があった。これにもとづいて今後の組織のかじ取りが行われる予定である。取り上げるべき事項としては次のものがあるであろう。研究者がORCIDに寄稿したり申告したりしたプロファイルデータは、すべての人がダウンロード可能であり、クリエイティブコモンズの定義した自らが著作権を主張しないという意味のCC0ライセンスとして権利放棄することが示された。さらに、ORCIDのシステムはオープンソースイニシアティブの認定するオープンソースとして公開する予定であることが示された。

 続けて、ビジネスワーキンググループのチェアの一人CrossRefのEd Pentzからは、持続可能な経営の在り方について報告がなされた。エグゼクティブコミッティメンバーの一人MITのMackenzie Smithからは、10月末に行ったサーベイの結果が報告された。ステークホルダーのORCIDに期待する最も関心の高い項目は著者名寄せであることが再確認された。アウトリーチワーキンググループチェアでHannover Medical SchoolのMartin Fennerからは、様々なメディアを用いてORCIDの公報の在り方について紹介があった。そして、さきほどのBernard Rousから、NIHとの交渉を進めていることの報告があった。NIHのPubMed Author IDとORCIDのIDを対応させるということである。NIHとの交渉はこれからであるが、NIHグラントの研究成果に付随する義務化という強制力とブランド力は今後のORCIDの活用に大きく影響することは否めない。続けて、OCLCのJenifer GatenbyからISNIについて紹介があった。ISNIはORCIDより扱う対象が広く、IDはCreatorにつけられる。ISNIとORCIDはID連携する予定である。テクニカルワーキンググループのチェアでThomson ReutersのBrian Wilsonからアップデートの報告があった。ワーキングの組織の構成について新たに紹介があった。

 会議の後半は、3人のステークホルダーからそれぞれのORCIDとのかかわりについて紹介があった。さきほどのMITのMacKenzie Smithからは研究大学の図書館からの視点、CERNのSalvatore MeleからはINSPIREという論文検索サービスを提供しているCERNの視点からORCIDとのかかわりについて発表があった。ワシントン大学のKristi HolmesからはNIHのプロジェクトとして進めている研究者ショーケースサービスVIVOについてWebExの電話会議経由で発表があった。

 NPO法人として組織化され新しい顔ぶれとなったORCIDで今後の展開が期待される。ここで触れた会議の内容はORCIDのメンバー組織となることでGoogleサイトからより多くの情報を取得することができる。無料でメンバー組織になることができるので、学術情報流通の新しい世界とサービスを築く重要な技術として著者IDに興味のある組織はぜひとも参加してはいかがだろうか。

ACMのBernard RousとNature Publishing GroupのHowar Ratner

会議の参加者

会場となったWellcome Trustの受付

2010/08/16

OR2010

 第5回International Conference on Open Repositoriesは、スペインはマドリードで2010年7月6日から9日まで4日間おこなわれた。オープンアクセスとリポジトリという2つのキーワードで、現実に利用される研究インフラとして必要なものは何かを議論し、実際に利用されている状況を報告するという実務ベースの会議である。会議は大きく分けて二つの構成になっている。これからの研究・教育環境としてのリポジトリに必要な用件について議論を行い先進的な実践を報告する前半、世界で最も利用されている2つのリポジトリE-PrintsDuraSpace (Fedora, DSpace)の開発に関連した報告を行う後半である。どちらも熱い思いが伝わってくる発表で埋め尽くされ、参加者は400人を超えていたのではないかと思われる。参加者の顔ぶれをみるとファンディングエイジェンシーのマネージャ、研究者、ライブラリアンが多勢であり、出版社は見受けられなかった。アカデミックサイドの活動であることが見て取れる。

 最初にスタートを切る基調講演は、英国サウサンプトン大学のDavid De Roure氏からmyExperimentの紹介であった。myExperimentは、ユーザー同士が研究・実験のワークフロー(Workflow)を共有し、Linked Dataの技術を活用して公開するプラットフォームである。リポジトリにおいて、研究に関連したワークフローを共有することが重要であることをグッドプラクティスとして示した。基調講演を受けて、リポジトリに必要な視点が網羅的に取り上げられる形で各セッションが展開される。研究データ、引用と書誌、管理者用システム、リポジトリプラットフォーム、リポジトリフレームワーク、相互運用ポリシー、データ統合と曖昧性解消、デジタル保存とアーカイブ、アカデミックワークフロー、国レベルのアプローチ、利用統計、持続性とビジネスオペレーション、リポジトリインフラストラクチャ、オープンアクセスポリシーである。筆者はデータ統合と曖昧性解消のセッションにおいて、Web上の研究者名典拠を実現する研究者リゾルバーについて発表を行った。そして3日目の朝、これらすべてを受けて、研究基盤にリポジトリを統合すると題したパネルディスカッションが行われた。これから十年先を見据えて実用的な研究基盤としてのリポジトリはどうあるべきかについて、DuraSpace開発マネージャのSandy Payette、天体観測データ環境整備を行てきたFrancoise Genova、リポジトリ運用連合COARを率いるNorbert Lossou、研究データキュレーションセンターCDLのマネージャStephen Abramsが、ローカルチェアの一人Wolfram Horstmanの司会のもと、率直な意見を述べあった。

 後半では、これらの総体としての著名な実装であるE-PrintsとDuraSpaceの開発に関連するテーマで報告が行われた。実装ベースの議論であるので、実際にコードを書き運用している経験をもとに具体的なモデルが議論されている。そして、ワークショップでは、利用されているプロトコルの理解やインストールしながらの動作確認、関連システムのデモンストレーションが行われた。

 会議全体に言えることは、Web上に展開されるオープンなリポジトリに対してこれから先の研究環境として重要な機能を見出し、それを実装してベストプラクティスを示すことが求められていることである。

 未来を見据えて研究教育環境づくりを志すDRFのメンバーは率先して参加すべき、世界をリードする先進のリポジトリにかかる議論と開発を行う一員となるための国際会議の一つではなかろうか。

この文章は月刊DRF7月号に寄稿したものと同じ内容です。
会場となったマドリードの街並み

2010/05/31

ORCID

 わが国では社会保険庁の年金記録問題の中に登場した「名寄せ」処理、これが学術論文の世界でもたびたび問題として取り上げられてきた。ある論文の著者と別の論文の著者は、同じ人物か別の人物か?ということを判別する問題である。

 閉じられたデータベースの中では、著者に英数字記号のIDをつけて区別し、名前のほかに生没年や職名などを付記して名前典拠を作成、管理することで、同姓同名の著者を区別してきた。日本の出版物や日本人の出版物を収集管理する国立国会図書館は、全国書誌として書誌メタデータを維持管理し、JAPAN/MARCフォーマットで書誌およびその著者のデータを提供している。このJAPAN/MARCの2008年7月5日づけの典拠ファイルを解析したところ、681,924人が登録されており、そのうち漢字圏の東洋人を抜粋すると572,638人が登録されていた。はたしてこれだけの著者で同姓同名の著者が存在する割合はいかほどか。漢字の姓名部分を文字列比較してみたところ73,138人に同姓同名人物が一人以上いる姓名であることが分かった。ざっと1割を超えている。トップは「鈴木博」さんと「田中実」さんで、ともに29人の同姓同名がいることが分かった。

 話を学術論文に戻そう。学術論文の世界ではこれまであまり厳密に著者管理をしてこなかったと思われる。学術論文の世界は図書の世界とは異なって、専門家のための専門家による閉じた世界であり、限られた読者には論文上の著者名と所属、および連絡先を提示するだけで著者区別が可能であり、実用上事足りていたに違いない。しかしながら、昨今の出版される論文数の劇的な増加や研究者の増加、研究論文の質の評価や、出版してきた研究論文の質の評価に基づく研究者本人の評価の重要性が以前にもまして取り上げられることになり、論文の著者を厳密に区別する必要性が高まってきている。にもかかわらず、学術論文では厳密に著者を区別することができないでいる。同一の著者の論文をクラスタリングの技術を用いて分類したり、第三者が目視で判定し分類してみたりしたとしても、実用上必要な99パーセントを超える100パーセントに近い精度を出すことは大変困難を極めている。

 そこで、厳密に著者を区別するために、著者にIDをつけようという動きが世界で起こり始めた。研究者が論文を投稿する段階から著者にIDをつけようというのである。このアプローチを前提に、論文出版者の世界でいま最もホットなのがORCIDである。ORCIDとは、Open Researcher and Contributor IDの頭文字をとったもので、研究者にIDをつける組織を意味し、研究者につけられるIDをも意味する。ORCIDは非営利でどの組織とも独立した団体を目指しており、Web上に出版される雑誌論文の著者すべてを対象として著者名典拠の役割をはたす。CrossRefがWeb上のデジタルオブジェクト、とくに雑誌論文に対してDOI (Digital Object Identifier)を付与、維持管理しているのに対して、ORCIDは研究者にIDを付与、管理する。

 ORCIDはこれからの組織であり、詳細についてあえてここではふれないが、どのようなことをやろうとしている組織なのかということは、タイムリーかつ内容の正確さゆえに絶賛を浴びているEric Hellmanのブログ記事を読むとよいであろう。組織としてORCIDに参加すれば、メンバーはこれまでの議論が蓄積されたWikiにアクセスすることができる。参加資格に原則制限はない。

 写真は、2010年4月29日(木)にORCID参加者ミーティングの会場となったThomson Reuters社@Boston。Boston Inner Harborに面する一角でThomson Placeと呼ばれる場所にある。

Thomson Reuters社入口

通りの向こうに、Boston Inner Harbor

2010/03/14

OAI-ORE

米国のCyberinfrastractureや英国のe-Scienceの流れの中で、科学技術論文の出版のあり方が変わりつつある。Tim-Berners LeeがCERN(欧州素粒子物理研究所)にて、研究のためのドキュメントや資料を容易にデスクトップ上に表示できるWebを考案してから20年もの歳月をかけてここまでのインフラが整いつつある。Web3.0と位置づけられるSemantic Webの世界がいま目の前に繰り広げられつつある段階である。Open Archives Initiativeが開発したORE(Object Reuse and Exchange)とは、本来的な学術知識の創生メカニズムを維持しながらこのSemantic Webの世界を前提とする、学術コミュニケーションの在り方の変革に必須なWebオントロジーである。

World Wide WebのArchitectureでは、すべての概念や事物はURI(Uniform Resource Identifier)で表現される。学術知識の例をあげれば、論文を構成するパラグラフや図、表までもがURIとして表現される。論文そのものにはHTMLテキストやPDF、PSなど様々なフォーマットが存在しうるが、それぞれのフォーマットに対応した論文単体もURIで表現される。論文の書誌事項が記述され、様々なフォーマットへのリンクが張られたHTMLページ、いわゆるスプラッシュページ(Splash Page)もURIの一つとして表現される。また、ジャーナルやカンファレンスプロシーディングスもURIとして表現される。表現の粒度は限定されることなく、概念に対してURIが対応付けられる。

OAI-OREはURIで表現された学術コミュニケーション上の概念に対して、最低限の関連性を規定する。リソースには、以下の4つの概念クラスが用意されている。
  • Aggregation (集合体)
  • AggragatedResources (被集合リソース)
  • ResourceMap (リソースマップ)
  • Proxy (プロキシ)
 URIで表現される概念すなわちリソースを集めて集合体(Aggragation)を形成すると考える。集合体に集められたリソースをとくに被集合リソース(Aggragated Resources)と呼ぶ。論文の書誌事項と関連ファイルのリンクを集めた、たとえばarXiv.orgのスプラッシュページを例にとると、スプラッシュページを集合体とし、実際の論文PDFやPS、OtherFormatsは被集合リソースと分類される。集合体と被集合リソースの関係は階層的であり、集合体が別の集合体の被集合リソースとなる場合も許容される。ここでのスプラッシュページは集合体である一方で、論文そのものはジャーナル誌のある巻・号に収録されるというコンテキストでは被集合体と呼ばれることとなる。集合体と被集合リソースの関係の記述自体もWeb上に存在する必要があって、関係の記述をリソースマップ(ResourceMap)と呼ぶ。リソースマップは後で説明するOREオントロジーの語彙を用いて記述していく。
また、知識の生成過程の中で、あるコンテキストの中に存在するリソースを引用したい時がある。コンテキストとリソースを同時に表現したものがプロキシ(Proxy)である。たとえば、ある論文中の図を引用したいときを考える。図はURIであらわされるが、引用としてはどの論文にあるかを明示しなければならない。図のURIは図の存在を示すために固有であるべきであって、ある論文に包含されていることを含めてはいけない。そのため、集合体としての論文に被集合リソースとしての図が含まれていることを示す概念をURIとして別に表現する必要があり、それがプロシキである。
これら4つの概念クラスに分類されたリソースに付随して用意された語彙は以下のとおりである。 接頭辞ore:は、http://www.openarchives.org/ore/terms/で示される名前空間を示す。
  • ore:aggregates (~を集める)
  • ore:isAggregatedBy (~に集められる)
  • ore:describes (~を記述する)
  • ore:isDescribedBy (~に記述される)
  • ore:similarTo (~に類似である)
  • ore:proxyFor (~のためのプロキシである)
  • ore:proxyIn (~にあるプロキシである)
  • ore:lineage (~をひとつ前とする)
これらの語彙はとりうる主語と目的語の概念クラスが規定されている。Webオントロジーの用語を用いれば、ドメインとレンジが規定されている。次のように主語、述語、目的語でトリプルを構成でき、それぞれの意味を示す。"URI-A ore:aggregates URI-AR"は、「集合体URI-Aは被集合リソースURI-ARを集める」を意味する。"URI-AR ore:isAggregatedBy URI-A"は、「被集合リソースURI-ARは集合体URI-Aに集められる」を意味し、ore:aggregatesと逆の関係にある。"URI-RM ore:describes URI-A"は、「リソースマップURI-RMは集合体URI-Aを記述する」を意味する。"URI-A ore:isDescribedBy URI-RM"は、「集合体URI-AはリソースマップURI-RMに記述される」を意味し、ore:describesと逆の関係にある。"URI-A ore:similarTo Any-URI"は、「集合体URI-AはリソースAny-URIに類似である」を意味する。ore:similarToの目的語は概念クラスを規定されず、どのようなリソースを対象としてもかまわない。たとえば、論文のDOI識別子を基底にしたinfo:doi:10.1108/07378830310479794などのinfo-URIを想定している。"URI-P ore:proxyFor URI-AR"は、「プロキシURI-Pは被集合リソースURI-ARのためのプロキシである」を意味する。"URI-P ore:proxyIn URI-A"は、「プロキシURI-Pは集合体URI-Aにあるプロキシである」を意味する。ore:proxyForとore:proxyInは同時に記述する必要がある。"URI-P-2 ore:lineage URI-P-1"は、「プロキシURI-P-2はプロキシURI-P-1をひとつ前とする」を意味する。ある論文における図の出現順をあらわすときに記述される。

集合体とリソースマップの関係はリソースマップに記述される。すなわちリソースマップから集合体へのリンクリレーションは存在している。集合体そのものはスプラッシュページとは異なり、概念として存在しているので、World Wide Webのアーキテクチャに従ってHTTPロケーションを指定する303リダイレクトによってリソースマップへのリレーションを確立する必要がある。リソースマップが複数のフォーマットで記述される場合はコンテントネゴシエーションによって最適なフォーマットのURIへ導く必要がある。ブラウザなどのHTTPエージェントは集合体のURIにアクセスするとリソースマップのURIへ転送される。
OAI-OREを用いた実装例として以下のものがあげられる。
Library of Congress Chronicling Americaは、米国LCがWeb上に提供する新聞記事提供サービスであり、複数のフォーマットの関係や記事タイトル、号の関係をOREによって記述している。Foresite ORE browser plug-inは、Firefox上のgreasemonkeyプラグインでありJSTORのサイトにアクセスすることでリソースマップが表示される。Zentityは、Microsoft Researchが提供するリポジトリプラットフォームでありOREを実装している。また、WordのOREプラグインも提供している。WordPress ORE Plug-inは、メジャーなブログプラットフォームであるWordPressのプラグインであり、投稿やページをリソースとして記述しリソースマップがAtom配信フォーマットとRDFで出力される。メジャーな機関リポジトリである、Fedora、DSpace、ePrintsに実装されている例も見受けられ、日本の機関リポジトリであるWEKOにも実装されている。


OAI-ORE開発責任者の一人Harvert Van de Sompelのプレゼンは、以下のYouTubeで。

2010/02/04

ISI, Citation Indexの草創期動画

 Thomson Reuters, Health & Science部門が提供するScience関連データベースの中核として,トップレベル学術雑誌のインパクトファクターとして知られるJournal Citation Reportがある.これは,Eugene Garfieldが1955年にScienceで発表したコンセプトCitation Indexes for Scienceが基になっている.50年以上の歳月をかけて現在のデータベースサービスを形成していることは尊敬に値する.

 1992年にThomsonに吸収される前のInstitute for Scientific Information (ISI)時代に作成されたCitation Index紹介ビデオがYouTubeに投稿されている.1960年代に新しいインデキシングの方法として提案され,図書館にあまたあるジャーナル誌から必要な論文を選択する画期的な方法であることがアニメーションで紹介されている.当時としては世界にそう多くはない大型計算機を利用してインデックスを作る様子は,他者にまねの出来ないプロのための情報検索ツールを提供し続けている熱い思いが伝わってくる.

 GarfieldのCitation IndexとVannevar BushのMemexは,現在のGoogleの成功を導いたPageRankに影響を与えたことでも知られている.

(#Garfieldご本人の投稿でした.)