2010/03/14

OAI-ORE

米国のCyberinfrastractureや英国のe-Scienceの流れの中で、科学技術論文の出版のあり方が変わりつつある。Tim-Berners LeeがCERN(欧州素粒子物理研究所)にて、研究のためのドキュメントや資料を容易にデスクトップ上に表示できるWebを考案してから20年もの歳月をかけてここまでのインフラが整いつつある。Web3.0と位置づけられるSemantic Webの世界がいま目の前に繰り広げられつつある段階である。Open Archives Initiativeが開発したORE(Object Reuse and Exchange)とは、本来的な学術知識の創生メカニズムを維持しながらこのSemantic Webの世界を前提とする、学術コミュニケーションの在り方の変革に必須なWebオントロジーである。

World Wide WebのArchitectureでは、すべての概念や事物はURI(Uniform Resource Identifier)で表現される。学術知識の例をあげれば、論文を構成するパラグラフや図、表までもがURIとして表現される。論文そのものにはHTMLテキストやPDF、PSなど様々なフォーマットが存在しうるが、それぞれのフォーマットに対応した論文単体もURIで表現される。論文の書誌事項が記述され、様々なフォーマットへのリンクが張られたHTMLページ、いわゆるスプラッシュページ(Splash Page)もURIの一つとして表現される。また、ジャーナルやカンファレンスプロシーディングスもURIとして表現される。表現の粒度は限定されることなく、概念に対してURIが対応付けられる。

OAI-OREはURIで表現された学術コミュニケーション上の概念に対して、最低限の関連性を規定する。リソースには、以下の4つの概念クラスが用意されている。
  • Aggregation (集合体)
  • AggragatedResources (被集合リソース)
  • ResourceMap (リソースマップ)
  • Proxy (プロキシ)
 URIで表現される概念すなわちリソースを集めて集合体(Aggragation)を形成すると考える。集合体に集められたリソースをとくに被集合リソース(Aggragated Resources)と呼ぶ。論文の書誌事項と関連ファイルのリンクを集めた、たとえばarXiv.orgのスプラッシュページを例にとると、スプラッシュページを集合体とし、実際の論文PDFやPS、OtherFormatsは被集合リソースと分類される。集合体と被集合リソースの関係は階層的であり、集合体が別の集合体の被集合リソースとなる場合も許容される。ここでのスプラッシュページは集合体である一方で、論文そのものはジャーナル誌のある巻・号に収録されるというコンテキストでは被集合体と呼ばれることとなる。集合体と被集合リソースの関係の記述自体もWeb上に存在する必要があって、関係の記述をリソースマップ(ResourceMap)と呼ぶ。リソースマップは後で説明するOREオントロジーの語彙を用いて記述していく。
また、知識の生成過程の中で、あるコンテキストの中に存在するリソースを引用したい時がある。コンテキストとリソースを同時に表現したものがプロキシ(Proxy)である。たとえば、ある論文中の図を引用したいときを考える。図はURIであらわされるが、引用としてはどの論文にあるかを明示しなければならない。図のURIは図の存在を示すために固有であるべきであって、ある論文に包含されていることを含めてはいけない。そのため、集合体としての論文に被集合リソースとしての図が含まれていることを示す概念をURIとして別に表現する必要があり、それがプロシキである。
これら4つの概念クラスに分類されたリソースに付随して用意された語彙は以下のとおりである。 接頭辞ore:は、http://www.openarchives.org/ore/terms/で示される名前空間を示す。
  • ore:aggregates (~を集める)
  • ore:isAggregatedBy (~に集められる)
  • ore:describes (~を記述する)
  • ore:isDescribedBy (~に記述される)
  • ore:similarTo (~に類似である)
  • ore:proxyFor (~のためのプロキシである)
  • ore:proxyIn (~にあるプロキシである)
  • ore:lineage (~をひとつ前とする)
これらの語彙はとりうる主語と目的語の概念クラスが規定されている。Webオントロジーの用語を用いれば、ドメインとレンジが規定されている。次のように主語、述語、目的語でトリプルを構成でき、それぞれの意味を示す。"URI-A ore:aggregates URI-AR"は、「集合体URI-Aは被集合リソースURI-ARを集める」を意味する。"URI-AR ore:isAggregatedBy URI-A"は、「被集合リソースURI-ARは集合体URI-Aに集められる」を意味し、ore:aggregatesと逆の関係にある。"URI-RM ore:describes URI-A"は、「リソースマップURI-RMは集合体URI-Aを記述する」を意味する。"URI-A ore:isDescribedBy URI-RM"は、「集合体URI-AはリソースマップURI-RMに記述される」を意味し、ore:describesと逆の関係にある。"URI-A ore:similarTo Any-URI"は、「集合体URI-AはリソースAny-URIに類似である」を意味する。ore:similarToの目的語は概念クラスを規定されず、どのようなリソースを対象としてもかまわない。たとえば、論文のDOI識別子を基底にしたinfo:doi:10.1108/07378830310479794などのinfo-URIを想定している。"URI-P ore:proxyFor URI-AR"は、「プロキシURI-Pは被集合リソースURI-ARのためのプロキシである」を意味する。"URI-P ore:proxyIn URI-A"は、「プロキシURI-Pは集合体URI-Aにあるプロキシである」を意味する。ore:proxyForとore:proxyInは同時に記述する必要がある。"URI-P-2 ore:lineage URI-P-1"は、「プロキシURI-P-2はプロキシURI-P-1をひとつ前とする」を意味する。ある論文における図の出現順をあらわすときに記述される。

集合体とリソースマップの関係はリソースマップに記述される。すなわちリソースマップから集合体へのリンクリレーションは存在している。集合体そのものはスプラッシュページとは異なり、概念として存在しているので、World Wide Webのアーキテクチャに従ってHTTPロケーションを指定する303リダイレクトによってリソースマップへのリレーションを確立する必要がある。リソースマップが複数のフォーマットで記述される場合はコンテントネゴシエーションによって最適なフォーマットのURIへ導く必要がある。ブラウザなどのHTTPエージェントは集合体のURIにアクセスするとリソースマップのURIへ転送される。
OAI-OREを用いた実装例として以下のものがあげられる。
Library of Congress Chronicling Americaは、米国LCがWeb上に提供する新聞記事提供サービスであり、複数のフォーマットの関係や記事タイトル、号の関係をOREによって記述している。Foresite ORE browser plug-inは、Firefox上のgreasemonkeyプラグインでありJSTORのサイトにアクセスすることでリソースマップが表示される。Zentityは、Microsoft Researchが提供するリポジトリプラットフォームでありOREを実装している。また、WordのOREプラグインも提供している。WordPress ORE Plug-inは、メジャーなブログプラットフォームであるWordPressのプラグインであり、投稿やページをリソースとして記述しリソースマップがAtom配信フォーマットとRDFで出力される。メジャーな機関リポジトリである、Fedora、DSpace、ePrintsに実装されている例も見受けられ、日本の機関リポジトリであるWEKOにも実装されている。


OAI-ORE開発責任者の一人Harvert Van de Sompelのプレゼンは、以下のYouTubeで。