2010/05/31

ORCID

 わが国では社会保険庁の年金記録問題の中に登場した「名寄せ」処理、これが学術論文の世界でもたびたび問題として取り上げられてきた。ある論文の著者と別の論文の著者は、同じ人物か別の人物か?ということを判別する問題である。

 閉じられたデータベースの中では、著者に英数字記号のIDをつけて区別し、名前のほかに生没年や職名などを付記して名前典拠を作成、管理することで、同姓同名の著者を区別してきた。日本の出版物や日本人の出版物を収集管理する国立国会図書館は、全国書誌として書誌メタデータを維持管理し、JAPAN/MARCフォーマットで書誌およびその著者のデータを提供している。このJAPAN/MARCの2008年7月5日づけの典拠ファイルを解析したところ、681,924人が登録されており、そのうち漢字圏の東洋人を抜粋すると572,638人が登録されていた。はたしてこれだけの著者で同姓同名の著者が存在する割合はいかほどか。漢字の姓名部分を文字列比較してみたところ73,138人に同姓同名人物が一人以上いる姓名であることが分かった。ざっと1割を超えている。トップは「鈴木博」さんと「田中実」さんで、ともに29人の同姓同名がいることが分かった。

 話を学術論文に戻そう。学術論文の世界ではこれまであまり厳密に著者管理をしてこなかったと思われる。学術論文の世界は図書の世界とは異なって、専門家のための専門家による閉じた世界であり、限られた読者には論文上の著者名と所属、および連絡先を提示するだけで著者区別が可能であり、実用上事足りていたに違いない。しかしながら、昨今の出版される論文数の劇的な増加や研究者の増加、研究論文の質の評価や、出版してきた研究論文の質の評価に基づく研究者本人の評価の重要性が以前にもまして取り上げられることになり、論文の著者を厳密に区別する必要性が高まってきている。にもかかわらず、学術論文では厳密に著者を区別することができないでいる。同一の著者の論文をクラスタリングの技術を用いて分類したり、第三者が目視で判定し分類してみたりしたとしても、実用上必要な99パーセントを超える100パーセントに近い精度を出すことは大変困難を極めている。

 そこで、厳密に著者を区別するために、著者にIDをつけようという動きが世界で起こり始めた。研究者が論文を投稿する段階から著者にIDをつけようというのである。このアプローチを前提に、論文出版者の世界でいま最もホットなのがORCIDである。ORCIDとは、Open Researcher and Contributor IDの頭文字をとったもので、研究者にIDをつける組織を意味し、研究者につけられるIDをも意味する。ORCIDは非営利でどの組織とも独立した団体を目指しており、Web上に出版される雑誌論文の著者すべてを対象として著者名典拠の役割をはたす。CrossRefがWeb上のデジタルオブジェクト、とくに雑誌論文に対してDOI (Digital Object Identifier)を付与、維持管理しているのに対して、ORCIDは研究者にIDを付与、管理する。

 ORCIDはこれからの組織であり、詳細についてあえてここではふれないが、どのようなことをやろうとしている組織なのかということは、タイムリーかつ内容の正確さゆえに絶賛を浴びているEric Hellmanのブログ記事を読むとよいであろう。組織としてORCIDに参加すれば、メンバーはこれまでの議論が蓄積されたWikiにアクセスすることができる。参加資格に原則制限はない。

 写真は、2010年4月29日(木)にORCID参加者ミーティングの会場となったThomson Reuters社@Boston。Boston Inner Harborに面する一角でThomson Placeと呼ばれる場所にある。

Thomson Reuters社入口

通りの向こうに、Boston Inner Harbor