TOP > 月例研究会 > 2021 > / Last update: 2021.5.30

情報組織化研究グループ月例研究会報告(2021.05)

「日本の学術出版物におけるオープン・サイテーション」

西岡千文氏(京都大学附属図書館研究開発室)


日時:
2021年5月15日(土)14:30〜16:00
会場:
(Zoomミーティング)
発表者:
西岡千文氏(京都大学附属図書館研究開発室)
テーマ:
「日本の学術出版物におけるオープン・サイテーション」
出席者:
荒木のりこ(大阪大学)、井上昌彦(関西学院大学図書館)、今野創祐(京都大学)、江上敏哲(国際日本文化研究センター)、大野綾佳、古賀崇(天理大学)、坂下直子(京都大学)、高久雅生(筑波大学)、田窪直規(近畿大学)、谷合佳代子(エル・ライブラリー(大阪産業労働資料館))、時実象一(東京大学大学院情報学環)、徳原靖浩(東京大学附属図書館U-PARL)、長坂和茂(京都大学桂図書館)、長瀬広和、中村健(大阪市立大学)、福井雄大(滋賀文教短期大学)、福田一史(大阪国際工科専門職大学)、松野高徳(椙山女学園大学)、水谷長志(跡見学園女子大学)、宮川創(京都大学大学院文学研究科附属文化遺産学・人文知連携センター助教・情報ネットワーク管理室助教兼任)、宮田洋輔(慶應義塾大学)、森原久美子(秀明大学図書館)、結城憲司(九州大学附属図書館図書館企画課)、和中幹雄、他7名、西岡<32名>
発表資料公開先:
http://hdl.handle.net/2433/262914

1.オープン・サイテーション(OC)とは?

 近年、引用データのオープン化が進展している。オープン・サイテーション(OC)の定義だが、本発表では、Peroniらによる定義に倣って、以下の3つの原則("SSO Principles")を満たす引用データをOCであるとする。

 さらに、引用データにて引用元・引用先となっている文献は以下の2つの原則を満たさなければならない。

 OCはオープンサイエンスを構成する要素である。また、OCはオープンデータであるとも言える。オープンアクセスは多くの場合、オープンデータの5つ星スキームで言えば★(オープンライセンスでデータを公開)に該当する。対して、OCは★ ★ ★ ★(Web標準(RDF等)のフォーマットでデータを公開)や★ ★ ★ ★ ★(他へのリンクを入れたデータ(LOD)を公開)を目指す。

2.日本の学術出版物におけるオープン・サイテーションの状況についての分析

2.1手法

2.1.1分析に使用したデータセット

 まず、引用データについて述べる。様々なプラットフォームでOCである引用データが公開されているが、本研究ではOpenCitations CorpusのCOCI (Open Citations Index of Crossref Open DOI-to-DOI references)(2018年11月22日版)を分析に利用する。これは出版者から登録されたデータを元に作成されているので、高品質である。COCIは引用元文献と引用先文献のDOIのペアから構成されているが、引用元文献についてはCrossref DOIをもつ文献のみが対象となっている。引用先文献としてはあらゆるDOIをもつ文献が対象となっている。46,530,436件の文献間の引用関係が449,842,375件収録されており、引用元文献が24,182,977件、引用先文献が38,481,195件収録されている。COCIでは、OCは文献単位で実装されている。日本の学術出版物におけるOCの状況を調査し、どの程度の日本の学術出版物が、引用文献リストをオープン・サイテーションとして公開しているかを明らかにすることが当研究の目的である。よって、当研究では、COCIの様々なフィールドのうち、引用元文献のみに着目する。

2.1.2日本の学術出版物

 当研究では、「日本の学術出版物」とは日本の出版者から公開された出版物を意図する。引用データをオープンにする主体は著者ではなく出版者であることが多いため、日本の出版者から公開された出版物を対象とした。当研究ではJaLCメタデータ(2018年9月7日版)のデータセットを利用する。JaLCメタデータには、JaLCによって付与されたDOIをもつ6,370,356件の文献が収録されている。COCIで引用元文献(引用文献リストを公開している文献)として収録されている文献はCrossref DOIをもつ文献のみで、JaLC DOIが付与されたものは、対象外である。しかし、JaLCはCrossref DOIの付与も行っているため、当研究では、JaLC経由で登録されたCrossref DOIを保有する文献に分析対象を絞る。「JaLC経由で登録されたCrossref DOIをもつ文献」=「JaLCメタデータの収録文献」∩「Crossrefメタデータの収録文献」となる。Crossrefメタデータとしては、2018年9月に収集・作成されたCrossref DOIが付与されている全文献99,874,789件のメタデータのデータセットを利用する。さらに当研究では、各文献のオープンアクセス状況に応じたOCの状況についても調査する。このことから、「調査対象文献」=「JaLC経由で登録されたCrossref DOIをもつ文献」∩「unpaywallの収録文献」とする。unpaywallはあらゆる文献の合法的にオープンアクセスとなっている版を探索・提供するウェブブラウザの拡張機能である。当研究では、JaLCメタデータに収録されている6,370,356件のうち、2,049,891件(32.18%)を調査対象とする。さらに、比較のため世界の学術出版物を対象とした調査も実施する。こちらはCrossrefメタデータとunpaywallどちらにも収録されている99,848,571件が調査対象となる。

2.1.3各文献のオープン・サイテーション状況のラベル付け

 各文献に、下記のうちいずれかのOC状況を示すラベルを割り当てる。

2.2結果

 以下の事実が明らかとなった。

 オープンアクセス(OA)である文献とそうでない文献のあいだに、OCの状況に差異があるかという点に関して言えば

 DOAJ(Directory of Open Access Journals。OAジャーナルとその論文をリストしたウェブサイトである。リストに掲載されるためには「全コンテンツに無償でアクセス可能である」かつ「査読・編集によって高品質基準を満たしている」という条件を満たさなければならない)に収録されている文献とそうでない文献のあいだに、OCの状況に差異があるかという点に関して言えば

 異なる分類の文献のあいだに、 OCの状況に差異があるかという点についても分析した。文献の分類の特定方法は以下のとおりである。

 その結果、以下が判明した。

 文献のメタデータの付与・登録方法は、雑誌ごとに概ね統一されている。引用文献リストのCrossrefへの登録やそれらの公開については、出版者や編集者の意向が反映される。以上の点を踏まえ、どのような雑誌でOCが進展しているかを調べた。
 収録文献が100件以上ある雑誌で、オープンの文献の割合が最も高い雑誌10誌はすべてSTM分野に属する英文誌だった。これらの雑誌の多くはWoS Core Collectionに収録されていてIFを保有していることから国際的な認知が高い。日本の学術出版物の多くがJ-STAGEを出版プラットフォームとして利用していることに対して、10誌中5誌がNature等の商業出版社や海外で広く利用されているAtypon社の出版プラットフォームを利用していた。このことから、商業出版社や出版プラットフォームでの慣習がOCに影響を与えていることが考えられる。
そのため、どのような出版プラットフォームでOCが進展しているかを調査した。各文献のDOIの第一リダイレクト先URLの"Top Level Domain (TDL) + Second-Level Domain"を出版プラットフォームとした。結果は以下のとおりである。

 引用データは著作権などで保護されているという考えもあるため、論文と同様に、出版者が定めるエンバーゴ期間にはオープンにできないということも考えられる。また、古い文献では、引用文献リストが組織化されていないということも考えられる。よって、異なる出版年の文献のあいだに、OCの状況に差異があるかを調査した。文献の出版年はCrossrefメタデータより取得した。結果は以下の通りである。

 大学等の研究機関が発行する学術雑誌である紀要は、機関リポジトリが主たる公開場所となっていることが多い。J-STAGEや商業出版者のプラットフォームでは各文献のページにて引用関係がある文献へのリンクが付与されており、科学的知見の検証可能性の向上に寄与している。対して、多くの機関リポジトリではリンクは表示されない。リンクを表示するには、引用データが組織化されている必要があり、さらにオープンになっていることが望ましい。従って紀要に注目して、OCの状況を調査した。紀要を以下の2種類の方法で特定して、調査を実施した。

  国立国会図書館分類でZV1(紀要)に分類される文献を、国立国会図書館分類で紀要に分類される文献とした。雑誌記事索引採録誌一覧では、掲載されている23,910誌のうち3,029誌にZV1の分類が与えられている。ISSNで紐付けを行い、 ZV1の分類が割り当てられている文献6,533件を特定した。そのうち、2,131件(32.62%)がオープン、499件(7.64%)がクローズド、3,903件(59.74%)が未整理・非存在に分類された。これらは5つの雑誌のいずれかに収録されていたが、いずれもJ-STAGEで公開されており、この調査の趣旨からずれる。
 文献の出版者名に"University"または"College"が入っている文献を、大学が出版者となっている文献とした。26件の出版者が該当したが、そのうち18件は出版社(例:オックスフォード大学出版局)・学会等である。これらを除いた8件の出版者の文献は、機関リポジトリを利用して出版している。8件の出版者は計6,572件の文献を出版しており、そのうち2,215件(33.70%)がオープン、1,228件(18.69%)がクローズド、3,129件(47.61%)が未整理・非存在に分類される。紀要はいずれもオープンアクセスであるが、引用データをクローズドにしている文献が存在するため、OCの認知向上が求められる。

2.3考察:調査で判明した課題と解決策

 大向によるとオープンデータは「制度面ならびに技術面における再利用性が確保された情報公開の枠組み」とされる。当研究のOC状況のラベルのうち「未整理・非存在」は、技術面での再利用性の確保に課題があると考えられる。以下に該当する日本の学術出版物は、引用データが未整理・非存在である割合が高い。

 これらは以下の手段で解決できる可能性がある。

 特に過去の文献、人文学系分野の文献では、引用先文献が識別不可能な(識別子が付与されていない)ことによって、引用データの整理が難しいということも考えられるため、あらゆる学術資料の識別方法の検討が必要である。
 「クローズド」は制度面での再利用性の確保に課題があるとされる。当研究では、OAジャーナルの文献や機関リポジトリで公開されている紀要でも、引用データがクローズドになっているケースが存在することが明らかになった。これらに対しては、Crossrefでの引用データの公開設定等、OCの認知の向上が必要である。一方、商業出版社の文献は、引用データがクローズドになっている文献の割合が高い。これに対しては、オープンアクセスだけではなく、文献に付随するデータのオープン化についても働きかけを実施する必要がある。例えば、Plan Sでは学術雑誌への推奨事項として「I4OCが定める標準に沿った引用データへのアクセスの提供」を挙げている。
 JaLCは現在すでに書誌データを公開しているが、引用文献や被引用情報についてもオープン化される方針を示していることから、日本の学術出版物でのOCの進展が期待される。

3.京都大学図書館機構でのオープン・サイテーションの試行

 京都大学では、学内の紀要を対象として、OCを試行した。試行の対象とした紀要は

である。紀要は、特に人文社会学系分野において重要な研究成果の公表の場であり、機関リポジトリが主たる公開場所として利用されていることが多い。しかし、OCを実装するためのリソースは少ない。引用データは知識体系を示しており、文献のOCは文献を既存の知識体系への埋め込むことと捉えられる。多くの機関リポジトリでは引用先文献へのリンクは表示されていない。表示することによって、利用者に対して知識体系を提示することができ、研究支援につながる。
 試行の手順としては、まず「引用データの組織化(「構造的」かつ「分離可能」にする。各紀要論文の註や参考文献を参照し、その紀要論文の引用データを組織化する)」を行う。次に、場合によっては「引用データの公開(「オープン」にする。文献のメタデータの付与等を行う)」を挟んで、最後に「引用データの利活用」を実現する。引用データの利活用では、機関リポジトリで引用文献リストを表示することにより、研究の検証可能性の向上に貢献する。また、計量書誌学等・学術情報探索様々な用途での利活用が期待できる。
 引用データの組織化の試行の実態であるが、仕様書を作成して、引用データの作成を外注した。入力をお願いした項目は、引用元文献については識別子、引用先文献については種別、著者、タイトル、雑誌/学会、巻、号、頁番号、出版者、識別子、リンク先URLである。OCの実装に必要なこととして、引用先文献が識別子によって識別可能でなければならないということが挙げられる。引用先文献の種別を調べると、教育学研究科紀要と人文學報の両紀要で図書(部分)や図書が大きな割合を占める。特に人文學報では引用先文献の種別が多岐にわたり、識別子がない引用先文献が多い。引用先文献の種別が不明のものも多い。
 試行で明らかになった課題は以下の通りである。

 以上の発表を受けて、教育学分野の雑誌のOCの割合が高いのは、教育工学系の雑誌が多いからか、アジア各国の国内での引用データ流通の動きと欧米中心の国際的なOCの動きはどう関係しているか、参考文献の構造化とデータ化は現時点でどこが担当し今後どこが作るべきなのか、紀要のOCの割合の意外な高さについて等の質疑があった。

 なお、今回の月例研究会については、Zoomの映像を録画し、開催後一週間に限り、出席を申し込んだものの欠席された方にも、映像を配信した。

(記録文責:今野創祐)