情報組織化研究グループ月例研究会報告(2014.1)
レビュー『Linked Data: Webをグローバルなデータ空間にする仕組み』
小村愛美(神戸大学附属図書館)
- 日時:
- 2014年2月1日(土) 14:30〜17:00
- 会場:
- キャンパスポート大阪(大学コンソーシアム大阪)
- 発表者 :
- 小村愛美氏(神戸大学附属図書館)
- テーマ :
- レビュー『Linked Data: Webをグローバルなデータ空間にする仕組み』
- 共催:
- 書誌コントロール研究会(科学研究費基盤研究(C) 課題番号25330391 研究代表者:和中幹雄)
- 出席者:
- 有馬良一(同志社大学)、江上敏哲(国際日本文化研究センター)、川崎秀子、河手太士(静岡文化芸術大学図書館)、倉知桂子(京都看護大学開設準備室)、古賀崇(天理大学)、塩見橘子、篠田麻美(国立国会図書館)、末田真樹子(大阪大学)、杉本節子、鈴木昭子(同志社大学)、田窪直規(近畿大学)、田村俊明(紀伊國屋書店)、日吉宏美(神戸大学)、福永智子(椙山女学園大学)、前川敦子(神戸大学附属図書館)、松井純子(大阪芸術大学)、村井正子(日本アスペクトコア)、村上健治(滋賀医科大学)、吉村風(国立国会図書館)、渡邊隆弘(帝塚山学院大学)、和中幹雄(大阪学院大学)、小村<23名>
発表者は、当グループが昨年7年〜11月全6回で行った勉強会(文献輪読会) 1) に参加した。そこで取り上げた『Linked Data』(トム・ヒース,クリスチャン・バイツァー著,武田英明[ほか]訳,近代科学社,2013.1)の概要を中心に、Linked Data(以下、LD)活用にあたっての課題などが報告された。
1. 勉強会紹介
2. 『Linked Data』紹介
LDとは、構造をもったデータをWeb上で共有するためのしくみであり、W3Cが2007年1月に創設したLODプロジェクトを起源とする。本書は、LDについて包括的に述べた初めての図書(原書は2011年1月刊)とされる。LDに関する基本的な説明と実践的・技術的解説が併記される。「BIG LYNX社」という架空の企業をシナリオにRDFの記述例が示されたり、実際のLDのデータセットが紹介されている。図書館分野への言及も見られる(3.2.5)。ただし、LDの現状は本書の内容よりも進んでいる。
●「1章 はじめに」
- 近年、Web企業や政府、科学研究団体などがデータの公開・共有を行うようになり、データの氾濫が生じている。第三者がこれらのデータをビジネスや科学の発展のために共有・利用するには、どのようなしくみが必要かを考えねばならない。
- LDの原理とは、再利用(公開・共有)のためのデータの構造化である。従来Webはデータよりも文書の構造化を志向しており(HTML形式)、構造化されたデータの抽出は困難だった。構造化データの公開・利用のためにmicroformatsやWeb API(XML、JSON)が使用されるが、それぞれに制約があり、データがWeb上に断片的に存在することになる。
- Web上に分散したデータをつなぐデータモデルとしてRDF(Resource Description Framework) がある。RDFは文書だけでなく事物をもリンクし、データとデータの関係性を記述できる。
●「2章 Linked Dataの基本原則」
- T. バーナーズ=リーが提唱した、次の4つの基本原則が説明される。
原則1:あらゆる事物にURI(Uniform Resource Identifier)を付与すること。
原則2:誰でも事物の内容が確認できるように、URIはHTTP経由で参照できること。HTTPクライアントがURIにアクセスすると同定されたリソースの記述内容を参照解決(dereference)できる。
原則3:URIを参照した時は、標準の技術(RDFやSPARQL等)を使用して関係する有用な情報を利用できるようにすること。RDFの使用を推奨。
- RDFのシリアル化(RDFトリプルを特定の文法にしたがってファイルに書き出すこと)形式として、RDF/XML、RDFa、Turtle、N-Triples、RDF/JSON等がある(DBpedia(ウィキペディアのLOD版) 2) のリソースのRaw Data(各形式での記述) を参照)。
原則4:より多くの事物を発見できるように他のURIへのリンクを含めること。RDFリンクには関係リンク、同一性リンク、語彙リンクの3つがある。
- LD公開の進め方の5段階を説明した。
●「3章 データのWeb」
- LODクラウドの図によりデータのWebの構造を概観し、各分野のデータセット(LDの実例)を紹介。
- 図書館のデータは高度に構造化され、LDとの親和性が高い。VIAF、RDA、Web NDL Authoritiesがすでに公開され、NIIも今年4月から総合目録DBのデータをRDF形式で公開することになった 3) 。
●「4章 つながるデータをデザインしよう」
- 公開に適したデータの記述方法や構造を検討。
- まずは事物にURIで名前をつける(URIの発行)。事物を表現するには次の3つのURIが必要である。
1)事物そのものを表現するURI
2)事物をHTMLで記述した文書のURI
3)事物をRDF/XMLで記述したデータのURI
- これらのURIの視覚的な識別のために、異なるサブドメインや拡張子で区別する方法がある。
- さらに、データセットそのものの記述(データセットの製作者・更新状況・適用ライセンスなどのメタデータ)も必要である。Web上のライセンスに、クリエイティブ・コモンズ・ライセンスがある 4) 。
- 事物のクラスや事物間の関係は、RDFそのものでなくSKOS、RDFS、OWLにより表現される。DCMIなどの既存語彙の再利用も推奨される。
●「5章 Linked Data公開のレシピ」
- LD公開のパターンとしては、1)リレーショナルDBからwrapperを用いてRDFに変換する、2)APIなどで検索可能な動的な構造化データは各APIに沿ってカスタマイズされたwrapperによりLD化する、3)CSV、Excelなどの静的な構造化データはRDF化してRDFストアから提供する、などがある。
- 公開のためのチェックリスト(8項目)を紹介。
●「6章 Linked Dataを利用する」
- LDを利用する既存のアプリケーションを紹介。
- 汎用と分野に特化したものがあるが、汎用にもブラウザタイプ(Marblesなど)と検索エンジンタイプ(Sig.maなど)がある。Googleやyahoo!ではリッチスニペット形式の結果表示にLDを利用している。
- data.gov、data.gov.ukは政府データ関連のアプリケーションを多数公開し、DBpedia MobileはGPS情報とDBpediaの地理情報をマッシュアップして提供するスマートフォン用アプリケーションである。
3. 読み終えての感想
- Linked Dataの概念は理解できた。実際にデータに触れながら読むほうが、理解が進むのではないか。
4. Linked Dataに関する+α
- LDの使用に際し、公開されたデータを眺める。
例:DBpedia Japanese、日本語Wikipediaオントロジー研究ページ、Data for Japan (含CKAN日本語)。SPARQLエンドポイントも活用。
- LD公開・活用支援サイトとして、LinkData.org、OPEN Refine、AppLinkDataなど。
- LOD関連の研究会やイベントの増加、公的機関によるオープンデータ化の推進は、図書館データのオープン化もつながる。間口の広がりを感じる。
- 質疑応答では、日本におけるLD公開の現状、NIIのデータ公開ではクリエイティブ・コモンズ・ライセンスをどこまで適用するのか、などが出された。
1) http://josoken.digick.jp/study/2013/2013.html
2) http://ja.dbpedia.org/
3) http://www.nii.ac.jp/CAT-ILL/about/project/od2013/
4) http://creativecommons.jp/
(記録文責:松井純子 大阪芸術大学)
- 当日の資料
- スライド資料(http://www.slideshare.net/itsumikomura/140201josoken-linkeddata-30733136)