情報組織化研究グループ月例研究会報告(2013.9)
Linked Open Dataの基礎とこれからの情報活用
嘉村哲郎(東京藝術大学芸術情報センター/総合芸術アーカイブセンター, NPO法人 リンクト・オープンデータ・イニシアティブ)
- 日時:
- 2013年9月21日(土) 14:30〜17:00
- 会場:
- キャンパスポート大阪(大学コンソーシアム大阪)
- 発表者 :
- 嘉村哲郎氏(東京藝術大学芸術情報センター/総合芸術アーカイブセンター, NPO法人 リンクト・オープンデータ・イニシアティブ)
- テーマ :
- Linked Open Dataの基礎とこれからの情報活用
- 出席者:
- 井原英恵(神戸大学)、大西賢人(京都大学)、尾松謙一(奈良県立大学附属図書館)、川崎秀子、河手太士(静岡文化芸術大学図書館)、古賀崇(天理大学)、小村愛美(神戸大学)、塩野真弓(京都大学)、末田真樹子(大阪大学)、田窪直規(近畿大学)、津賀智美、中村美里(国文学研究資料館)、灘井雅人(園田学園女子大学)、日吉宏美(神戸大学)、堀池博巳、前川敦子(神戸大学図書館)、前川和子(大手前大学)、松井純子(大阪芸術大学)、村川猛彦(和歌山大学)、松林正己(中部大学)、丸山文隆(KSCOP)、宮崎幹子(奈良国立博物館)、村井正子(日本アスペクトコア株式会社)、和田康弘(LODチャレンジ2013実行委員会)、渡邊隆弘(帝塚山学院大学)、和中幹雄(大阪学院大学)、嘉村<27名>
近年、公共情報や芸術・文化情報をWeb上で公開し、データとして自由に利用できるオープンデータ(Open Data)の取り組みが注目されている。そのための標準化されたデータ構造をもつリンクト・オープンデータ(Linked Open Data: LOD)と合わせて、基本的な仕組みと技術、取り組みの現状、活用事例などを幅広くご発表いただいた。
1.Open Data概説
- Web上のコンテンツやデータの「オープン」とは、「それらを誰もが自由に利用、再配布、再利用できること」。また「オープンデータ」とは、オープンライセンスを適用したデータのことである。
- オープンデータの特徴は、1)政府・自治体・企業・コミュニティなどの組織や個人が保有するデータを公開し、第三者が自由に利用できるようにする、2)情報を公開することで存在を世の中に伝える、3)CSV、XMLなどの再利用可能かつ機械処理できる形式で公開する、4)公開データにできる限りオープンライセンスを適用する、などである。
- 2009年のT・バーナーズ=リーによる呼びかけを契機に、各国でOpen Governmentの取組が行われるようになった。2013年6月のG8サミットでは「オープンデータ憲章」の5原則が合意された。今日では米英を筆頭に活発な取り組みが行われ、日本では経産省がOpen DATA METIというサイトを開設、福井県鯖江市も積極的にデータを公開している。
- EUでは、2003年に「公共セクターの情報の利活用に関する指令」(EU PSI指令2003/98/EC)を制定。公的機関の保有する情報について、1)公開が基本、2)再利用可能かつ商業・非商業の目的を問わない、3)機密性の高い国家情報、放送局・研究機関・MLA(博・図・文書館)が保有する情報は当面対象外、とされたが、3)は2013年6月の改正で公的MLAを対象に加えることになった。また2012年には、条件付きながらOrhan works(権利者不明の作品)のデジタル化・Web公開が認められた。
- オープンデータ公開の手段として、カタログサイト「CKAN(http://data.linkedopendata.jp/dataset)」への登録、Wikipediaへの掲載などが紹介された。
- データ共有のための5つのステップ
ステップ1:データをオープンライセンスで公開。データ形式は問わない(例:PDF、jpgなど)。
ステップ2:構造化された形式で公開(例:表は画像よりもエクセル等で)
ステップ3:機械処理できる汎用的な形式で公開(例:csv、tsv、jsonなど)
ステップ4:IRI(Internationalized Resource Identifier:国際化リソース識別子)を含めたRDFデータで公開
(例:RDF、SPARQL Endpoint)
ステップ5:他のRDFデータへのリンクを含めたオープンライセンスのデータを公開
ステップ3までと4や5との差は大きい。使用する側にとって効率的なデータ環境の提供が重要。
2.Linked Open Data
- Linked Open Dataとは、オープンライセンスを適用した標準化されたデータのことである。
- Linked Dataの基本原則
1)IRIをあらゆる事物の識別子に使う。
2)IRIの利用には、HTTPの技術を用いる。
3)IRIにアクセスすると、事物に関する構造化データ(RDF、SPARQLなど)が得られる。
4)データには他のIRIへのリンクを含める。
- Dereference(参照解決)
LODでは事物の実体とそれを記述した表現を区別する。コンテントネゴシエーションにより、人が見る情報とコンピュータが見るデータを自動的に判別する。実体と表現の区別には「303転送型IRI」(COOL IRI)を利用する。
- RDFの特徴
W3Cにより標準化されたデータモデルで、リソースを主語・述語・目的語の3つ組(Triple)で表す。リソースをHTTPで参照可能なIRIで表現するとインターネット経由でデータを参照できる(Linked Data)。RDFのシリアル化形式は、近年は主にTurtleやJSON-LDなどが用いられている。
- SPARQL EndpointとSPARQL クエリ
SPARQLとはRDFデータの検索や操作のためのクエリ言語である。SPARQL EndpointとはRDF StoreへのSPARQLクエリを受け付ける場所であり、IRIを指定して、プログラムからSPARQLクエリを発行し結果を取得できる。クエリを試せる入力フォームを備えている場合がある。SPARQL Endpointの例として、「DBpedia Japanese(http://ja.dbpedia.org/)」などがある(DBpediaは、Wikipediaから情報を抽出してLOD として公開するサイト)。
3.Linked Open Dataの利用事例
British Library Data Model、Yale Centre for British ART、BookSampo (フィンランドナショナルライブラリ)、europeana、Linked JAZZ、福井県鯖江市観光案内アプリケーションなどが紹介された。
4.まとめ
データ共有への5つのステップのうち、ステップ4または5でデータを公開する意義が説明された。
最後に「ステップ3からステップ4に進むためのRDF形式への変換をどうすればよいか」というフロアからの質問に対し、「Open Refine」「linkdata.org」などのツールやサイトを紹介いただいた。
(記録文責:松井純子 大阪芸術大学)
- 当日の資料
- スライド資料(http://www.slideshare.net/kamuratetsuro/linked-open-data-26682791)