TOP > 月例研究会 > 2020 > / Last update: 2020.9.21

情報組織化研究グループ月例研究会報告(2020.08)

「コンテンツを起点とする情報の組織化の可能性」

永崎研宣氏(一般財団法人人文情報学研究所主席研究員)


日時:
2020年8月8日(土)14:30〜16:00
会場:
(Zoomミーティング)
発表者:
永崎研宣氏(一般財団法人人文情報学研究所主席研究員)
テーマ:
「コンテンツを起点とする情報の組織化の可能性」
出席者:
阿児雄之、荒木のりこ(大阪大学)、石川武敏(大阪学院大学)、石村早紀(樹村房)、磯崎みつよ、伊藤真理(愛知淑徳大学)、今野創祐(京都大学)、江上敏哲(国際日本文化研究センター)、大橋正司(サイフォン合同会社)、岡田大輔(相愛大学)、桂まに子(京都女子大学)、蟹瀬智弘(紀伊国屋書店)、久保誠(国際基督教大学)、小池隆(合同会社緑IT事務所)、小西利枝、坂田絵理子(大阪大学)、塩見橘子、 関根禎嘉(慶應義塾大学)、高野真理子(大学図書館支援機構)、田窪直規(近畿大学)、谷口祥一(慶應義塾大学)、徳田良治、中道弘和(堺市立中央図書館)、Mitsutaka Nakamura(Washington University in St. Louis)、楢崎羽菜(DNPメディア・アート)、平田泰子(日本図書館協会多文化サービス委員会)、前川敦子(富山大学)、松井純子(大阪芸術大学)、宮川創 (関西大学東西学術研究所アジア・オープン・リサーチセンター)、宮田怜(元・京都大学)、村岡和彦、八木澤ちひろ(京都大学)、和中幹雄、他7名、永崎<41名>

1.はじめに

 発表者は2019年9月に刊行した『日本の文化をデジタル世界に伝える』(樹村房, 2019年9月)の中で, アナログのコンテンツをいかにデジタル変換・公開し, 維持するかについて述べた。デジタル化する際に「書誌情報では拾えないコンテンツの組織化」, 「既存の書誌情報システムでは拾えない書誌情報の組織化」の2点が重要である。個別の資料の個々の内容をリンクして知識・情報を組織化する際に効果が高い取り組みとしてTEIとIIIFがある。

2.テキストコンテンツの構造について

 ここで具体的な事例が紹介され, テキストコンテンツの構造とはどういうものかが示された。例えば, タイトルや発行年月日といった基本的な構造は書誌情報として記録されるが, それ以外に「ページ中の単語の位置」や「章-段落中の単語の位置」といった情報もある。また, 森鴎外書き入れデータベース中の『成唯識論』の事例[1]だと, 唐時代に書かれた本文, 江戸時代に付された訓点や注記, 森鴎外による注記, といった3つの構造に分かれている。仏典の事例ではある漢字の字形の違いから, 2つの系統が見えてくる。
 書誌情報コンテンツに見出される構造を知識として組織化するメリットとして,もっと深いところに含まれる知識を共有できたり, 内容により即した情報組織化の可能性が開けたりするという点がある。欧米の事例として, ゴッホの手紙のテキストデータの構造をXMLでマークアップしたものがある[2]。マークアップのルールは後述するTEIガイドラインに準拠しており, 人名や地理情報へのリンクがある。また, Folger Shakespeare Libraryがシェイクスピアの脚本構造をマークアップしたものもある[3]。視覚化の例として登場人物がどの幕で何をしているかを表で一覧できるものが紹介された。
 一方組織化のデメリットとして, 細かすぎないか, ニーズがあるのか, 誰が組織化するのか, 誰がデータ作るのかという点がある。このうち, 組織化の取り組みの一つとして「TEI」が挙げられる。

3.TEI

 TEI (Text Encoding Initiative)協会は人文学のために研究資料を構造的に記述して共有する手法を定めるための組織で, TEIガイドライン[4]を公開している。1987年に初回の会合が開かれたのち, 数回にわたりガイドラインを改訂しており, 近年は建造物をはじめとする様々な物体を表すエレメント<object>のルールや, linked data等を記述するためのエレメント<standOff>が追加された。日本でも複数機関で採用されている。では、誰がどのようにしてデータを作るべきなのだろうか。研究者が自分の資料を自分の残したいように構造や気づきをマークアップする方法もあるし, 資料提供者や組織が他の人に使いやすいように基礎的な構造・情報のみをマークアップする方法もある。機械処理した結果を共有・手修正するために行う場合もある。ヨーロッパの横断的プロジェクトである「DARIAH」では, Shibboleth機関認証するか個人でIDを作る必要があるが, さまざまなプロジェクトの成果を参照することができる[5]。マークアップされたテキストが公開されており, 研究データの構造化にも役立つ事例である。

4.IIIF

 IIIF(International Image Interoperability Framework)は「組織化」されたデータを表示・操作するための相互運用の枠組みである。日本でも複数の機関が取り入れている。2020年8月に世界でも画期的な「Cultural Japan」[6]が公開された。これは、IIIF対応画像を中心に、世界各地の機関から公開された日本資料を検索することができるものである。
 ただ, 検索して出てきたが, 画像が見られるだけで書誌情報が得られなかった, という声もある。IIIFはあくまでもコンテンツを表示・操作するためのものであり, 資料の内容については別に考える必要がある。前述のTEI等との連携も可能なため, コンテンツの内容にまで立ち入って構造化して公開することができる。

5.TEI, IIIFを活用した日本の事例

 TEI, IIIFを活用した日本の事例が2つ紹介された。「SAT大蔵経DB」では仏典を現代日本語訳したTEI準拠テキストが公開され, 訳文から元の漢文テキストや16世紀刊行のIIIF対応資料の画像にリンクしている[7]。「デジタル源氏物語」では, 写本とテキスト, 与謝野晶子の訳を同時に参照することができる[8]。このように, 資料の内容まで踏み込んで組織化すると, もっと多様な使い方ができるようになる。

 質疑応答では, 誰がデータを作るのかという問題について, 海外では専門のライブラリアンが情報組織化の作業も担っているが, 日本では図書館員がマネージメントを担当し, 実際の作業は研究者や専門とする企業に依頼する, という方法が示唆された。 また、TEIに関する勉強会[9]も開催されているので参考にされたい。

[1] https://21dzk.l.u-tokyo.ac.jp/SAT2018/T1585_.31.0029b14.html
[2] http://vangoghletters.org/vg/
[3] https://www.folgerdigitaltexts.org/
[4] 日本語訳の取り組みがある。https://www.dh.ku-orcas.kansai-u.ac.jp/?cat=9
[5] TextGridLabで公開されている。https://textgrid.de/en/web/guest/home
[6] https://cultural.jp/
[7] https://21dzk.l.u-tokyo.ac.jp/SAT2018/master30.php#JT0353b.xml
[8] https://genji.dl.itc.u-tokyo.ac.jp/app/#/main
[9] TEI-C東アジア/日本語分科会(Facebook)https://www.facebook.com/groups/21650748170797

(記録文責:荒木 のりこ)