TOP > 月例研究会 > 2004 > / Last update: 2008.1.1

整理技術研究グループ月例研究会報告

「セマンティックWeb」と資料組織法の接点

−基礎的考察−

渡邊隆弘(神戸大学図書館)


日時:
2004年11月20日(土) 14:30〜17:00
会場:
大阪市立浪速人権文化センター4階会議室1
発表者 :
渡邊隆弘氏(神戸大学図書館)
テーマ :
「セマンティックWeb」と資料組織法の接点−基礎的考察−
出席者:
赤澤久弥(京都大電気系図書室)、蔭山久子(帝塚山大図書館)、川崎秀子(佛教大)、河手太士(大阪樟蔭女子大図書館)、久保恭子(神戸松蔭女子学院大)、倉橋英逸(関西大)、土戸千晶(国立民族学博物館図書室)、堀池博巳(京都大学術情報メディアセンター)、前川和子(堺女子短大)、山崎直樹(大阪外国語大)、山野美贊子(帝塚山学院大非常勤)、吉田暁史(帝塚山学院大)、渡邊<13名>

近年開発活動が内外で活発に行われている「セマンティックWeb」と図書館が伝統的に育んできた資料組織法の接点について、海外の先行研究の紹介を中心に、基礎的な考察を行った。

1.「セマンティックWeb」出現の背景

・マークアップ言語を用いて文字列等に関わる諸属性をテキスト中に埋め込む(タグ付け)ことにより、コンピュータを介して間違いなく情報交換することが可能となる。Webデータ記述の開発・普及の経緯には混乱も見られるが、ともかくもHTMLというマークアップ言語を共通の約束事としており、近年はより柔軟なXMLの導入も見られる。
・現在のWebでは、マークアップされるのは文書構造ないしはレイアウト情報であって、情報の内容・意味は人間が読解するほかない。文書構造が正しく交換できれば情報検索・情報共有に一定の効果があるが、「意味」が全く非共有では限界がある。
・Web世界の情報爆発により、人が一つ一つ読むだけでは扱いきれなくなり、検索エンジンや横断的な情報サービス、Webサービスなどが登場している。すなわち、Web世界を「データベース」として扱うことが求められている。現在の検索エンジンの基本は文字列の全文検索であり、コンピュータは「意味」を扱っていない。さらなる洗練をめざすには、「意味」の世界に踏み込む必要がある。

2.「セマンティックWeb」の提唱と開発

・セマンティックWebの提唱は、1989年にCERNでWWWを創始した T. Berners-Leeによって行われた。考え方の萌芽はWWW創始当時からあったとされるが、具体的な提唱は1998年ころであり、2001年のScientific American誌(v.284, no.5)に発表された論文"The semantic Web"で大きな注目を集めることとなった。
・セマンティックWebの目標は、エージェント・ソフトウエアが人に代わって問題解決のためのデータ処理を行ってくれるという未来図にある。
・Berners-LeeはセマンティックWebの実現に「人工知能は必要ない」と述べている。コンピュータに自然言語の認識・推論を期待するのではなく、セマンティクスを表す情報(メタデータ)を情報資源中に埋め込み、Web情報を人だけでなくコンピュータにも理解できるものにすることが基本である。

3.「セマンティックWeb」の構造と諸要素技術

・セマンティックWeb技術は、XMLやURIといった基盤の上に立つ諸要素技術の階層構造として捉えられる。一般的には下部から順に「RDFモデルおよびシンタックス層」「RDFスキーマ層」「オントロジ層」「ルール層」「ロジック・フレーム層」「プルーフ層」「トラスト層」の7層とされる。
・まず、共通的な構文枠組みによるメタデータの記述が基本になる。この部分を担うのが「RDFモデルおよびシンタックス層」である。RDF(Resource Description Framework)はメタデータ規則(意味論的側面)には干渉しないシンタックス規則であり、どのような規則に基づくものもRDFで表現可能である。「リソース、プロパティ、値」の3項から成る単純な表現モデルであり、複雑な関係も単純な関係の組み合わせに分解して記述する。具体的な記述はXMLを用いて行う。
・次に、誤解なく「意味」の共有を行うためには、各メタデータに記述されたプロパティや値の相互関係を伝達する必要がある。具体的には、メタデータ規則Aのプロパティ「責任表示」とBの「作成者」はどういう関係にあるのか、2つの値「自動車」「乗用車」はどういう対応関係にあるのか、といったことである。この領域を扱うのが「RDFスキーマ層」「オントロジ層」の両層である。
・「オントロジ(Ontology)」は概念間の階層関係や概念定義間の整合性を記述した知識ベースで、1980年代から人工知能等の分野において研究されてきたものである。RDFスキーマによってプロパティ間の関係は一定程度管理できるが、オントロジによって、異種スキーマを統合的に扱うためのより詳細な語彙・概念の管理が可能となる。
・セマンティックWebでは、普遍的・集権的なオントロジ構築は想定されておらず、異なるオントロジ間の相互運用に資するオントロジ記述言語の標準化に力が注がれている。オントロジ記述言語OWL(Web Ontology Language)は2004年2月にW3C勧告として標準化された。クラス(集合)・プロパティ間の様々な関係性を定義し、XMLを用いて記述するものである。
・オントロジとは別に、「トピックマップ(TopicMap)」が1990年代初頭から開発され、セマンティックWebの文脈でも注目されている。トピックマップは、情報リソースとは独立に、概念及び概念間の関係をマッピングするものである。
・RDFは徐々に実用が浸透し、オントロジは標準化がほぼなされた段階にあるが、知的エージェントを実現するにはさらに上位の諸層が必要である。ルール層(共通基盤となる論理式の定義)、ロジック・フレーム層(個々の枠組みに応じた論理式の定義)、プルーフ層(エージェントの処理の履歴や根拠を示す方法を共有)、トラスト層(情報の信頼度を評価する方法を共有)であるが、これらの具体化はまだこれからという段階である。

4.セマンティックWebと資料組織法

・「分散環境での情報生産を前提に、情報をどう確実に共有していくか(相互利用性の確保)」がセマンティックWebの目的といえよう。図書館における伝統的な資料(情報)組織化(目録・分類・件名など)は、様々な人々が自由に作った資料の集積を統合的に操作(検索など)するための仕組みであり、通じる側面がある。さらに近年ではネットワーク化の進展とともに、異種データベースを統合的に操作するための様々な仕組みが生まれてきている状態にある(横断検索、Z39.50、ダブリンコア、メタデータハーベスティングなど)。
・2001年ころから米国を中心に、図書館情報学の立場からセマンティックWebを取り上げた論文が約10本ある。目録法・分類法・シソーラスなど資料組織法の領域との親和性を強調したものが多く、よって図書館コミュニティの経験がセマンティックWebに大いに貢献できるといった期待もいくつかの論文で表明されている。
・典拠管理とセマンティックWebの接点を論じたものがいくつかある。典拠管理とは原データの持つ曖昧さを排除することであり、セマンティックWebの大きな目的の一つである。「バーチャル国際典拠ファイル」(VIAF)を推進するB.B. Tillettは、VIAFが未来のセマンティックWebの不可欠な一部分になるという展望を述べている。また、T.A. BrooksはセマンティックWebと書誌データベースの同質性を述べ、セマンティックWebでも典拠(「バリュースペース」と名付けている)を構築しシステムの前面に打ち出すことで検索が改善されるとする。ただ、Brooksは一方で、セマンティックWebの世界はオープンシステムだという点が書誌データベースとは大きく異なり、集権的な管理機構を持ち得ない中での現実性に懐疑を示している。
・オントロジやトピックマップと、図書館の主題アクセスツール(分類、件名、シソーラス)との親和性がしばしば論じられている。D. Soergelは、オントロジは分類の「再発明(reinvention)」であり、今後は多くのタイプの知識ベース(分類表、シソーラス、辞書、オントロジ)をオーバーラップさせていく、コミュニティ間の対話が必要だと述べている。
・T. Sadehらは図書館ポータル開発の立場から、メタデータスキーマを共有しない異種のリソースを同時検索することがZ39.50など多くの試みにもかかわらずいまだに課題であり、セマンティックWebへの期待を表明している。
・K. FastらはメタデータハーベスティングのプロトコルであるOAI-PMHとセマンティックWebの比較を試み、分散・非集権を前提とするなどの共通点はあるが、扱う情報の粒度に大きな違いがあると述べている。

5.おわりに

・セマンティックWebの第一歩はメタデータ作成であるから資料組織法との親和性に疑いはないが、具体レベルでは様々な要素・側面を持つ技術であるため焦点を絞るのが難しい。そのため各論者が思い思いの論点に引き付けて論じているきらいがあり、必ずしもかみあっていない。
・親和性を前提としつつ、セマンティックWebと資料組織法の伝統には2つの点で差異があると思われる。一つはセマンティックWebがあくまで分散・非集権を前提とするのに対して、図書館では目録規則や統制語彙を統一化してデータを標準化することに力を注いできたことである。もう一つは情報の粒度の問題であり、図書館の主題ツールはドキュメント単位のアクセスを前提として作られているが、セマンティックWebにおいて知的エージェントの推論に資するオントロジとなると、もっと細かなレベルでデータ操作することが求められると思われる。
・セマンティックWebについては、2004年後半になって邦文の入門書・技術書も出始めており、図書館界でも今後注目を集めていくものと思われる。

注)本発表は下記の既発表論文を基礎としている。
渡邊隆弘「セマンティックウエブと図書館」『カレントアウエアネス』281, 2004.9
http://www.ndl.go.jp/jp/library/current/no281/doc0006.htm
当月例研究会報告では引用・参考文献の書誌事項を割愛したので、上記論文を参照されたい。

(記録文責:渡邊隆弘)