整理技術研究グループ月例研究会報告
セマンティック・ウェブと図書館
上綱秀治(国立国会図書館)
- 日時:
- 2006年4月22日(土) 14:30〜17:00
- 会場:
- 大阪市立弁天町市民学習センター
- 発表者 :
- 上綱秀治氏(国立国会図書館)
- テーマ :
- セマンティック・ウェブと図書館
- 出席者:
- 江上敏哲(京都大情報学研究科図書室)、蔭山久子、川崎秀子(佛教大)、河手太士(大阪樟蔭女子大図書館)、倉橋英逸、佐藤毅彦(甲南女子大)、田窪直規(近畿大)、谷口美代子、田村俊明(大阪市立大学術情報総合センター)、中川正己(松山大)、中村恵信(大阪府立大学術情報センター)、難波朝子(アグレックス)、堀池博巳、松井純子(大阪芸術大)、村井正子(日本アスペクトコア)、村上幸二(大阪市立大院)、守屋豊(近畿大学生)、山野美贊子(帝塚山学院大非常勤)、吉田暁史(大手前大)、渡邊隆弘(帝塚山学院大) 上綱、ほか1名<22名>
1.セマンティック・ウェブ
- セマンティック・ウェブは、ウェブページとその内容について、それが何を意味するかを表す情報(メタデータ)を一定の規則に従って付加することでコンピュータが効率よく情報を収集・解釈できるようにする構想であり、インターネットを単なるデータの集合から知識のデータベースに進化させようという試みである(IT用語辞典e-Wrodsによる)。
2.セマンティック・ウェブの必要性と図書館
- ウェブ情報を伝統的な図書館機能の観点から見ると、「収集」「提供」は検索エンジンによりほぼ自動的に行われ、「保存」も国立図書館等のアーカイブ化が取り組まれている。しかし、「整理」はディレクトリ型検索エンジンの分類などが行われているものの、情報量が膨大になるにつれ困難になってきている。
- ブログの流行、GoogleやMicrosoftによる図書館蔵書の大規模デジタル化計画、OAI-PMHなどの技術による深層ウェブの検索可能化など、検索対象の増加はさらに見込まれる。検索エンジンはランキング表示の工夫等によって対応してきたが、必要な情報の発見は今後ますます困難になると思われる。
3.セマンティック・ウェブの基本構成要素
- セマンティック・ウェブでは、RDF(Resource Description Framework)に沿ったメタデータをウェブ情報に付与し、効率の良い検索を目指す。考案者であるBerners-Leeは、コンピュータ上にあるものを全てリレーショナルデータベースと考え、データの関係性を示す3要素(リソース、プロパティ、値)をXMLでエンコードしたものがRDFであると述べている。
- セマンティック・ウェブの実現には、さらに高度ないくつかの仕組み(技術)が必要である。これらは「レイヤーケーキ」の図で階層的に示されるのが普通で、階層表現等の語彙定義を可能とする「RDFスキーマ」、より複雑な関係を定義できる「OWL(オントロジー記述言語)」の使用が現段階で定義済みである。
- 事物の定義を詳細化する技術を積み重ねることで大量の情報を効率良く検索することが可能になると言われている。最終的な実現には推論や信頼性といったレベルの標準化が必要であるが、そこまで到達できるかについては懐疑的な意見もある。
4.セマンティック・ウェブの課題
- 国立国会図書館の調査によれば、日本のウェブサイトの大半には「タイトル」が記述されているが、著者・概要・キーワード等のメタ情報の記述率は低い。誰がメタデータの付与やオントロジーの構築を行うのかが大きな課題であるし、メタデータの信頼性をどう担保するかといった問題もある。
- 個人が閉じた空間で構築していたブックマークをウェブ上で共有していく「ソーシャル・ブックマーク」が進展しており、タグ付けによるブックマークの分類やカテゴリ分けが行われている。またブログやCMS(コンテンツ管理システム)でもタグ付けの仕組みが採用されている。多数の人々が分類付与を行う仕組みをフォークソノミー(folksonomy 造語)と呼び、これらを関連付けることで、大量のサイトの分類が可能になる。各分類が正確性や一貫性を欠いていても、数が増えることや信頼度に関する重み付けの採用等により、品質を高めることが期待される。
- 世界的に共通する包括的なオントロジー構築は不可能であるため、OWLでは分散環境における構築を前提とした設計がなされており、あるオントロジーを利用して新たなオントロジーを作成することができる。図書館界をはじめシソーラスを開発・構築してきたコミュニティーがオントロジーを開発して互いに参照するなどの方法で普及していくことが予想される。
5.おわりに
- 開発には多くのAI(人工知能)分野の研究者・技術者が関わっているが、AIの開発は多大な要望を一気に実現しようとしてうまくいかなかったところが大きいため、セマンティック・ウェブでは実現可能な技術から順次積み上げていく方式をとっている。
- 図書館に蓄積されてきた情報の多くがウェブ情報の一部となっていくと同時に、増加し続けるウェブ情報が図書館にとって重要度を増すことは間違いない。知識データベースとしてのセマンティック・ウェブが実現すれば、図書館にとって最も重要な情報発見技術になる可能性があると思われる。
参 考:CyberLibrarian (発表者のサイト)
http://www.asahi-net.or.jp/~ax2s-kmtn/
(記録文責:渡邊隆弘)
研究会終了後、「渡邊隆弘氏教職就任お祝い会」を開催した。
大阪駅前第2ビル地下2階、「いわむら」にて。出席22名。→写真