TOP > 月例研究会 > 2006 > / Last update: 2008.1.1
整理技術研究グループ月例研究会報告
シソーラスとクラス階層とRDF/OWL
神崎正英氏(www.kanzaki.com)
- 日時:
- 2006年9月23日(土・祝) 14:00〜16:30
- 会場:
- 大阪市立浪速人権文化センター
- 発表者 :
- 神崎正英氏(www.kanzaki.com)
- テーマ :
- シソーラスとクラス階層とRDF/OWL
- 共催 :
- 情報知識学会関西部会
- 出席者:
- 伊東美沙貴(大阪市立大院生)、上田洋(大阪市立大院生)、蔭山久子、川崎晴太(大阪外国語大学生)、川崎秀子(佛教大)、河手太士(大阪樟蔭女子大図書館)、倉橋英逸、坂口宗敬、佐久間泰子、澤田大祐(国立国会図書館関西館)、鈴木淳史(静岡大院生)、帥茂樹(花園大)、田窪直規(近畿大)、堀池博巳、松井純子(大阪芸術大)、松浦秀記(京都大)、水元秀子(千里文化財団)、村上幸二(大阪市立大院生)、村上茂三(止観第一研究所)、村上晴美(大阪市立大)、守屋祐子(千里文化財団)、吉田暁史(大手前大)、渡邊隆弘(帝塚山学院大)、 神崎 <24名>
1.「クラス階層」の考え方
- 認識対象を、異なる性質に注目して区分けしたり、共有する性質に着目してグループ化したりして生成されるのが、一般的な「分類としてのクラス」である。また、オブジェクト指向言語に典型的な「型としてのクラス」(インスタンスを生成するための「型」)という視点もある。
- クラスの定義には、メンバー条件を記述する内包的定義と、メンバーを列挙する外延的定義がある。
- 分類一般の階層はis-a、part-of、instance-ofなど多様な関係を含みうるが、「クラス階層」はis-a関係(類種関係)のみで構築される必要がある。クラス階層は、(1)各クラスのインスタンス集合は上位クラスのインスタンス集合の部分集合となる、(2)上位クラスの性質は推移律に従って下位クラスに順次継承されていく、という性質を持つ。
2.RDF/OWLにおけるクラス
- 「主語、述語、目的語」のセットから構成されるRDF記述は、リソース間の関係を示すという側面と、主語にあたるリソースの属性を表現するという側面を持つ。OWLなどオントロジーの視点からは後者が重視される。
- OWLにおけるクラスは記述論理(DL)のConceptに相当し、名前付けのほか、インスタンス集合の論理演算やプロパティ制約によっても定義される。適切に構築されれば記述論理の推論が利用でき、包含関係の推論やオントロジの整合性検証、個体の自動分類などの可能性が開ける。
- OWLのプロパティには数種類の型定義(推移型など)が可能で、またプロパティ間の関係も設定できる。これによってプロパティを用いた推論や他の語彙とのマッピングが可能である。
- プロパティを用いて、クラスの制約条件(とりうる値や数を)が設定できる。ただし、Webの開かれた世界を想定すると、クラスの全メンバーを拘束する強い制約の設定には十分な注意が必要である。
- 記述論理に忠実なOWL DLでは、クラスとプロパティを定義する「TBox」の世界と、個体(インスタンス)を記述する「ABox」の世界を峻別することが求められる。同じURIをクラスとインスタンスの両方に使うことはできない。また、プロパティは(クラス間ではなく)個体間の2項関係を表現する。
3.件名標目・シソーラスとクラス階層
- シソーラス型の階層構造を持つ件名標目表は、一見クラス階層に近いように見えるが、OWL DLを想定するといくつかの問題をはらんでいる。例えば、階層構造(BT,NT)中に固有名詞が現れることがあるが、固有名詞は個体であって本来クラスと同列には扱えない。またOWL DLでは、subClassOfなどの「メタ・プロパティ」に限りクラスを主語・目的語にできるが、通常のプロパティはインスタンス間の関係記述に用いられる。RTなどのクラス間関係を直接扱うことはできず、クラスに対するプロパティ制約として記述しなくてはならない。
- したがって、ダブリンコアの「dc:subject」を考えたとき、このプロパティの目的語もクラスではなくインスタンスでなくてはならないが、主題を表す概念(クラス)に対するインスタンスとは何かという問題がある。
4.シソーラスのRDF表現
- シソーラスの階層関係には属(類種)関係、階層的部分全体関係、事例関係などが含まれ、推移律はなりたつものの必ずしも継承の関係ではない。さらにRT関係等も考えると、すんなりとRDF/OWLに変換することはできない。
- 既存シソーラスの資産を生かしながらRDF表現する一つの戦略として、優先語(標目)をクラスではなく、Conceptなどのクラスのインスタンスとして位置づける方式が考えられる。インスタンス同士であれば様々な階層や関係もそのままマッピングできる。
- この方式でシソーラス等の概念スキームを記述するRDFモデルとして、SKOS(Simple Knowledge Organization System)が提唱され、W3Cで草案段階にある。各概念をインスタンスとし、broader, narrower, related等のプロパティを設定するものである。例えば、最近テキストデータでの研究用公開がはじまったNDLSHも、SKOSへの変換は比較的容易にできる。
- 辞書的なシソーラスであるWordNetをRDF/OWLで表現しようとする試みも行われている。「語」を意味ごとに分割したWordSense、同一の意味を持つWordSenseをまとめたSynset、といったWordNetの独自の構造をそのままRDF表現するものである。
- RDF表現を行う際には、各概念のURIをどう設定するのかも、留意すべき問題である。ID番号は明快だが使いにくく、標目をURIの一部に用いたほうがわかりやすくなる。ただし、件名標目表には指示や細目が組み込まれた独特の標目形も多く、問題が残る。
- クラス階層ならばRDF/OWLの組み込み伴意(推論)が使えるが、SKOSのようにインスタンスと位置づけた場合は別途クエリを工夫する必要がある。
当日の資料:
http://www.kanzaki.com/works/2006/pub/0923nal.html
(記録文責:渡邊隆弘)