TOP > 月例研究会 > 2005 > / Last update: 2008.1.1

整理技術研究グループ月例研究会報告

大規模韓国語オントロジ開発のためのシソーラス構築

崔錫斗氏(韓国・京畿大学)


日時:
2005年7月16日(土) 14:30〜17:00
会場:
大阪市立浪速人権文化センター
発表者 :
崔錫斗氏(韓国・京畿大学文献情報学科教授)
テーマ :
大規模韓国語オントロジ開発のためのシソーラス構築
共催:
情報知識学会関西部会、横断的アーカイブズ論研究会(平成17〜19年度文科省科研費補助金基盤研究(B):番号17300081)
後援:
情報科学技術協会
出席者:
石田禎(ユニチカ)、大江和彦(東京大医学部附属病院)、小笠原和慶(静岡大大学院)、蔭山久子、川崎秀子(佛教大)、河手太士(大阪樟蔭女子大図書館)、久保恭子(神戸松蔭女子大)、倉橋英逸(関西大)、黒田明子(科学技術振興機構)、古賀崇(国立情報学研究所)、国分芳宏(言語工学研究所)、白井靖人(静岡大)、新谷祐香(千里文化財団)、瀬戸川教彦(日立システムアンドサービス)、田窪直規(近畿大)、田村俊明(大阪市立大学術情報総合センター)、土戸千晶(国立民族学博物館)、研谷紀夫(東京大大学院)、浜田行弘(関西学院大)、藤原譲(基礎情報学研究所)、堀池博巳(京都大情報環境部)、松井純子(大阪芸術大)、水嶋英治(常磐大大学院)、美代賢吾(東京大医学部附属病院)、牟田昌平(アジア歴史資料センター)、八重樫純樹(静岡大)、山崎直樹(大阪外国語大)、山崎誠(国立国語研究所)、山野美贊子(帝塚山学院大非常勤)、吉田暁史(帝塚山学院大)、吉野敬子(三菱ウエルファーマ)、渡邊隆弘(神戸大図書館)、崔 <33名>

発表者の開発している50万語レベルの韓国語一般シソーラスについて発表された。同シソーラスは韓国のインターネット検索エンジンに組み込まれるなど、既に実用化されている。

1.シソーラス構築の基本構想

・一般用語(主題語)のほか人名・書名・地名等の固有名をも対象とし、用語に対応する各国語の表現や図書館分類・商品コードなどの各種語彙体系ともリンクされた「用語のプール」を基本構想としている。
・現在、主題語を中心に約47万語を擁しているが、基本用語数は100万語以上になると推定している。もっとも実際には索引及び検索の適合性を勘案して用語数・分析深度の調整が必要である。対象とする用語は、名詞類と形容詞である。
・汎用オントロジ(一般オントロジ)の開発が大きな目標である。セマンティックWebの枠組みでいうと、シソーラスは「RDFスキーマ層」「オントロジ層」に対応したところに位置づけられる。
・概念関係表現を行うための基本的枠組みとして「基本概念関係」「概念ファセット」「副次概念関係」を整理している。

2.シソーラスの適用可能性

・索引語の加重値付与、全文テキストの自動索引、動的主題ゲートのための分類体系の作成、同形異義語を区分した索引・検索、外国語参照及び交差言語検索、オントロジ構築などへの適用が考えられる。

3.基本概念関係

・基本概念関係とは、シソーラスに関するISO標準に準拠したものであり、BT/NT(階層関係)、USE/UF(等価関係)、RT(関連関係)が中心である。ただし、例えばBT(上位語)をBTG(属関係)・BTI(事例関係)・BTP(部分関係)に細分したり、PT/LT(以前・以後の用語)を設定するなどの精緻化をはかっている。
・その他、各種の分類コードや外国語コード、用語定義、用語水準(教科書での出現状況)等も設定する。また、人名と書名の間にあるTIT/AUT(著作/著者)等も基本概念関係である。

4.概念ファセット

・各用語の基本的性格を示すカテゴリとして、概念ファセット「空間」「方法」「状態・性質」「構造物」「機器・装置」「生物」「物質・材料」「非技術的行為」「現状・事件」「組織」「症状」「技術的行為」「コンテンツ・ドキュメント」を設定している。現時点では科学技術用語を対象としており、用語一般に拡張するにはさらに検討を要する。
・概念ファセットの用途として、自然言語処理への適用、名詞の語彙網作成の際の最上位カテゴリ、概念関係設定時のエラー検出基準、等が考えられる。

5.副次概念関係

・シソーラスのISO標準における関係表現は不十分である。一方オントロジでは概念関係の表現に制限がないが、全く単純化された形では情報追求活動に支障がある。結論として、基本概念関係の基礎の上に、それらをより精緻に細分する副次概念関係を定義する必要がある。
・副次概念関係の類型として、双方向に同じ関係が成り立つもの、向きを逆にすると対応して関係が変わる対称的性質をもつもの、一方通行のもの、がある。
・BT/NT(階層関係)に対して、現在65種の副次概念関係を定義している。これで全てではなく、100種内外になると推定している。「構造(部/課)」「分野(工学/ロボット工学)」「成分(化合物/シリコン水素化合物)」等の「包含関係」(20種)、「器機(基板/携帯基板)」「手段(決裁/電子決裁)」等の「限定関係」(19種)、「長さ(銃/長銃)」「色(光線/赤色光線)」等の「順序関係」(15種)、「距離(通信網/近距離通信網)」「地形(道路/海岸道路)」等の「処所関係」(11種)がある。ある語の各下位語に副次概念関係を設定することにより、区分原理による関係の整理ができる。
・USE/UF(等価関係)に対して、「一般名/学術名」「表記の相異」「旧用語/現代用語」「方言」等約100種の副次概念関係を設定している。最終的には200種内外と推定している。
・RT(関連関係)はISO標準における設定基準が曖昧である。現在は「業務と従事者」など約20カテゴリーにあたはまる関係にのみ設定を行っている。関連関係やその他の関係(固有名に関わるものなど)について副次概念関係の整理は十分ではないが、1,500種内外になるのではないかと推定している。

6.おわりに

・大規模シソーラスの開発は労働集約的で切りのない作業であり、本来は国家レベルでなされるべきである。また、概念及び副次概念関係の標準化が必要である。
・現在は基本的に手作業であるが、ある時点からは自動化していく必要がある。

(記録文責:渡邊隆弘)