TOP > 月例研究会 > 2005 > / Last update: 2008.1.1

整理技術研究グループ月例研究会報告

自然言語処理のためのシソーラス

国分芳宏(株式会社言語工学研究所)


日時:
2005年11月12日(土) 14:30〜17:00
(10月分の研究会。発表者急病のため日程を順延)
会場:
大阪市立浪速人権文化センター5階集会室2
発表者 :
国分芳宏氏(株式会社言語工学研究所)
テーマ :
自然言語処理のためのシソーラス
後援:
情報知識学会関西部会
出席者:
川崎秀子(佛教大)、久保恭子(神戸松蔭女子大)、新谷祐香(千里文化財団)、田窪直規(近畿大)、谷口美代子、田村俊明(大阪市立大術情報総合センター)、堀池博巳(京都大情報環境部)、松井純子(大阪芸術大)、守屋祐子(千里文化財団)、山野美贊子(帝塚山学院大非常勤)、吉田暁史(帝塚山学院大)、吉野敬子(三菱ウエルファーマ)、渡邊隆弘(神戸大図書館)、国分<14名>

25万語(2005年10月現在)からなるシソーラス開発の実際や応用等について発表された。

1.作成方針

・日本語処理システムの辞書の作成中に、表記の揺れを管理することからボトムアップで作成した。
・一般語のみとし、専門用語は、ファイルから併合する機能を持っている。時事的な用語を積極的に採択している。地名を除いて固有名詞は含めていない。
・用語同士の関係は、同義語(原則として置き換えられるものとした)、狭義語(原則として属性の同じものとした)、広義語、反義語、関連語、語末一致の語、を採用している。

2.語の採用・関係設定等に関する問題点

・日本語には大和言葉、漢語、片仮名語、英字表記などの書き方の違いによる同義語が多くある。さらに表記の揺れがある語が相当数ある。社会科学的な分野では使う人の立場によって使う言葉が異なることがある。また多義語の数も多い。
・「語末一致の語」を関係として採用しているのは、日本語の複合語は限定詞が前に付くため、語末が一致する用語はほぼ狭義語になるからである。
・反義語(対義語)の対立の種類には3種類がある。片方を否定すると相手になるもの(善:悪)、ある中間的な点を中心にして逆の方向になるもの(上:下)
、一つの行為を対立する立場で捕らえるもの。(売:買)である。
・意味は排他的には定義できず、重なりがある。
・意味空間は多次元であり、複数の「観点」で分類した。例えば「料理」は「調理法」「材料」「地域」などの観点で分類できる。
・自然言語処理で使うには、名詞だけでなく用言(動詞、形容詞)や副詞、慣用句等も必要になる。用言は語幹と活用形で登録し、活用の種類も構文解析に合わせてある。
・標準の用語でないもの、常用漢字以外を含んでいるもの、表記の揺れの標準でないものは一種のエラーとして注意を喚起する。誤った用語や差別語についてはさらに強く注意を喚起し、差別語から正しい用語は引けるが、正しい用語から差別語は連想できない仕組みにしてある。
・用語は変化しており、学習機能が必要である。一時的に眠らせておく機能や登録する機能も持っている。
・語義はデータベースに持っていないが、インターネットに接続して調べたり、市販の電子化辞書を複数「串刺し」にして調べる、といった手段を用意している。

3.自然言語シソーラスの用途

・まず「情報検索」がある。検索結果がゼロ件であったり多過ぎたりした時に、より適切な検索キーを探す用途に用いることができる。
・検索のため、「意味的な距離」を測定する方法を定義している。2つの用語間の距離を、表記の揺れ=0、同義語=1、広義語/狭義語=2、反義語=2、関連語=4と定義する。3つ以上の場合は順次距離を加算し、パスが複数あるときは最短のものを採用する。距離の測定には多義語の区別が必要である。
・「構文解析」も用途の一つである。係り先が一意に定まらない際に、語と語との意味的な距離から類推できることがある。
・「用語の標準化」にも用いることができる。同義語辞書と全文検索を組み合わせ、一連のセットの範囲における異なった同義語の使用を検出し、そのどれかに標準化する。

4.自然言語処理のためのオントロジー

・シソーラスは用語の意味的な分類だけを扱うが、
オントロジーはある知識ベースが前提としている概念とその間の関係を明示したものである。概念を表現するための見出しとして、自然語の語彙を用いる。
・オントロジーの目的として、検索・翻訳・要約などの知的生産性を上げるため、出来上がる文章を構造的なものにするということが考えられる。
・オントロジーの作成方法には、トップダウンで概念を整理する方式と、ボトムアップによる方式とが考えられるが、ここでもボトムアップで構築を試みたい。具体的な作成手順は、構文解析によって係り受け関係を意味的依存関係にし、必要な概念を定義するためクラスの論理組み合わせを定義していく、ということになる。

5.おわりに

これからの意味の分野まで立ち入った高度な言語処理では、シソーラスやオントロジーが必要であろう。ウェブ上の情報は半年で2倍になるといわれている。検索の漏れを減らしたり、ノイズを減らしたりするためにも、シソーラスやオントロジーによる後ろ盾が必須になってくる。
<参考>
http://www.gengokk.co.jp (言語工学研究所) シソーラス検索を提供中
・『デジタル類語辞典 第4版』(株式会社ジャングル)

(記録文責:渡邊隆弘)