TOP > 勉強会 > 2006年度 > / Last update: 2008.1.1

整理技術研究グループ勉強会記録(2006年度)

「セマンティックWebと資料組織法(続)」第9回


日時:
2006年10月13日(金) 19:00〜
会場:
日本図書館研究会事務所
発表者 :
川崎秀子氏(佛教大学)
テキスト:
高井貴子, "生物学の機能概念オントロジー", 人工知能学会誌, vol.19 no.2, p.137-143, 2004.
出席者:
渡邊(帝塚山学院大学)、有信、横山、堀池、蔭山、川崎(佛教大学)、吉田(大手前大学)、松井(大阪芸術大学)、河手(大阪樟蔭女子大学図書館)

1.生物学でオントロジーが必要とされている

1.1 Conceptural Biology
Gene Ontology
 2000年に初版が発表され、現在では世界中の生物学者と情報科学者に広く利用されいる。
 ※生物学には「Conceptural Biology」が必要だといわれている
生物学者の位置づけ
 今までの生物学者・・・概念を生成
  ↓
 これからの生物学者・・・「概念を解析する」能力
生物学における概念の処理について、注目が集まっている。
本稿で解説するGene Ontologyは、生物学の概念を対象としたオントロジーである。

1.2 生物学と概念
今まで
 ・記述学問であるといわれる。
   ※対象(生物)を観測→解釈→概念化→記述→学術文献の蓄積
 ・蓄積された膨大な概念の存在
 生物学者
  ・新しい概念を生成すること
  ・蓄積された概念を知識として身につける
    →独自の仮説を構築
      →仮説を支持する実験を立案し実施することができる専門家
  ・概念を分析する能力が必要条件
 生物学研究
  ・仮説生成に利用できる概念をいかに豊富に利用性の高い形で身につけるか
  ・概念の解析と生成を繰り返しながら発展してきた学問
状況の変化
 ゲノム研究

1.3 ゲノム研究
 ・生物学の目標:生物がなぜ生きることができるか、生命の原理とは何か、という問い
 ・生命の原理を親から子へ(情報の一式を)伝える実体がゲノム
 ・ゲノムはDNAという化学物質に姿を変えて生物の細胞内に存在
   ゲノム研究・・・DNAの並び順を調べてそこに暗号化された遺伝情報を読み解く研究
 ・ゲノム研究の特徴・・・遺伝情報全体を対象
   概念処理について計算機が必要
   遺伝情報は、遺伝子産物(タンパク質)に変換される。
   遺伝子発現=字空間的に高度に制御され、固体の形成と自己組織化を実現する。
 ・ゲノム研究の次の課題
   おのおのの生物の遺伝子一式がどのようにしてその生物の機能を決めているかという問題を解明すること
 ・遺伝子からタンパク質をつくる前に、遺伝子であるDNA領域をコピーして断片を張り合わせ、鋳型を完成する作業が必要
 ・完成された鋳型はmRNAとよばれる。  
 ・近年ゲノム研究では、細胞内のmRNAやタンパク質の存在量(遺伝子発現量)を網羅的かつ組織的に観測し、それが生物の機能をどう決めているのか解析しようとする研究が進んでいる。
 ・遺伝子の発現量は、数値で表現されるので計算可能
生物機能・・・概念←計算不可能
              ↓生物学の概念を計算可能にする必要がある
            生物学オントロジー開発の主なる推進力

2. 生物学における概念とオントロジー

2.1 生物学の概念
1) 生物学の概念・・・人工物と変わらない
   ・構造物の概念
   ・その機能の概念
2) 生物学における構造物概念
   ・組織・器官・細胞・細胞内器官・分子といったレベルの階層構造をもつ
3) 生物学における機能概念
   ・構造物概念に準じた階層構造をもつ
4) 人工物と生物の違い
   ・人工物・・・設計原理の存在が前提
   ・生物・・・設計原理の解明が学問の目的

2.2 生物ドメインのオントロジー
構造物の概念を対象としたオントロジー
   Mouse Anatomical Dictionary:マウスの発生に組織と器官
   Digital Anatomist Fundational Model:ヒトの組織と器官
   CYTOMER:ヒトの組織と器官
機能概念に重点を置いたオントロジー
   Gene Ontology:真核生物における遺伝子産物の機能
              抽象度の低い下位概念に焦点
   ImMung Gene Tics (IMGT):免疫系の機能
   INTERACYIONS Ontology:代謝系の機能
   Pharm-GKB:医薬品の生体作用
   TAMBIS:生物学における上位の機能概念
          Gene Ontologyと同様に機能全般を対象としたオントロジー
          上位概念を焦点とするトップオントロジー
            has-Component、is-Structure-ofといった生物学における関係概念について解析し、制約を定義
             ⇒そのほかのオントロジーでは概念間の関係をis-a関係とpart-of関係に限定
   Unified Mediline Languyage System(UMELS):医学生物学の文献を分類するキーワード

2.3 Gene Ontology
開発の目的・・・遺伝子産物(タンパク質)の機能記述に必要となる概念を定義
真核生物に共通な機能を中心にできるだけ多くの機能を対象とすることを目指す
3つの独立したオントロジーで構成される(概念の関係付けはない。オントロジー間を関係付けるものは遺伝子産物)
 Molecular Function:遺伝子産物単体の機能のオントロジー
 Biological Process:複数のMolecular Functionで構成される上位の機能のオントロジー
 Cellular Conponent:細胞を構成する構造物のオントロジー
特徴
 すべての概念は遺伝子産物との関係を基準として定義される
概念間の関係の定義
 「下位の概念に関係付けられている遺伝子産物は、上位の概念においても同様に関係付けられなければならない」という規則に基づく
      ↓                                                    
   true path ruleとよばれ、すべての概念に適用される
 ・概念と遺伝子産物の関係・・・"Associated Gene"関係として定義
 ・遺伝子産物(タンパク質)・・・機能の主体となったり構造物に位置したりする実体
 ・「遺伝子」の情報・・・"Associated Gene"関係で関係づけられるもの
生物学では、「遺伝子産物の機能」=「遺伝子の機能」
遺伝子・・・機能を決定する一義的な因子であるという考えが主流
Gene Ontologyの生物遺伝子のカバー率
   酵母・・・全遺伝子(0.6万個)
   ハエ・・・60%(0.84万個)
   マウス・・・40%強(1.2万個強)

2.4 Gene Ontologyが提供する情報
1) 概念の定義
  <Gene Ontologyにおける概念>
   ・概念名・ID・定義・別名・概念間の関係を定めることによる規定
   ・概念定義は自然言語で記述
   ・論理表現を用いた内部構造の定義はなされていない
   ・概念間の関係はis-a関係とpart-of関係に限定
     推移律はどちら関係についても成り立つとしている
   ・そのほかの論理的制約は定義されていない
  <概念の参照>
   ・Gene Ontology の概念を推論手続きで参照するのは便利ではない
   ・概念の参照には概念のIDを用いるか、概念名と定義に対するテキスト検索が用いられる
      ⇒概念を形式的に定義するというよりも、データとして格納するのに近い
  <概念の階層関係>
   ・概念の階層関係は有向非循環グラフ構造であるように制限
   ・概念木は、おのおののオントロジーに一つずつ構築されている
   ・is-a階層木とpart-of階層木は分かれていない=一つの階層木に両方の関係が格納されている
     →is-a関係が定義されていない概念が存在(1割近く)、多重継承が許されている
2) 付属する情報
 ・遺伝子は機能以外に配列・構造・発現量・疾病の原因といったさまざまな属性をもつ。
 ・現在15のデータベースに対して遺伝子を仲介としたインデックスファイルを提供しデータ交換性をサポートしている
 ・遺伝子を報告した文献の情報も遺伝子に関する重要な情報の一つ
    →Gene Ontologyにおける機能と遺伝子の関係づけも文献に基づいて行われる。
 ・文献から機能と遺伝子の関係を機械抽出するツールを開発中
 ・機能と遺伝子の関係は、文献に基づくものの他に配列や遺伝子発現量といったほかの情報の類似性から推定
  できるものがある
 ・信頼度を判断するのはユーザ
3) Gene Ontologyの表示例 (図1)

2.5 オントロジーとしてのGene Ontology
人工物も生物も機能概念がドメイン知識の中で重要
 <人工物>
  機能概念の2つの立場
   ・プロセスオントロジー:現象をプロセスの連鎖として捉える立場
   ・デバイスオントロジー:入出力をもつ装置が主体的に行っている処理の連鎖として捉える立場
  機能の解析
   ・機能の主体・客体・主体の振舞い・文脈依存性・機能分解・方式の分離
   ・Gene Ontologyではこれらの解析はなされていない
  Biological ProcessはMolecular Functionの組合せにより構成される機能であるので、両者の概念の間には機能分解関係があると考えられる
 <Gene Ontology>
   ・オントロジー間の関係は解析されていない
   ・オントロジーとして必要とされる性質を満たしていない・・・is-a関係の完備、論理表現による概念の定義、
                                      論理表現による定義、論理的制約の定義、
                                      意味の異なるpart-of関係の分離など関係概念の解析、
 <Gene Ontologyの見解>
   ・できるだけ多くの概念を収集すること
   ・収集した概念の間になんらかの関係を与えること
   ・概念に遺伝子を関係づけることを優先
   ・開発に人的余裕がないのでほかの解析には労力をさけない
      =オントロジーとしての完備性は後回しにするというスタンス
 <危惧>
   ・増え続ける概念の整合性を保つことは、オントロジーとしての完備性の整備なしにはいつかは破綻する危険がある

3. Gene Ontologyの利用

3.1 機能の専門用語語彙としての利用
新たにゲノム配列が決定された場合、機能のアノテーション(遺伝子のデータベースに機能に関する属性を登録すること)には、Gene Ontologyの語彙を用いることが慣例となっている。
 ★Gene Ontologyの語彙を優先をとする
Gene Ongologyの利点
 ・計算機で支援する道をひらく
 ・専門用語語彙としてアノテーションの標準化を促進
 ・アノテーションの再利用性向上に貢献

3.2 遺伝子発現量の解析
・ある細胞における遺伝子発現量のパターンと機能の相関性の解析
・利用法
   結果を解釈して用いる場合・・・遺伝子発現データのクラスタリングを行い、その結果をGene Ontologyで解釈する
   機械学習の正解集合として用いる場合・・・Gene Ontologyが与える遺伝子機能の類似性と遺伝子発現量の類似性との間には相関があると仮定し、発現量の類似性から、遺伝子の機能を予測するものである。
     →機能の自動アノテーションを目指す研究の一つ

3.3 機能の自動アノテーション
機能のアノテーションの自動化の限界
 現在の方法では2/3の遺伝子しかカバーできない
  (原因)機能の類似性を測る(計算可能な)因子の配列しかないため
  Gene Ontologyが格納する機能・遺伝子・文献の組合せ←配列以外に機能の類似性を測る(計算可能な)因子
     ↓
   ・文献から遺伝子と機能の関係を抽出する研究における機械学習の正解集合を与える
   ・外部データベースとの互換性により機能・遺伝子・遺伝子配列などの情報の組合せを得ることができる
        →機械学習の正解集合とすることで、さまざまな属性データを使った機能推定の可能性が開けた

3.4 データベース統合
ゲノム研究上
 ・遺伝子の配列を基準としたデータベースの統合
 ・Gene Ontologyの登場・・・遺伝子の機能を基準としたデータベースの統合が可能に
   ※機能は遺伝子の属性の中で人間が最も直感的に解釈しやすい属性
   ※生物学者にユーザフレンドリーな利用環境の提供
   ※暗号化された遺伝情報のすべてを読み解いた暁に、その情報を格納する枠組みとして不可欠
機能を基準としたデータベース
  Onto-Tool、GoFish、DAVD、GOblet・・・機能を基準としてデータベースの統合を支援するツール

3.5 Gene Ontologyの概念の解析
オントロジー記述言語(DAM+OIL、フレーム表現、Inductive Logic Programming)に移植する研究
 問題点
  ・is-a関係が完備されていない
    →(対応策)ルート直下に抽象概念を追加
           is-a関係の追加
           いくつかの概念について下位概念との関係をpart-of関係からis-a関係に変換
  ・3つのオントロジー間の関連の整備が必要
    →関係概念の追加:Part-of-Process、Occurs-at-Component
      関係概念の追加:Part-of-Comples、Contained-Within (part-of関係の解析の結果)
 概念の内部構造の解析
    →(例) ある生物種に特有な機能概念は概念名に"(sensu 生物種名)"をつけて表現←フレーム表現では属性に哲学オントロジーの立場から
  ・下位分類を行う基準の明確化が必要
  ・概念が一時的な存在であるのか継続する存在であるのかを厳密に扱う
  ・全称限定であるのか存在限定であるかを厳密に扱う
  ・概念間の依存関係を明確にする
      ↓
    これらの処置を上位概念について施すだけでも全体の見通しが大きく改善すると考えられる

4. Gene Ontology開発の経緯と運営

1) SGD (酵母)
2) Flybase (ハエ)
3) MGD (マウス)
4) TAIR (シロイヌナズナ)
5) WormBase (線虫)
 その後欧州連合EMBLが参加し、EMBLのデータベース群との互換性が整備される
  ↓
 Gene Ontologyが世界標準として認識される
更新頻度・・・毎月更新版がリリースされる
  2週間に1度の各DBからの出席者によるミーティングによって決まる
  5生物(酵母、ハエ、線虫、シロイヌナズナ、マウス)
     =地球上の真核生物(真核細菌、昆虫、線虫類、植物、ほ乳類)の全種類をカバー

5. さらなるパラダイムシフトへ

生物がなぜ生きることができるのかの問題の解決に向けて、さまざまな手段に応じた新しい融合領域が生み出され、そのたびに生物学者はパラダイムシフトの洗礼にさらされてきた。
 →分子生物学、構造生物学、生物化学、生物物理学、生物工学、生物情報学など→Conceptual Biology
Gene Ontologyは生物学にオントロジー研究が取り込まれた第一歩
  オントロジーというよりも"controlled vocabulary"に近い

<今後の課題>
・生物学をドメインとして、情報科学的に完備されたオントロジーを開発できるのか。
・そのオントロジーは生物学のどのような問題を解くことができるのか。