TOP > 月例研究会 > 2000 > / Last update: 2008.1.1

整理技術研究グループ月例研究会報告

韓国における資料組織法とマークアップ言語研究の動向

金泰樹(延世大学)、崔錫斗(梨花女子大学)


日時:
2000年1月29日(土) 13:50〜17:00
会場:
大阪市立阿倍野市民学習センター
発表者 :
金泰樹氏(延世大学)、崔錫斗氏(梨花女子大学)
テーマ :
韓国における資料組織法とマークアップ言語研究の動向
出席者:
光斎重治(愛知大学)、渡邊隆弘(神戸大学図書館)、尾松謙一夫妻(奈良県立奈良図書館)、北西英里(大阪府盲人福祉センター)、田窪直規(近畿大学)、倉橋英逸(関西大学)、蔭山久子(帝塚山短大図書館)、前川和子(堺女子短大)、韓南洙(大阪外大)、吉田暁史(帝塚山学院大学)、金泰樹、崔錫斗

「資料組織と知識構造化の課題」(金泰樹氏)

1.資料組織の課題
(1)複製物、翻訳・改訂等の派生関係、階層関係、付随資料、続編といった書誌的な関連を体系化する方法がまだ確立されていない。
(2)CCFの適用
 抄録・索引界と図書館界に共通して適用できる書誌的な交換用形式であるCCFは、書誌情報だけでなく、一部事実情報も収録できるようになっており、一歩進んで記録形式であると考えられる。
(3)ネットワーク情報資源の目録
 ネットワーク情報資源を記述する方法には、(1)MARC形式に統合、(2)多様なメタデータを使用する、という2つの方向がある。後者では、Dublin Coreが有名であるが、その表現構造の基礎には、RDFとXMLが用いられる。
(4)件名標目表の構造
 伝統的な件名目録では、細目形式が用いられる。しかし、細目形式では順番を入れ替えないかぎり2番目以後の標目からは探せない。事後結合索引に優位性があるかもしれない。
1)倒置形
 有機化学を化学(有機)とするような倒置形が用いられることがある。これについては自然な語順を主張したい。
2)接続詞で結合された形
 「孤児・孤児院」や「善と悪」のように「・」や「と」で結合された形がある。これらは各部分を独立させるべきではないか。
3)主題と地名
 いずれが優先するという論理的な原則は存在しない。
(5)典拠コントロール
 現行の典拠コントロールでは、一つの形に統一することになっている。しかしコンピュータ環境では、必ずしも一つに統一する必要はない。多くの異なった形を同じものとしてリンクするシステムを構築することがより重要である。

2.知識の構造化の問題
(1)シソーラスにおける定義モデル
 シソーラスにおいて分析的定義(analytical definition)を導入する可能性を考えることができる。特定分野内におけるある概念を、被定義項(definiendum)と定義項(definiens)という基本形式で分析するという方法である。
(2)探索用シソーラス
 探索者の思いつく用語に対応して、関連概念を拡げ連想することが出来るような探索用シソーラスの構築が一つの可能性として考えられる。多数の同義語や類義語、反義語等を収容する大規模なシソーラスを開発し、種々の用語間の連結関係を利用して、探索者の近くと認知範囲を拡張することが出来る。
(3)テキスト範疇化
 インターネット文書の自動分類と範疇化は重要かつ緊急の問題である。これには2つの方法があり、1つは、特定の分類体系やシソーラスを利用して自動的に分類する方法、もう一つは、対象とする文書群から、用語の統計的処理やクラスタリング手法を用いて、分類体系を自動的に生成する方法である。
1)分類体系の適用
 UDCを用いたドイツのGERHARDや、DDCを用いたOCLCのScorpionプロジェクトなどがある。
2)知識分類
 知識分類という概念は、WEBから知識を組織化するために、特定主題領域に関する用語を関係構造として組織化した小規模シソーラスであるり、特定の主題領域に属する用語を選定し、情報専門家によって構造化したものである。

「韓国文献情報学系におけるマークアップ言語の研究動向」(崔錫斗氏)

1.メタデータ用マークアップ言語
 現状のMARCによる目録作成の問題点として、以下が考えられる。
(1)基本構造は同じであるが、MARCの種類ごとに細部の形式が異なる。
(2)熟練司書による作成を必要とする。
(3)表現できないデータがある。
 Dublin coreのようなメタデータはMARC形式の問題点を乗り越えるべく生まれた。
2.全文データ用マークアップ言語
 SGMLは文献の構造を記述する汎用メタ言語である。SGMLは標準テキストマークアップ言語として、テキストデータベース、コーパス、デジタル文献等の構築に使用されている。SGMLを用いて文書を作成するときの問題点は、その対象となるデータがASCIIであるところにある。ハングルはOCRで読みとることができるのが97%くらいで、非常に低い。韓国では、ORCはなかなか実用化することが難しいので重要な文献と今後の文献に関してはASCII化するが、その他の文献はイメージ形式で保存することがよいと考えている。
3.メタデータ
 一般にマークアップされた原文から自動的にメタデータを生成するのは難しく、人間の判断が必要となる。しかし、全文のタグとメタデータのタグは統合し、両者を一体化する必要がある。MARCデータは、国家ごとにタグが異なるが、種類はそれほど多くない。しかし今後種々のメタデータを含めると、その形式は非常に多くなる。これを統合するためには、mapping tableによる方法もあるが、変換は完全にはならない。このような目的のため、XMLを利用したRDFモデルが提案されている。
4.タグの標準化
 文献をマークアップしていくとき、多くの機関がタグの種類、意味、属性、およびタグと構造間の関係を標準化することが重要である。多くの機関がバラバラにこれらを決めると、データの互換性がなくなる。MARCのような失敗を繰り返さないためにも、国際的な協議と協力が必要である。TEIでは、共通スキーマを開発し、そのスキーマによるテキストマークアップのためのガイドラインを作成した。TEI文献で使用しているタグの種類はおよそ400種類であるが、このうちヘッダーで使うのが約60種類、各位sんになる基本タグは約100余種類となる。60種類で書誌事項ならほぼまかなえる。
5.韓国における適用動向
 韓国では、国家ディジタル図書館参加機関を中心に、すでに大量の文献に対してSGMLを利用してタグ付けを行い、全文データベース提供している。国立国会図書館、法院図書館、韓国教育学術情報院などで、プロジェクトを推進しているが、2000年からは本格的に膨大なデータ作成が始まる。このさい、重要な文献のみをASCII化し、そうでないものはTiff形式によってイメージ情報としてもつことになる。
 漢字コードの問題があり、日本と中国で作られた書誌と全文データベースは韓国語のデータベースには含めない。Unicodeが普及することが望まれる。
参考文献:崔錫斗、金泰樹 韓国文献情報学界の研究動向『図書館学』75号(1990.9) p.1-7

例会終了後、
「金泰樹先生・崔錫斗先生を囲む会」を開きました

写真