情報組織化研究グループ月例研究会報告（2013.5）

インターネット資料収集保存事業（WARP）の10年とこれから

前田直俊（国立国会図書館関西館）

日時：: 2013年5月18日（土） 14：30～17：00
会場：: キャンパスポート大阪（大学コンソーシアム大阪）
発表者：: 前田直俊氏（国立国会図書館関西館）
テーマ：: インターネット資料収集保存事業（WARP）の10年とこれから
出席者：: 安東正玄（立命館大学）、稲葉洋子、上野芳重（大阪市立大学）、大西賢人（京都大学）、川崎秀子（佛教大学）、川瀬綾子、河手太士（静岡文化芸術大学図書館）、篠田麻美（国立国会図書館）、田村俊明（紀伊國屋書店）、中村恵信（神戸松蔭女子学院大学）、堀池博巳、松井純子（大阪芸術大学）、水野翔彦（国立国会図書館）、村上幸二（奈良学園小学校）、村井正子（日本アスペクトコア）、横谷弘美（大手前大学）、吉川直樹（京都府OB）、渡邊隆弘（帝塚山学院大学）、前田＜19名＞

１．ウェブアーカイブの役割

◆なぜウェブサイトを集めるのか？

1990年代の半ば頃からウェブ情報が急速に増え始めたが、ウェブサイトは情報の更新・削除が頻繁で、サイト自体が消えてしまうこともある。また、ボーンデジタルや紙の刊行物がネット版に移行することもある。そこで、それらを後世に残すべき文化遺産として保存するウェブアーカイブの重要性が認識されてきた。

◆誰がウェブサイトを集めるのか？

世界的に見て、大規模ウェブアーカイブは公的機関（国立図書館、公文書館等）が実施している。
図書館は情報の保存と提供を担ってきた。ウェブ情報を保存しないと、これまでの機能を十分に果たせなくなる恐れがある。
媒体を問わない文化遺産の保存と伝統的な資料群とのシームレスなアクセスの保障が必要。
法制度に基づく安定的な運用の必要性。
システム面、人的リソース等で相当の体力が必要。

◆IIPC（International Internet Preservation Consortium）

1996年にインターネットアーカイブ（IA）などがウェブアーカイブを開始。
2003年7月に世界のウェブアーカイブ機関からなる国際インターネット保存コンソーシアム（IIPC）が結成される。参加メンバーは12機関（LC、BNF、IA等）に限定されていた。
IIPCの第1期（2003年～2006年）の活動は収集ロボットHeritrix等の基本的な技術開発を行う。
第2期の活動（2006年～　）はより洗練した技術開発が行われる。ウェブアーカイブデータの保存用フォーマットWARCの開発と国際規格化（ISO）等。ツールの無償公開、改良や再配布は自由。
参加メンバーの拡大が行われた。2008年4月に国立国会図書館が加盟。

２．ウェブアーカイブのしくみ

◆ウェブアーカイブのライフサイクル

「選定」→「収集」→「組織化」→「保存」→「公開」という概念的なサイクル。実運用では必ずしもこの手順そのままではない。

◆選定

収集にはバルク収集と選択収集の2種類がある。
収集方法、収集の根拠、規模、かかるコスト、品質、メタデータなどの基準が異なる。

◆バルク、選択、法制度

バルク収集しているウェブアーカイブ実施機関の多くは選択収集も並行して行っている。
バルク収集をしている機関のほとんどは法制度がある。IAは例外的でフェアユースによるバルク収集。
法制度があっても、その範囲が限定的なため、選択収集のみの国もある。
法制度のない国は選択収集のみ。

◆収集

収集ロボットによるハーベストを実施。起点となるURLを指定し、リンクを辿りながらファイルを複製・収集

◆収集ロボットHeritrix

IIPCが開発したクローラ。
世界のウェブアーカイブで広く利用されている。

◆収集単位

ターゲット単位は機関やウェブサイトのターゲットを設定して収集。WARPはこの方法で収集。
ページ単位はバルク収集で多く採用され、ドメインレベルで大規模に収集し、URLのみで管理。

◆収集頻度

サイト更新のタイミングでの収集が理想的（更新の自動検知など高性能クローラが必要）。大学研究機関では使っているところもあるが、ウェブアーカイブ機関ではあまりない。
多くは定期的な収集（バルク収集は年に１～３回）。相手サーバに負担をかけないことや収集する側のシステムリソース（クローラの同時走行数など）に係る制約も考慮。

◆保存

必ずファイルのバックアップを取ることが重要。（WARPは2か所に分散）
国際規格化された保存フォーマットWARC（Web ARChive）による保存。
形式は「ヘッダー」と呼ばれるメタデータ項目（収集日、収集方法、マイグレーション等の情報）と「コンテンツブロック」がセットになったもの。
長期保存の視点ではまだ十分な成果が国際的にも出ていないのが現状であり、ファイル数が膨大、ファイル種類の多様さなど課題が多い。10年前のファイル形式のものは再生できないものがあるかも知れない。マイグレーションやエミュレーションなどの方法が言われているがウェブアーカイブとして確立した基準はまだない。

◆公開

レベル分けからDark Archive（完全非公開）やGrey Archive（研究目的や特定施設内のみの公開）、White Archive（ネット公開）がある。
WARPはGrey ArchiveとWhite Archiveの両方式によっている。
インターネットアーカイブはオプトアウトによるWhite Archive。

３．WARPの10年

◆インターネット資料収集保存事業

WARP（Web Archiving Project）は2002年に事業開始

◆制度の10年

2002年に実験事業としてWARP開始。１つ１つ許諾を得て収集・保存。（～2010年3月まで）。その後、法制度の確立に向けて納本制度審議会の答申や、パブリックコメントで意見募集を実施。
結果、言論の委縮や違法情報等の懸念により公的機関に絞った法制度化へ。
2006年WARPの本格事業化
2009年7月国立国会図書館法および著作権法の改正
2010年4月改正法施行。公的機関ウェブサイトの制度的収集開始
2012年6月国立国会図書館法および著作権法の改正
2013年7月民間オンライン資料の制度的収集開始（予定）

◆制度的収集

国立国会図書館は公的機関のウェブサイトを許諾なく複製が可能
ネット上で一般公開されているものが収集対象
ただし、除外対象もある。例えば、事務に係る申請、届出等を受けることを目的とするものやCiNiiなど長期的アクセスを目的とし、かつ特段の事情なく消去されないと認められるもの。
民間ウェブサイトは引き続き許諾を得て収集。

◆自動収集

ロボット排除規約（ウェブサーバのルートディレクトリに「robots.txt」の設定やMETAタグでの設定があるものは収集しない。ロボット排除規約を遵守するのが基本ルール。
ただし、制度収集対象機関は国立国会図書館のクローラが通れるように設定変更の義務がある。

◆送信・送付による収集

自動収集できなかったもののうち、指定されている１７項目のものについては送信・送付を求めることができる。

◆公開

国会図書館内ではすべて閲覧可能、ネット公開は発信者から許諾が得られたもののみ可能。複写は発信者から許諾を得られたもののみ、全文複写サービス可能。著作権法第３１条第１項による複写は一部分の判断ができないため困難である。

◆収集量

2009年以前の許諾契約のみによる収集時代は微増であったが、法制度による収集が開始されて以降は大規模化している。

◆システムの10年

これまで３つのバージョンあり。独自開発からオープンソースへ。
WARP開始当初はクローラを初め、必要なソフトウェア（クローラ・収集管理・閲覧など）は独自開発で進められた。
2010年クローラにHeritrixを採用、収集管理にはIIPC開発のWCT、閲覧ソフトは独自、全文検索はSolrを採用。オープンソースを多く利用し、世界標準化とコスト削減。
2013年、閲覧ソフトにインターネットアーカイブのWaybackを利用。

◆旧システム（Ver.2）の課題

同一ファイルの重複収集であったものを差分収集へ変更
保存用ファイルと閲覧用ファイルの２重持ちを解消。閲覧ソフトWaybackを採用することによって、保存用ファイルの直接閲覧が可能に（閲覧用ファイル作成・保存が不要に）。

◆ストレージ削減効果

差分収集と保存ファイルの直接閲覧によるストレージ削減効果。全体で約85％の削減効果。

◆スケールアウト・スケールアップ

コンピュータ（サーバ）の増強
ストレージの削減効果
全文インデックスファイル保存領域の増加

◆インターフェースの改善

視覚的にわかりやすくした（地図上、組織図によるワンクリック検索などに改善）
ウェブアーカイブの仕組みや世界のウェブアーカイブをわかりやすく紹介するコーナーを設置。

４．メタデータと組織化

◆WARPのメタデータ

DC-NDL（2011年12月版）に準拠。
やや小ぶりの項目数。
メタデータの例としてはターゲットのもと、保存日に分けて管理・公開

◆収集単位とメタデータ

WARPはターゲット単位で収集。機関単位でメタデータを付与。
ウェブアーカイブのメタデータは収集のためのメタデータであり、発見のためのメタデータではない点に注意が必要。例えば、総務省という省庁では内部に総務省、統計局、電子政府（e-Gov）などの多くのURLがあるが、メタデータは１つにまとめている。

◆URLの構造

WARPのURLの構造は「固定部分＋永続的識別子＋オリジナルサイトのURL」からなる。
固定部分はWARPで保存したウェブサイトに共通で付与される部分
永続的識別子は特定ウェブサイトの単位で保存日ごとに付与されるID

◆全文検索

メタデータ作成の単位の粒度が粗い分を補完するもの。
WARPの全文検索エンジンは現在Solrを採用。（ノイズが結構多い）
インデックスファイルが膨大になっている。
インデックス処理能力、スケールアップが課題となっている。
維持管理が大変（処理時間、サーバスペック、ディスクスペース確保など）。

◆著作単位の組織化

機関単位のメタデータのみでは粒度が粗い。
全文検索はノイズが多く含まれる。
そのため、刊行物などの著作物単位にメタデータを付与している。
著作物の発行形態が「以後電子」となった場合の連続的アクセスの保障。
WARPから著作単位に切り出し、メタデータを付与。（国の刊行物、電子雑誌などの重要コンテンツが主なターゲット）
電子雑誌のメタデータ作成の単位はタイトル単位、巻号単位、記事単位。
作成には人的コストを要するのが現状。（付与が必要かどうかの判定に多くかかる）
組織化の対象となる著作物ファイルはホームページに直置されているファイルである。有償の電子書籍（まだ制度対象外）等にはメタデータがあるので、将来収集するとしてもそれを流用することで、再度の組織化は不要だろう。
制度収集の開始以後、3年間で14万件強のメタデータを作成。

◆著作単位のメタデータ項目

データ項目はDC-NDL（2011年12月版）を使用。紙の刊行物に近い項目になっている。紙と親和性があるように工夫

◆著作単位の公開

デジタル化資料と一緒に公開し、親和性を持つようにしている。

◆民間オンライン資料の制度収集

2013年7月より、私人のオンライン資料に納入義務が生じる。
インターネットで公開されているもののうち、図書、雑誌に相当するものがオンライン資料。
当面の制度収集の範囲は無償かつDRMのないものに限定。
特定コード（ISBN、ISSN、DOI）があるもの、あるいは特定フォーマット（PDF、EPUB、DAISY）が対象。
収集方法は自動収集、送信（アップロード方式）、送付（メディアを直接送付）のいずれかの方法。

◆ウェブコンテンツの収集・組織化モデル

法制度に基づく公的機関のウェブサイト収集、許諾に基づく民間ウェブサイトの収集、新しく始まる民間オンライン資料の収集（当面は無償かつDRMなし）の3本柱による収集・保存となる。
公的機関のウェブサイトと許諾を得た民間ウェブサイトをそのまま保存する。また、著作物ファイルを抽出し、保存する。
民間オンライン資料は著作物ファイルを保存する。今後、有償のものも収集に向けて検討予定。

５．課題と展望

◆収集が難しいもの

収集できないファイルがある。
JavaScriptプログラムで呼び出されるファイル。
ストリーミングファイル（動画）
データベース内のファイル（深層ウェブ）
SNSは技術的だけでなく、制度的な課題がある。（たとえば、robots.txtの設定の修正義務が及ばない）
Twitterはrobots.txtがないので収集は可能。Facebookはrobots.txtでロボット排除設定がなされており、法制度的には民間サイトへの設定解除義務が及ばないため、収集が困難。
新技術への常なる対応が求められる。世界各国（IIPC）と共同して課題解決にあたる。

◆いかに利用するか

今後、「いかに集めるか」だけではなく「いかに利用するか」が求められている。
データマイニング技術の活用が求められる。分析・活用紹介のレポートがIIPCより出ている。
過去データのデポジット機能の活用。例えば、オリジナルサイトから過去データを消去してWARPに誘導してデータを利用してもらうことが考えられる。
切り出しの自動化、検索機能の高度化。（例えば、切り出し対象の発見はセマンティックに、メタデータ付与は正解集合に基づくパターン認識などが考えられる。）

（記録文責　堀池博巳）

当日の資料: 発表資料（PDF 1,950KB）