インターネット・アーカイヴの挑戦

[掲載日：2002年04月01日]

今日、デジタル情報の支持メディアにおいて、どの程度の情報が量的に生産され、流通しているのだろうか。文書、イメージ、動画、音楽などから、インターネットを流通するウェブや電子メールに至るまで、膨大なデジタル情報の実態的把握とその総量をめぐって、カリフォルニア大学バークレー校のInformation Management and Systems学部では、Peter LymanとHal R. Varianの指導のもと、James Dunn, Aleksey Strygin, Kirsten Swearingenらの研究チームが世界初となる情報計量化の研究レポートをまとめた。

そこでは多様なメディアを対象に、年間の情報生産量、情報蓄積量、成長率の割合などが見積もられている。とりわけインターネットに関して言えば、その成長は今も加速しつづけ、そのことはインターネットが未だ成長の臨界点に達していないということを示している。情報のストックとフロー間の区別を明確にすれば、ウェブ・サイトや電子メールのメッセージの一部は個々に保存され、一方でInternet Relay Chat （IRC）やTelnetなど、いわゆる既知の「インターネット」として知られている他の「構成要素」は、情報伝達のフローとしてのみ存在する。インターネットがこれほどまでに成功した原因として、比較的情報のフローが少ない本や新聞などのメディアとは対照的に、インターネットでは保存されている1単位が数テラバイトものフローを発生させる、ラジオやテレビなどと近い、フロー型のメディア特性を持つことが挙げられる。

“How Much Information?”として公開された上記のレポートによれば、ウェブのコンテンツは大きく二つのグループに分類される。一つは「表層のウェブ」とも呼ばれ、一般に「ウェブ」として理解されている静的でかつ公然と入手することができるウェブ・ページから構成されるグループである。実はこのグループはウェブ全体からすると比較的小さな部分にすぎないとされる。もう一方のグループは「深層のウェブ」と呼ばれ、ウェブ上で入手できる特殊化されたデータベースや動的なウェブ・サイトからなるグループである。「深層のウェブ」から入手できる情報は、「表層のウェブ」において入手できる情報よりも400－500倍もの大きさを持っているが、一般のネット・サーファーにはあまり広く知られていない。

「表層のウェブ」はおよそ25億ページの文書から成っており、2001年初めには10億ページだったものが1日あたり730万ページという成長率で増加し続けている。「表層」ページの平均サイズの概算は1ページあたり10－20キロバイトの範囲で変動が生じる。したがって、「表層のウェブ」における、情報量の合計は（HTMLを含めた基準で）25－50テラバイトのあいだであり、幾分変動も生じる。これらの変動係数を考慮して研究レポートはウェブ上の本文からなるコンテンツは10－20テラバイトという概算として見積もっている。毎日730万のページが新たに増加し、成長率としては平均1日あたり（HTMLを含めて）0.1テラバイトの新しい情報が加わっていることになる。

ウェブに連動しているデータベースや動的なページ、イントラネットのサイトなどのまとめて「深層のウェブ」として分類されているすべての情報を考慮すれば、ウェブにつながれた文書は5,500億ページもあり、1ページあたりのサイズの平均は14キロバイト、そしてこの情報のうちの95パーセントが公に入手できるものであるということになる。もしこの情報を一箇所に保存しようとすれば、7,500テラバイトのストレージが必要となるとレポートは指摘している。これは「表層で静的なウェブ」全体のサイズを最も大きく見積もった際に必要となる収容力、50テラバイトよりも150倍大きい値である。この情報の56パーセントが（HTMLを除いた）実際のコンテンツであり、したがって高品質のデータの概算は4,200テラバイトということになる。

最も大きい「深層のウェブ」サイトのうちの二つである米国国立気象データ・センターとNASAのデータベースは585テラバイトの情報から成っており、これは「深層のウェブ」全体の7.8パーセントにあたるという。そして、最も大きいウェブ・サイトのうちの60サイトには750テラバイトの情報が含まれており、これは「深層のウェブ」全体の10パーセントにあたると見積もられた。

「1年間に紙、フィルム、光学式ディスク、磁気ディスクの世界において生産される情報の総量を、すべて記録するためには、おおよそ10－20億ギガバイトの容量が必要となる。これは、地球上の男、女、子どもに至るまでのすべての人、一人あたり250メガバイトの容量が必要であるということに等しい」とした報告のスケールを読み解くと、今後私たちが生産する情報総量に比したストレージやアーカイヴの機能がどのような役割を持つものかが、予見されていく。

1996年から現在まで、そして今後も幾何級数的な増殖を遂げる全世界のウェブ・ページをすべて記録するというプロジェクトが、「インターネット・アーカイヴ：ウェイバック・マシン」である。昨年11月に告知されたこのプロジェクトは、9月11日のテロ事件で破壊され、消失したワールド・トレード・センターにおけるデジタル情報の経済資産量の概算見積りを背後に、デジタル情報がその特性として持つ離散的性格や流動性に対する危機管理を表徴するプロジェクトとして世界の注目を浴びてきた。「数年前のウェブ・ページを貴方は保存していますか？」と問いかけられたとき、一瞬そんなデータはもう存在していない、と答えるのが当たり前だとしたら、われわれはデジタル世紀の黎明期そのものを暗黒の時代として刻印することになる。このプロジェクトが実際に始まったのが1996年であることから、ウェブの黎明期に制作されたページ群は、3年から4年のミッシング・リンクをすでに通過したことになる。

ブリュスター・カール。かつてインターネットの拡張期であった90年代初頭に、「シンキング・マシンズ」のスーパーコンピュータを駆使し、WAIS（Wide Area Information Service）と呼ぶ情報検索システムを構築した先端情報科学の研究者は、その後情報サイトの自動検索に革命的な進展をもたらす「アレクサ・システム」の開発者としても著名である。彼は96年当時、自宅に300台のPCを設置してこのプロジェクトを開始したという。「インターネット・アーカイヴ」は、ウェブ情報の保存機能に特化したシステムであり、パブリック・ドメインとしてのウェブ・コンテントの存在をいち早く認知させる役割ともなっている。

コピーライトと知的所有権の錯綜から、こうしたプロジェクトそのものが著作権保護上、成立しえないとする見解は、一挙に修正されなければならない。フェア・ユースを前提とした公共財の観点から、他人のウェブ・サイトの情報を丸ごとキャプチャーすることの意義は、情報の離散性や流動性を制御し、タイムカプセルとして情報財を保存する仕方へと、重要な意味を提起しているのである。

インターネットと洗練されたデジタル技術は日々生産される膨大なデジタル情報資産をどこまで保存することが可能か。個人の情報ストックが、情報市場そのものに働きかけ、膨大なフローを形成する今、実体社会で機能してきたかつての図書館や博物館に加え、デジタル情報財を無償に近いかたちで提供するデジタル・ライブラリーやアーカイヴの存立形態が問われている。さらに、コピーライト市場経済により閉塞し、本来離散し、流動し、変容を遂げるデジタル情報の特性を物質に留め置こうとする旧来のソフト経済の行き着く先は、「情報は無償を欲している」という叫びから遠く後退し、偏狭な知価交換経済論に収斂されていく。無償化を促進させるのは、無体情報における公共財の認定化プロセスにある。モノに依存しない無体情報の意識的なアーカイヴィング作業、贈与と贈答の新たなモデル、アイデアの交換と「コピーレフト」モデルをも見据えた、知的所有権の新しいモデル作りの開発と交渉が緊急の課題だ。

たけむら・みつひろ――1954年生まれ。束京大学大学院助教授。メディア環境学。著書＝『メディア・エクスタシー』（青土社）、『デジタル・ジャパネスク』（NTT出版）。