`11/2001` Internet Memory

Ist das Internet in seiner Schnelllebigkeit ein Medium, das mit Erinnerung nichts zu tun hat? Egal, ob man Medien im allgemeinen nur als Vermittlungsträger oder auch als Handlungsräume versteht, was sie vermitteln oder womit gehandelt wird ist Information. Um Information wiederverwenden, erinnern und in Wissen umsetzen zu können, muss sie gespeichert werden. Dies geschieht in Bibliotheken, die heute aber bereits allein mit ihrem Papierbestand an Grenzen des Bewältigbaren stoßen: Die größten Bibliotheken sind die US-amerikanische Library of Congress mit 130 Millionen „Medieneinheiten“ (natürlich vorrangig Büchern) und der Bibliotheksverbund der British Library mit 150 Millionen Einheiten. Schon Mitte der 80er Jahre wurde festgestellt, dass „in den nächsten 10 Jahren genauso viel publiziert wird wie seit Erfindung des Buchdrucks“. Der größte Teil der Literatur seit 1850 ist auf säurehältiges Papier gedruckt, wird also früher oder später zerfallen. In der Österreichischen Nationalbibliothek zum Beispiel sind 10 bis 15% des Bestandes schadhaft und unmittelbar von der Zerstörung bedroht. Obwohl der Übergang von analogen zu digitalen Medien insbesondere bei Texten bei weitem nicht so schnell geht, wie das viele Neue-Medien-Apologeten prognostizierten, wird doch immer mehr Information nur digital publiziert. Zum Beispiel wissenschaftliche Zeitschriften werden heute zunehmend nicht mehr gedruckt, andere Sparten werden, wenn auch langsam, folgen. Die digitale Publikation erfolgt meistens per e-Mail, per CD-ROM oder im Internet, erreichbar mittels Online-Datenbankzugang. Schätzungen über die aktuelle Dimension des Internet schwanken zwischen 2,7 und 5 Milliarden Webpages (Seiten). Das umfasst allerdings nur HTML-Dokumente, unterhalb dieser allgemein bekannten Informationsschichte befindet sich das sogenannte Deep Web, also all die Information, die über Web-Formulare in Online-Datenbanken gefunden werden kann: dort liegen ungefähr 550 Milliarden Dokumente, die von gewöhnlichen Suchmaschinen überhaupt nicht erfasst werden. Die Suchmaschine mit dem größten Abdeckungsgrad ist Google mit ca. 1,6 Milliarden durchsuchbaren Webpages, also etwa der Hälfte bis einem Drittel des „sichtbaren“ Internet und etwa einem Dreihundertstel des Deep Web. Die durchschnittliche Lebensdauer eines HTML-Dokumentes beträgt 44 Tage. Die Idee drängt sich also auf, die täglich verschwindende Information des World Wide Web zu speichern. Der erste, der diese Idee hatte, war Brewster Kahle, der seit 1996 mit seinem Internet Archive öffentlich zugängliche Websites und Newsgroups speichert, nachdem sie von seinem Suchdienst Alexa aufgefunden wurden. Aktuell ist diese „Internet Library“ 100 Terabyte groß, also 100 Billionen Byte. In der Library ist das „Deep Web“ mit geschätzten 7,5 Petabyte (Billiarden Byte) bzw. 7.500 Terabyte natürlich nicht enthalten. Interessante Produkte dieser Sammlungstätigkeit sind zum Beispiel Archive über die Darstellung der US-Präsidentschaftswahlen 2000 und des Terroranschlags vom 11. September 2001 im Web. Und damit wird auch die Bedeutung dieses Unternehmens klar: Wenn ein immer größerer Anteil der Kommunikation und Information ins Internet wandert, ist eine Dokumentation dieses Sektors unerlässlich, um die Möglichkeit der späteren Analyse und Verwendung erhalten zu können. Es ist etwa dezidiertes Ziel der Europäischen Union, die Kommunikation zwischen Bürgern und Behörden so weitgehend wie möglich ins Internet zu verlagern – aber wird das dort Gebotene für immer aufbewahrt? Das Internet Archive spricht in diesem Zusammenhang vom „Recht auf Erinnerung“. Wenn man allerdings bedenkt, dass 2003 bereits 15 Milliarden Webpages (ohne „Deep Web“) online sein werden, bleibt die Frage, wie lange das Internet Archive mit diesem Entwicklungstempo mithalten wird können.

www.brightplanet.com/deepcontent
www.google.com
www.archive.org
www.alexa.com

11/2001 Internet Memory

`11/2001` Internet Memory