Was sind eigentlich diese Metdaten, von denen alle reden?
(Crosspost meines fünften Artikels aus dem Lehrveranstaltungs-Blog von Gesellschaftliche Aspekte der Informationstechnologie.)
Metadaten sind erstmal nur Daten, die andere Daten beschreiben. Der Name eines Dokuments gehört beispielsweiße zu den offensichtlichsten Metadaten. Er beschreibt eine Datei (gibt ihr einen Namen), ist aber nicht Teil der Daten selbst.
Weniger sichtbare Metadaten sind unter anderem die EXIF-Daten. In einer digitalen Bilddatei “versteckt” geben sie unter anderem Auskunft über den Entstehungszeitpunkt des Bildes und die verwendete Kamera. In Zeiten von Smartphone-Foto findet sich in den EXIF-Daten jedoch oft noch etwas anderes: Ist das GPS aktiviert (und das Smartphone nicht anderweitig konfiguriert), werden die GPS-Koordinaten des Entstehungsortes in den Metadaten gespeichert.
Die wenigsten sind sich wohl bewusst, dass sie durch das Veröffentlichen solcher Bilder auch die EXIF-Daten mit veröffentlichen, und so einiges preisgeben. EXIF-Daten sind jedoch auch sehr nützlich und sinnvoll, wenn es darum geht, (meist) größere Mengen von Bildern zu organisieren (oder auf einer Karte zu verzeichnen, wie es zum Beispiel der Bild-Hoster flickr vollautomatisch tut).
Gegen die meisten dieser Metadaten kann man sich im Bedarfsfall “schützen”, in dem man diese von der eigentlichen Datei entfernt. Was für viele jetzt paranoid scheinen mag, ist für AktivistInnen oft lebensnotwendig. (Im mobilen Bereich sind hier übrigens die Apps vom Guardian Project zu empfehlen.)
Die Metadaten, um die es in den momentanen Diskussionen in Artikeln rund um “den NSA Skandal” oder “Snowden’s Enthüllungen” geht, sind aber andere: Metadaten, die eine Verbindung beschreiben, sogenannte Verbindungsdaten.
Verbindungsdaten sind einerseits deswegen so interessant, weil sie oft mehr über eine Person (und deren soziales Netzwerk) aussagen, als die eigentlichen Daten. Andrerseits sind sie wesentlich leichter maschinell auszuwerten, da sie ja für Maschinen bestehen. Weiteres sind sie viel schwerer zu verstecken, da für sie eine technische Notwendigkeit besteht.
Ein Beispiel: Die Daten einer E-Mail sind der Text und eventuelle Anhänge. Zu den notwendigen Metadaten dieser E-Mail gehört zumindest die Empfänger-Adresse. (Meist werden jedoch auch noch Absender-Adresse, Betreff, und weitere technisch bedingte Header dazugezählt.) Im Prozess der Übermittlung der Mail von Absender-Server an Empfänger-Server können diese Metadaten zwar sicher übertragen werden (TLS, vorausgesetzt openSSL ist gepacht), es entstehen jedoch neue Metadaten: Die Verbindung von Server zu Server muss auch irgendwie beschrieben werden. Und dies lässt sich technisch bedingt nicht so leicht verstecken.
Ein analoges Beispiel verdeutlicht diese Problematik weiter: man kann einer Person zwar einen Brief schicken, ohne das die Post weiß, was man geschrieben hat. Man kann jedoch nicht verhindern, dass jemand mitbekommt, DASS diese Person einen Brief bekommt (und eventuell auch nicht, von wem er stammt).
Ein weiteres interessantes (und gut beschriebenes) Beispiel zur Anwendung stammt von Kieran Healy, welcher mit Hilfe von Metadaten aus dem 18. Jahrhundert eine Person ausfindig gemacht hat.
Das Interesse von Behörden aller Länder (was speichert wohl die Vorratsdatenspeicherung) bestätigt die Bedeutung von Metadaten weiter.
Im digitalen Raum schaffen Anonymisierungsnetzwerke wie Tor und i2p zwar Abhilfe, aber auch nur eingeschränkt. Eine Antwort auf diese Problematik kann also wiederum wohl nur eine Kombination aus Bewusstsein, technischem Verständnis und politischem Willen sein.