Als Chris Anderson 2008 bezugnehmend auf das Big-Data-Phänomen das Ende der wissenschaftlichen Theorie ausrief, gab es aus diversen wissenschaftlichen Disziplinen ebenso Zuspruch wie Kritik. Dabei steht Anderson als Befürworter der Einführung neuer wissenschaftlicher Methoden aufgrund neuer Technologien und Unmengen an Daten längst nicht alleine da: Schon im analogen Zeitalter wurden aufgrund einer „Informationsflut“ Änderungen in der wissenschaftlichen Arbeitsweise gefordert. In dieser Seminararbeit soll die von Vannevar Bush konzipierte Memex, weniger ihre technische Funktionsweise, mehr jedoch ihre potentielle Beihilfe zur wissenschaftlichen Erkenntnis, erläutert werden, denn ähnlich wie Anderson sah Bush die Notwendigkeit einer Zäsur zum Zwecke besserer wissenschaftlicher Forschungsergebnisse. Ferner soll herausgearbeitet werden, wie die jeweiligen Daten, sei es in analoger oder digitaler Form, charakterisiert werden und für die Erkenntnisgewinnung genutzt werden sollten. Bushs Essay As we may think aus dem Jahre 1945 ist weitaus mehr als eine Vorstellung der Memex; der Fokus der Arbeit soll aber auf dem deutlich aktuelleren Diskurs um das Ende der Theorie und dem datenbasierten Arbeiten, und dieses insbesondere in den Geisteswissenschaften, liegen. Inwiefern Big Data für geistwissenschaftliche Zwecke genutzt werden kann und welche Rolle die Digital Humanities spielen, gilt es zu klären.
Inhaltsverzeichnis
1 Einleitung
2 Probleme in der jeweiligen Wissenschaftssituation
2.1 Die Problematik der Informationsverarbeitung (1945)
2.2 Wissenschaftliche Theorien können die Wirklichkeit nicht erklären (2008)
3 Was macht „Big Data“ aus?
3.1 Was ist „Big Data“ für Anderson?
4 Die Unmittelbarkeit der Memex
4.1 Woraus bestehen Bushs Datenbanken und kann man im Bezug auf die Memex von „Big Data“ sprechen?
4.2 Ändert sich die wissenschaftliche Arbeitsweise durch die Memex?
5 Big Data, Algorithmen und Korrelation reichen aus: Andersons Utopie
6 Der Computational Turn
7 Ist die Memex lediglich eine Erweiterung?
8 „Ästhetik der Theorielosigkeit“ oder „Mythos Big Data“?
8.1 Was „Big Data“ nicht kann
9 Fazit
10 Ausblick
11 Literaturverzeichnis
1 Einleitung
Als Chris Anderson 2008 bezugnehmend auf das Big-Data-Phänomen das Ende der wissenschaftlichen Theorie ausrief, gab es aus diversen wissenschaftlichen Disziplinen ebenso Zuspruch wie Kritik. Dabei steht Anderson als Befürworter der Einführung neuer wissenschaftlicher Methoden aufgrund neuer Technologien und Unmengen an Daten längst nicht alleine da: Schon im analogen Zeitalter wurden aufgrund einer „Informationsflut“1 Änderungen in der wissenschaftlichen Arbeitsweise gefordert. In dieser Seminararbeit soll die von Vannevar Bush konzipierte Memex, weniger ihre technische Funktionsweise, mehr jedoch ihre potentielle Beihilfe zur wissenschaftlichen Erkenntnis, erläutert werden, denn ähnlich wie Anderson sah Bush die Notwendigkeit einer Zäsur zum Zwecke besserer wissenschaftlicher Forschungsergebnisse. Ferner soll herausgearbeitet werden, wie die jeweiligen Daten, sei es in analoger oder digitaler Form, charakterisiert werden und für die Erkenntnisgewinnung genutzt werden sollten. Bushs Essay As we may think aus dem Jahre 1945 ist weitaus mehr als eine Vorstellung der Memex; der Fokus der Arbeit soll aber auf dem deutlich aktuelleren Diskurs um das Ende der Theorie und dem datenbasierten Arbeiten, und dieses insbesondere in den Geisteswissenschaften, liegen. Inwiefern Big Data für geistwissenschaftliche Zwecke genutzt werden kann und welche Rolle die Digital Humanities spielen, gilt es zu klären.
2 Probleme in der jeweiligen Wissenschaftssituation
2.1 Die Problematik der Informationsverarbeitung (1945)
Bushs Essay As we may think beginnt mit einer Analyse der Rolle der Wissenschaften während des Zweiten Weltkriegs. In der Biologie und der Medizin stelle der Krieg keine Zäsur dar, da die Forscher nach dem Krieg im Wesentlichen in ihren alten Fachgebieten geblieben seien. In der Physik jedoch sei das Forschen zu Kriegszwecken auf die Wissenschaft bezogen eine ereignisreiche und erfolgreiche Etappe gewesen. Allerdings sieht Bush die Physik nun an einem Punkt angelangt, an dem ihre Zukunft nicht eindeutig vorherzusehen ist. Trotzdem steht für Bush fest, dass die Notwendigkeit der wissenschaftlichen Forschung nicht abnehmen wird. Problematisch hierbei ist jedoch die enorme Menge an wissenschaftlichen Publikationen, die das Gedächtnis und die Aufnahmefähigkeit des Forschers, sofern er denn den Zugriff auf diese Publikationen hat, überfordern. Die Methoden des Informationsaustausches, präziser ausgedrückt die Distribution und Bereitstellung von Veröffentlichungen und ferner die Möglichkeiten des Zugriffes auf wissenschaftliche Forschungsergebnisse, seien „generations old and by now [...] totally inadequate for their purpose.“2 Dadurch werde insbesondere die konstruktive Zusammenarbeit verschiedener wissenschaftlicher Disziplinen erschwert, die derzeit zu oberflächlich sei. Mendels Evolutionstheorie beispielsweise sei lange Zeit nutzlos gewesen, da sie diejenigen, die sie genutzt und erweitert hätten können, aufgrund der mangelhaften Publikations- und Distributionsformen nicht erreicht habe. Die zeitgemäßen technologischen Fähigkeiten stünden den Publikationen insofern nach, als dass letztere nicht optimal verwertet werden könnten; ferner bestehe die Gefahr, von Bush sogar als „catastrophe“3 bezeichnet, dass weitere wichtige Forschungsergebnisse in der unsortierten Masse verloren gehen könnten.4 Dieser Zustand wird rückblendend auch als „Problematik der Informationsverarbeitung“5 oder als ein „Kommunikationsproblem“6 rezipiert.
2.2 Wissenschaftliche Theorien können die Wirklichkeit nicht erklären (2008)
Andersons Grundgedanke seines Essays Das Ende der Theorie. Die Datenschwemme macht wissenschaftliche Methoden obsolet, welches erstmals 2008 auf der Website wired.com veröffentlich wurde, aber auch in wissenschaftlichen Kreisen viel Resonanz gefunden hat, ist, dass Theorien prinzipiell Fehler beinhalten und die Wirklichkeit zwar erklären können, dieses aber nicht fehlerfrei tun und nie getan haben. Er stellt heraus, dass keine wissenschaftlichen Modelle mehr vonnöten sind, da lediglich der „massive Überfluss an Daten“7, die von Algorithmen aufgestellt und verarbeitet werden, zur Erkenntnis ausreiche. Gesellschaftliche und wirtschaftliche Phänomene, wie etwa Reichweite und Erfolg von Werbung, müssen nun nicht mehr erklärt werden. Auf dieser Grundlage wagt Anderson die Behauptung, semantische und kausale Analysen seien in den Wissenschaften fortan überflüssig. Als veraltet bezeichnet er die für ihn klassische Arbeitsweise Hypothese, Modell, Test; ferner sei sie in bestimmten Bereichen nicht zu verwirklichen oder zu teuer. Darüber hinaus seien Modelle nur Vereinfachungen, die realitätsfern sind und neue bestehende Zusammenhänge nicht erklären können. Ein Modell ist ihm zufolge auch die Herleitung einer Kausalität aus einer Korrelation; ein Vorgang, der vollkommen überflüssig sei und die Tür zu neuen Erkenntnissen verschließe.8
3 Was macht „Big Data“ aus?
Der Begriff „Big Data“ hat weder eine konkrete Definition noch einen konkreten Ursprung. 2011 kritisiert Lev Manovich die in den Alltagsmedien fehlende Definition und den dort deswegen womöglich unreflektierten Umgang mit diesem Begriff. Im Gegensatz dazu stellt er die in der Computerindustrie gängige Definition in den Raum: „Big Data is a term applied to data sets whose size is beyond the ability of commonly used software tools to capture, manage, and process the data within a tolerable elapsed time. Big data sizes are a constantly moving target currently ranging from a few dozen terabytes to many petabytes of data in a single data set.”9
Big Data kann somit nicht mit herkömmlicher Software gesammelt, verwaltet und verarbeitet werden. Von boyd und Crawford wird die Technologie, die diese Anforderungen verwirklichen kann, als „Supercomputer“10 rezipiert – das Statement Manovichs wird gleichzeitig revidiert und aktualisiert, mit der Behauptung, dass diese Operationen nun auch mit Heimcomputern durchgeführt werden können.11 Für boyd und Crawford ist Big Data ein „kulturelles, technologisches und wissenschaftliches Phänomen, das auf dem Zusammenspiel von drei Faktoren beruht.“12
Der erste Faktor ist demnach die Technologie, die es durch Algorithmen ermöglicht, große Datensätze zusammenzutragen und ferner zu verarbeiten und geht insofern mit Manovich konform. Der zweite Faktor sei die Analyse, in der man dank der Datensätze Muster und somit im weiteren Schritt Rückschlüsse auf konkrete Sachverhalte schließen könne. Der dritte Faktor sei die Mythologie, da angenommen wird, dass Big Data die Möglichkeit biete, neuartige Erkenntnisse zu erreichen, die darüber hinaus sogar nahezu unantastbar seien – da selbige gerne als universell gültig und unwiderlegbar rezipiert werden.13
3.1 Was ist „Big Data“ für Anderson?
Wired hat 2008 unter der Leitung Andersons schon einen separaten Artikel – der gleichzeitig mit Das Ende der Theorie publiziert wurde und seine Einleitung darstellt – zum Big-Data-Komplex veröffentlicht, in welchem Big Data das Potential gravierender Änderungen in der Wissenschaft zugesprochen, der Begriff jedoch nicht genauer geklärt wird.14 Auch in seinen Ausführungen in Das Ende der Theorie definiert Anderson den Begriff nicht weiter, verwendet ihn, bis auf in der separaten Einleitung, aber auch nicht. Stattdessen gebraucht er die Begriffe „Petabytes von Daten“15 und „Datenschwemme.“16 Unter Einbezug der Einleitung sind diese für ihn gleichbedeutend mit Big Data und somit kann angenommen werden, dass Anderson die „Datenschwemme“ in seinem Text mit einem klassischen Verständnis von Big Data à la Manovich gleichsetzt, beispielsweise durch Sequenzierautomaten erstellte Datenbanken zum Genom ganzer Ökosysteme.17
Anders als für boyd und Crawford spielt für Anderson auch der wirtschaftliche Faktor eine enorme Rolle.
4 Die Unmittelbarkeit der Memex
Nach dem Erläutern technischer Methoden, die durch Entwicklungen in der nahen Zukunft möglich gemacht werden, stellt Bush folgende Utopie des Zukunftsforschers auf: „One can now picture a future investigator in his laboratory. His hands are free, and he is not anchored. As he moves about and observes, he photographs and comments. Time is automatically recorded to tie the two records together. If he goes into the field, he may be connected by radio to his recorder. As he ponders over his notes in the evening, he again talks his comments into the record. His typed record, as well as his photographs, may both be in miniature, so that he projects them for examination.“18 Demnach wäre der Wissenschaftler der Zukunft während seiner Arbeit beweglich und frei und bildet eine Art Symbiose mit dem Gerät, das diese Art von Arbeit möglich macht: die Memex, ein von Bush konzipierter Analogrechner, in dem Bush die Möglichkeit sah, durch Speicherung des gesamten Wissens der Menschheit auf Mikrofilm eine Unmittelbarkeit des Zugriffes auf Literatur zu verwirklichen. Weitere Vorzüge der Memex sind das Prozessieren von Quellen und Forschungsergebnissen sowie das Verknüpfen interdisziplinärer Bezüge.
4.1 Woraus bestehen Bushs Datenbanken und kann man im Bezug auf die Memex von „Big Data“ sprechen?
Bush nutzt mehrfach den Begriff „data“19, ohne ihn genauer zu beschreiben. Für die gleichen Begebenheiten nutzt er auch das Wort „records“20, von Winkler als Forschung übersetzt. Anhand der von Bush genannten Beispiele kann man erahnen, dass seine „records“ beziehungsweise „data“ auf Mikrofilm gespeicherte Artikel, Bücher und ganze Enzyklopädien sind. Ferner können es verschriftlichte Entscheidungen in der Anwaltsbranche, Werbung, Schriftverkehr, bestehende Patente und abgeschlossene Studien sein.21 Kurzum: alles, was verschriftlicht oder verbildlicht auf Mikrofilm gespeichert werden kann und somit theoretisch alle Werke der Menschheit, seien sie aus kulturellem, wissenschaftlichem oder sozialem Kontext.22 Im Optimalfall wäre dieses somit „alles Wissen der Welt.“23 Die drei Kernpunkte der „records“ oder konkreter der Daten(-sammlung) Bushs sind ihre Möglichkeiten der Speicherung, der Erweiterung und des Konsultierens, wobei letzteres deutlich unmittelbarer als etwa in einer Bibliothek stattfände.24
Bush möchte die Memex einführen, da ihm die konventionelle Arbeitsweise und Ausrüstung hinsichtlich der Zugriffsmöglichkeiten auf Forschungsliteratur und dem interaktiven hypertextuellen Arbeiten, das der Arbeitsweise des Gehirnes entspreche, nicht für ausreichend hält. Ein Grund dafür kann als dezentrale Datenmenge definiert werden. Die Memex hätte zwar auf den ersten Blick der von boyd und Crawford genannte Superrechner, der sogar in der Lage ist, die Daten zu prozessieren, sein können. Manovich jedoch redet eindeutig von einer Technologie, die in der Lage ist, selbstständig Daten zu erfassen, wozu die Memex nicht im Stande ist. Daher sind die „records“ offensichtlich auch keineswegs „Rohdaten.“25 Auch die von boyd und Crawford aufgestellten Charakteristika treffen nicht auf die Memex zu: Sie arbeitet analog statt mit Algorithmen; die „Datensätze“ können zwar zum Zwecke der Erkenntnis genutzt werden, jedoch nicht automatisiert à la Anderson, sondern durch klassische Hermeneutik und Theorieanwendung, sodass die durch die Memex erbrachten Forschungsergebnisse auch keinen (falschen) automatischen Anspruch auf „Wahrheit, [...] Objektivität und [...] Genauigkeit“26 hätten. Jedoch trifft die von Rob Kitchin konstatierte Definition von Big Data partiell auf Bushs „records“ zu: Big Data ist „huge in volume“ und „diverse in variety.“27 Eine Parallele zu boyd und Crawfords Ausführungen ist, dass Bush, Jahrzehnte vor der Prägung des Begriffes, die Möglichkeit des Prozessierens von Datenmassen mithilfe eines Rechners sieht. Daher kann man, wenn man in Betracht zieht, dass es „bei Big Data [...] weniger um große Datensätze als vielmehr um die Fähigkeit, Daten zu analysieren, zu aggregieren und Querverbindungen herzustellen“28 geht, zu dem Fazit gelangen, dass man bei der Datenverarbeitung durch die Memex unter Beachtung der relativierenden Faktoren wie dem 1945 noch mangelhaften Informationsflusses, der Dezentralität der Daten, unzureichenden Speichermöglichkeiten und dem von Bush intentionierten interdisziplinären, rechnergestützten Arbeiten von einer Datenmenge sprechen kann, die durchaus diverse Charakteristika des Neuzeitphänomens Big Data aufweist. Dennoch unterscheiden sie sich deutlich von Big Data, insbesondere bezüglich der Datenerhebung, der damit einhergehenden Arbeitsweise und der Rezeption der Forschungsergebnisse.
4.2 Ändert sich die wissenschaftliche Arbeitsweise durch die Memex?
Arbeitsbeispiele finden sich in Bushs Essay an mehreren Stellen und bei all diesen wird, unabhängig von der wissenschaftlichen Disziplin, deutlich, dass die Frage nach dem „Warum“ immer wichtig bleibt: „Specifically he is studying why the short Turkish bow was apparently superior to the English long bow in the skirmishes of the Crusades.“29 Auch der Naturwissenschaftler wird stets seine Literatur brauchen: „The chemist, struggling with the synthesis of an organic compound, has all the chemical literature before him in his laboratory, with trails following the analogies of compounds, and side trails to their physical and chemical behavior.“30 Daher kann nicht von einer epistemologischen Wandlung oder einem grundlegenden Methoden- oder Paradigmenwechsel gesprochen werden. Ein neuer Aspekt jedoch ist das hypertextuelle Arbeiten, welches dem Denken des Gehirns entspricht und schnell mehr Daten, die zuvor manuell verlinkt wurden, bereitstellen kann. Konkrete Änderungen in der grundlegenden Arbeitsweise hat dieses alles jedoch nicht; es ist schneller und möglicherweise kann mehr – in Bushs utopischer Vorstellung sogar jede existierende – Literatur zu Rate gezogen werden, neue oder genauere Erkenntnismöglichkeiten bleiben jedoch aus. Lediglich die potentielle Katastrophe des Verschwindens von Wissen wäre bei der Konzeption der Memex und der utopisch anmutenden konsequenten Integration der „records“ verhindert worden.
5 Big Data, Algorithmen und Korrelation reichen aus: Andersons Utopie
Schon in der Einleitung im Wired-Magazin werden die bahnbrechenden Möglichkeiten von Big Data angedeutet. Diese führt Anderson in seinem Essay weiter aus und behauptet, dass Big Data das Potential zu gravierenden Änderungen hat und die klassischen Arbeitsweisen nicht nur verdrängt, sondern auch genauere und neuartige Ergebnisse liefert. Die neue Prämisse der Wissenschaft müsse aber sein, die Frage nach dem „Warum“ beziehungsweise nach der Kausalität gänzlich zu eliminieren: „Korrelationen machen Kausalitäten überflüssig, und die Wissenschaft kann auch ohne kohärente Modelle, ohne Große [sic!] vereinheitlichte Theorien Fortschritte machen. Anders ausgedrückt: Sie braucht gar keine mechanistischen Erklärungen mehr.“31 Die von den Algorithmen herausgearbeiteten Ergebnisse, die auf Korrelationen beruhen, sind als Wahrheit zu akzeptieren. Nur so könnten auch bisher ungelöste Probleme gelöst werden. Anderson sieht es als notwendig an, schnellstmöglich die alten, theorielastigen Verfahren abzulegen und nur noch datenbasiert zu arbeiten – sei es in der Physik, Biologie, Soziologie oder Psychologie. Nur so sei es möglich, „die Welt auf eine vollkommen neue Weise zu verstehen“32 – eine Utopie, die unfehlbare Ergebnisse ermöglichen würde, in welcher der Google Translator aufgrund seines Datenvorrates alle Sprachen sprechen könnte und in welcher Firmen nur durch angewandte Mathematik bereits „die Welt der Werbung erobert“33 hätten. 34
[...]
1 Schreiber (2012, S. 211).
2 Bush (1945, S. 2).
3 Bush (1945, S. 2).
4 Vgl. Bush (1945, S. 1–3).
5 Schreiber (2012, S. 218).
6 Winkler (1997).
7 Anderson (2013, S. 124).
8 Vgl. Anderson (2013, S. 124–127).
9 Manovich (2011, S. 1).
10 boyd / Crawford (2013, S. 188).
11 Vgl. Ebd.
12 Ebd.
13 Vgl. boyd / Crawford (2013, S. 188–189).
14 Vgl. wired staff (2008).
15 Anderson (2013, S. 128).
16 Anderson (2013, S. 124).
17 Vgl. Anderson (2013, S. 128).
18 Bush (1945, S. 3).
19 Ebd.
20 Ebd.
21 Vgl. Bush (1945, S. 8–9).
22 Vgl. Bush (1945, S. 3).
23 Schreiber (2012, S. 218).
24 Vgl. Bush (1945, S. 3).
25 Gerne als natürliche Ressource oder als objektiv rezipierte „Raw Data“ kann, wie im späteren Verlauf der Ausführungen erläutert wird, gar nicht existieren und ist Teil des mythischen Faktors. Daher ist Andersons Big Data ebenso wenig „Raw Data“ wie auf Mikrofilm gespeicherte Literatur.
26 boyd / Crawford (2013, S. 189).
27 Kitchen (2014, S. 1).
28 boyd / Crawford (2013, S. 188).
29 Bush (1945, S. 8).
30 Bush (1945, S. 9).
31 Anderson (2013, S. 130).
32 Ebd.
33 Anderson (2013, S. 125).
34 Vgl. Anderson (2013, S. 128–130).