In der vorliegenden Hausarbeit wird sich mit dem algorithmischen Sehen, genauer mit Schönheit im Auge des Algorithmus, befasst. Konkret wird es um EyeEm Vision gehen. Dabei handelt es sich um die automatische Bilderkennungstechnologie des Berliner Startups EyeEm, die mithilfe von Computer Vision ästhetische Werturteile fällt und in den im Zitat erwähnten Feldern farbiger Pixel auch Gesichter, Personen, Räume und Gegenstände erkennt.
Doch nach welchen Regeln und Vorkenntnissen entscheidet der Algorithmus, wie schön ein Bild ist? Woher nimmt er seine Definition von Schönheit?
Diese Fragen werden im Verlauf der Arbeit beantwortet. Ziel ist es, EyeEms ästhetischer Wertungspraxis auf den Grund zu gehen und diese dann kritisch zu hinterfragen.
Den Begriff der Schönheit zu fassen, stellt für die Menschen seit mehreren Jahrhunderten eine Herausforderung dar. Es scheint so, als könne man ihr Wesen nicht verallgemeinern, als sei für jeden etwas anderes schön. Individuelle Meinungen treffen aufeinander und folglich hat man sich darauf geeinigt, dass Schönheit wohl im Auge des Betrachters liegen müsse. Aber was geschieht, wenn der Betrachter gar keine Augen hat, und dennoch sieht? Wenn ein Algorithmus entscheidet, was schön ist und was nicht, wird die Diskussion womöglich noch um einiges komplizierter.
Die Digitalisierung verwandelt Bilder virtuell in Ziffern und damit das Sichtbare zu symbolischen Daten, die beliebigen Rechenoperationen ausgesetzt werden können. Seitdem sind Bilder einem Blick ausgesetzt, der sie nicht mehr nur durch menschliche Sinne, sondern auch im algorithmischen Sinn testet. Sie werden aufgelöst, zerstückelt, wieder zusammengesetzt, analysiert, zergliedert und mathematisch generiert.
Diese Worte finden sich bereits 2003 im Editorial von „Suchbilder“ von Wolfgang Ernst, Stefan Heidenreich und Ute Holl. Im digitalen Zeitalter sind das Sehen und weiterführend auch das Erkennen nicht nur menschliche Fähigkeiten. Auch Computer werden zunehmend mit Programmen ausgestattet, die auf ihre eigene Weise mit Bildmaterial umgehen.
Aber zwischen den endlosen Ziffernkolonnen und den Gestalten, die ein menschlicher Blick erkennt, gähnt eine Lücke. [...] Auf der einen Seite stehen die Rohdaten, die Bilder als Felder farbiger Pixel kodieren; auf der anderen Seite eine Wahrnehmung, die nicht anders kann, als etwas zu sehen: Gesichter, Personen, Räume, Gegenstände.2
Inhaltsverzeichnis
1. Einleitung
2. EyeEm
2.1 Das Unternehmen
2.2 EyeEm Vision
3. Maschinelles Lernen
3.1 Computer Vision
4. Welche Ästhetik liegt zugrunde?
5. Fazit
6. Literaturverzeichnis
7. Abbildungsverzeichnis
Ein Hinweis vorab: Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für beiderlei Geschlecht.
1. Einleitung
Den Begriff der Schönheit zu fassen, stellt für die Menschen seit mehreren Jahrhunderten eine Herausforderung dar. Es scheint so, als könne man ihr Wesen nicht verallgemeinern, als sei für jeden etwas anderes schön. Individuelle Meinungen treffen aufeinander und folglich hat man sich darauf geeinigt, dass Schönheit wohl im Auge des Betrachters liegen müsse. Aber was geschieht, wenn der Betrachter gar keine Augen hat, und dennoch sieht? Wenn ein Algorithmus entscheidet, was schön ist und was nicht, wird die Diskussion womöglich noch um einiges komplizierter.
Die Digitalisierung verwandelt Bilder virtuell in Ziffern und damit das Sichtbare zu symbolischen Daten, die beliebigen Rechenoperationen ausgesetzt werden können. Seitdem sind Bilder einem Blick ausgesetzt, der sie nicht mehr nur durch menschliche Sinne, sondern auch im algorithmischen Sinn testet. Sie werden aufgelöst, zerstückelt, wieder zusammengesetzt, analysiert, zergliedert und mathematisch generiert.1
Diese Worte finden sich bereits 2003 im Editorial von „Suchbilder“ von Wolfgang Ernst, Stefan Heidenreich und Ute Holl. Im digitalen Zeitalter sind das Sehen und weiterführend auch das Erkennen nicht nur menschliche Fähigkeiten. Auch Computer werden zunehmend mit Programmen ausgestattet, die auf ihre eigene Weise mit Bildmaterial umgehen.
Aber zwischen den endlosen Ziffernkolonnen und den Gestalten, die ein menschlicher Blick erkennt, gähnt eine Lücke. [...] Auf der einen Seite stehen die Rohdaten, die Bilder als Felder farbiger Pixel kodieren; auf der anderen Seite eine Wahrnehmung, die nicht anders kann, als etwas zu sehen: Gesichter, Personen, Räume, Gegenstände.2
In der vorliegenden Hausarbeit werde ich mich mit dem algorithmischen Sehen, genauer mit Schönheit im Auge des Algorithmus befassen. Konkret wird es um EyeEm Vision gehen. Dabei handelt es sich um die automatische Bilderkennungstechnologie des Berliner Startups EyeEm, die mithilfe von Computer Vision ästhetische Werturteile fällt und in den im Zitat erwähnten Feldern farbiger Pixel auch Gesichter, Personen, Räume und Gegenstände erkennt.
Doch nach welchen Regeln und Vorkenntnissen entscheidet der Algorithmus, wie schön ein Bild ist? Woher nimmt er seine Definition von Schönheit?
Diese Fragen versuche ich auf den folgenden Seiten zu beantworten. Mein Ziel ist es, EyeEms ästhetischer Wertungspraxis auf den Grund zu gehen und diese dann kritisch zu hinterfragen.
Einerseits werde ich hierfür auf den technischen Hintergrund des Maschinellen Lernens anhand von Computer Vision eingehen, um darzustellen, wie EyeEm Vision trainiert wurde, Werturteile über immer neue Bilddaten zu fällen. Davon ausgehend werde ich EyeEm Vision anhand verschiedener eigener Bildbeispiele austesten, um Rückschlüsse auf die Ästhetiktheorie und die künstlerischen Überzeugungen dieses Trainings zu erlangen. Ich distanziere mich an dieser Stelle von einer philosophischen Definition von Ästhetik wie beispielsweise der Kantischen in „Kritik der Urteilskraft“ (1790), um den Fokus nicht zu sehr auf Fragen der Subjekthaftigkeit von Algorithmen zu legen.
Diese Arbeit ist das Ergebnis einer sowohl praktischen als auch theoretischen Auseinandersetzung mit EyeEm Vision. Meine Quellen stammen aus verschiedenen Disziplinen wie der Kunstgeschichte, Informatik, Philosophie und Medienwissenschaft. Außerdem habe ich ein Interview mit dem EyeEm-Mitarbeiter Michael Jones geführt, der mehrere Jahre für den Content und das Marketing verantwortlich war.
Bevor ich mich konkret mit der Beantwortung meiner Forschungsfrage auseinandersetze, möchte ich im Folgenden erst einmal das Unternehmen EyeEm vorstellen.
2. EyeEm
2.1 Das Unternehmen
EyeEm ist ein Berliner Startup, das 2011 von Gen Sadakane, Ramzi Rizk, Lorenz Aschoff und Florian Meissner gegründet wurde. Letzterer entdeckte das Potenzial der Smartphone Fotografie für sich, als ihm im Urlaub in New York City seine Kamera gestohlen wurde. Aus der aufkommenden Begeisterung entstand die Idee für EyeEm. Dabei handelt es sich um eine globale Fotocommunity mit über achtzehn Millionen Mitgliedern, die sich beispielsweise mit Instagram vergleichen lässt - allerdings mit dem Unterschied, dass EyeEm auch als Marktplatz für Fotografie dient. Es können Fotolizenzen vergeben werden, an deren Gewinn der Nutzer zu 50 Prozent beteiligt wird. Kunden sind beispielsweise die Lufthansa, der Spiegel oder Spotify.
Das Unternehmen stellt eine Konkurrenz für gewöhnliche Stockfoto-Anbieter dar, da es auf hochwertige und authentische Momentaufnahmen setzt, die am besten einen echten Nachrichtenwert haben. Typische Themen der Fotos sind Natur, Menschen, Reisen oder Stimmungen. Die Mission von EyeEm ist es, neue Foto-Talente zu entdecken und zu fördern. Sie möchten einen Gegenentwurf zur Likewährung machen, die stark von Followerzahlen und gut gewählten Hashtags abhängt.3 Denn bei EyeEm entscheidet ein Algorithmus darüber, welche Bilder aufgrund ihrer Qualität zeigenswert sind. Diesen Algorithmus stelle ich nun vor.
2.2 EyeEm Vision
Bei EyeEm Vision handelt es sich um die automatische Bilderkennungstechnologie von EyeEm. Diese ist seit 2015 aktiv, nachdem sie sieben Jahre lang im Rahmen der PhD- Recherche von Appu Shaji, dem Leiter der EyeEm-Entwicklungsabteilung, entwickelt wurde.3 4 Die zwei Hauptfunktionen der Technologie sind das Tagging und das Vergeben des „Aesthetic Score“. Beim Tagging geht es darum, Bildelemente zu erkennen und zu verschlagworten. EyeEm Vision hat hierfür ein Repertoire aus über 20.000 Schlagworten. Allerdings kann der Algorithmus auch abstraktere Konzepte wie Freiheit oder Vorfreude erkennen.5
Abstrakte Konzepte sind auch die Grundlage der zweiten Hauptfunktion von EyeEm Vision, dem „Aesthetic Score“. Jedem Bild wird ein Wert zwischen 0 und 100 zugeordnet, wobei ästhetisch bessere Bilder einen höheren Score bekommen als schlechtere Bilder. Diese Funktion wurde 2017 als „ A system, method, and computer program product for assigning an aesthetic score to an image [1 6 ] patentiert. Um den Score zu vergeben, wird das Bild selbst einerseits durch Bildverarbeitung analysiert, worauf ich in Punkt 3 weiter eingehen werde. Andererseits wird es auf graphischer Basis auch mit anderen Bildern verglichen, denen bereits Scores zugeordnet wurden. Außerdem ist die Nutzerinteraktion ausschlaggebend, die zum Beispiel aus Likes, Kommentaren, der Betrachtung des Bildes, einer Lizenzierung oder Ähnlichem hervorgeht. Je größer die Interaktion ist, desto besser wird das Bild bewertet. Dieser Score geht dann, wie es im Patent formuliert ist, mit der intuitiven Einschätzung ästhetischer Qualität einher.6 7
EyeEm Vision arbeitet einerseits als Auswahlmechanismus im individuellen Discover Feed von EyeEm, andererseits aber auch als Kurator für das gleichnamige Magazin. Der Algorithmus macht Vorschläge, welche Beiträge präsentiert und gefeatured werden sollen. Es soll nicht nur die bloße visuelle Schönheit eines Bildes in Anbetracht gezogen werden, sondern auch die Aussagekraft. Unbekannte, jedoch gute Fotos wurden so bereits von EyeEm Vision aufgespürt und konnten in eine größere Öffentlichkeit geraten.
EyeEm Vision ist eine künstliche Intelligenz, die mit der Zeit immer besser wird, da sie aus Erfahrung lernt. Auf dieses so genannte Maschinelle Lernen möchte ich folgend eingehen, um zu erklären, wie der Algorithmus befähigt wurde, eigene Urteile zu fällen.
3. Maschinelles Lernen
Beim Maschinellen Lernen handelt es sich um ein Teilgebiet der Künstlichen Intelligenz. Es ist eine Schlüsseltechnologie, die immer mehr Einzug in die unterschiedlichsten Unternehmen und somit auch in den menschlichen Alltag findet. Eine grundlegende Definition ist „der [automatisierte] Erwerb neuen Wissens durch ein künstliches System“.8 Das bedeutet, dass Computerprogramme ähnlich wie Menschen Wissen aus Erfahrung generieren und dieses Wissen dann auf neue Probleme anwenden. Dazu erhalten die Algorithmen große Mengen an Daten, in denen sie nach Mustern und Gesetzmäßigkeiten suchen, um diese dann intelligent miteinander zu verknüpfen.9 So können Zusammenhänge in Daten erkannt werden, Rückschlüsse gezogen werden und bestenfalls korrekte Vorhersagen getroffen werden - im Grunde genommen handelt es sich um angewandte Statistik.10 11 12 Beim Maschinellen Lernen unterscheidet man zwischen überwachten und nicht überwachten Lernverfahren. Überwachte Lernverfahren sind meist bereits im Vorfeld auf ein bestimmtes Ziel ausgerichtet, sodass die Daten auf dieses Ziel hin untersucht werden. Dies ist zum Beispiel in der Computer Vision, einem Anwendungsgebiet des Maschinellen Lernens, der Fall, auf welches nun genauer eingegangen wird.
3.1 Computer Vision
Die Computer Vision ist eines der Anwendungsgebiete des Maschinellen Lernens. Es gibt verschiedene Definitionen, von denen ich zwei kurz beleuchten möchte. Der Computer Vision Forscher Jan Erik Solem definierte Computer Vision als „ the automated extraction of information from images “.11 Als Information versteht er sowohl den thematischen Bildinhalt als auch die enthaltenen fotografischen Metadaten. Er spricht die Automatisierung an, die für Maschinelles Lernen essentiell ist. Der Computer Science Professor Erik G. Learned-Miller hingegen beschreibt Computer Vision als „ the science of endowing computers or other machines with vision, or the ability to see. “12 In der Einleitung wurde die Frage gestellt, was passiert, wenn jemand sieht, der keine Augen hat. Learned-Miller regt mit seiner Definition die Beantwortung dieser Frage an. Augen werden nicht als Teil eines jeden Sehapparates vorausgesetzt. Die Pluralität der Definitionen soll hier aber nicht als Problem, sondern als Möglichkeit gesehen werden, sehende Maschinen zu verstehen.
Die Geschichte der Computer Vision und der digitalen Bildverarbeitung geht zurück bis in die späten 1950er Jahre. Allerdings fehlten lange Zeit hilfreiche Methoden, um die Theorie erfolgreich im großen Stil anwenden zu können. Als die Neurobiologie Einzug in die Forschung erhielt, konnte schließlich mithilfe künstlicher neuronaler Netzwerke der menschliche Sehapparat besser nachempfunden werden. Heute ist die Computer Vision eine aktive interdisziplinäre Wissenschaft, die beispielsweise Anwendung in der Gesichtserkennung durch Überwachungskameras, in der medizinischen Diagnostik, in selbstfahrenden Autos oder eben bei EyeEm Vision findet.
Auf technischer Ebene lässt sich Computer Vision ganz banal auf eine detaillierte Pixeluntersuchung herunterbrechen. In der digitalen Bildverarbeitung werden die Farbintensitäten und Helligkeiten der verschiedenen Pixel untersucht und dann anhand von Kontrasten Konturen oder andere Bildmerkmale wie Linien oder Ecken erkannt. Auf die erkannten Bildmerkmale werden dann Filter angewendet, die diese stärker herausstellen. Dabei werden Bildpunkte bestimmter Farbwerte vernachlässigt und andere in ihrer Wertigkeit verdoppelt. Dies erfolgt durch mathematische Operationen, die Faltungsmatrizen (Englisch: Image Kernels) genannt werden.13
„Für die Erkennung von Bildern und Videos eignen sich innovative Deep Learning-Techniken. Diese auf neuronalen Netzwerken basierenden Techniken lassen Erkennungssysteme zu, mit denen sich bestimmte Objekte und Eigenschaften in Videos/Bildern identifizieren und darüber hinaus sogar Gesichtsausdrücke interpretieren lassen.“14
EyeEm Vision nutzt diese Technik, um in Fotos die richtigen Schlagworte zu setzen. Es ist ein künstliches neuronales Netzwerk mit vielen Ebenen, das somit der Funktionsweise des menschlichen Sehapparats ähnelt. Es ist ein „Modell, das dynamisch, auf Trainingsdaten basierte Merkmale „lernen“ kann.“15 Doch wie lernte und lernt EyeEm Vision?
[...]
1 Ernst: Suchbilder, S.11.
2 ebd., S.11.
3 vgl. Bowker, Daniela: Where Machine and Human Preference Collide. In: Photocritic, Unter:http:// www.photocritic.org/articles/eyeem-aesthetic-algorithmjaufgerufen am 27.12.2018]
4 vgl. ebd.
5 vgl. EyeEm Team: Introducing EyeEm Vision. In: EyeEm, Unter: https://www.eyeem.com/blog/ introducing-eyevision. [aufgerufen an 21.12.2018]
6 vgl. EyeEm Mobile GmbH. Systems, Methode, and Computer Program Products for searching and sorting images by Aesthetic Quality. US9659384 B2. 23. Mai 2017.
7 vgl. Ebd., S.16f.
8 Manhart, Dr. Klaus: Was Sie über Maschinelles Lernen wissen müssen. In: Computerwoche, aufgerufen unter: https://www.computerwoche.de/a/was-sie-ueber-maschinelles-lernen-wissen-muessen,3329560. [aufgerufen am 27.12.2018].
9 vgl. Manhart, Dr. Klaus: Was Sie über Maschinelles Lernen wissen müssen. In: Computerwoche, aufgerufen unter: https://www.computerwoche.de/a/was-sie-ueber-maschinelles-lernen-wissen-muessen, 3329560. [aufgerufen am 27.12.2018].
10 vgl. Kögl, Franz: So lernen Maschinen beim Machine Learning. In: Digitale Welt Magazin, aufgerufen unter: https://digitaleweltmagazin.de/2018/07/12/so-lernen-maschinen-beim-machine-learning/. [aufgerufen am 03.12.2018].
11 Solem: Programming Computer Vision with Python, S. 9.
12 Learned-Miller: Introduction to Computer Vision, S. 2.
13 vgl. Powell: Image Kernels. In: Setosa, aufgerufen unter:http://setosa.io/ev/image-kernels/. [aufgerufen am 28.12.2018].
14 Pin: Machine Learning ist auf dem Vormarsch. In: Digitale Welt Magazin, aufgerufen unter: https:// digitaleweltmagazin.de/2018/05/16/machine-learning-ist-auf-dem-vormarsch/. [aufgerufen am 11.12.2018].
15 Kaßel: Stabile Gesichtserkennung mittels Deep Learning, S.5.