Lade Inhalt...

Amazon Alexa. Sprachliche Assistenz und die Etablierung des Voice-User-Interfaces

Hausarbeit 2019 21 Seiten

Medien / Kommunikation - Multimedia, Internet, neue Technologien

Leseprobe

Inhaltsverzeichnis

Einleitung

Stimme

Alexa

Ausblick

Literatur

Einleitung

Im Jahre 1920 präsentierte der junge Ingenieur Lew Sergejewitsch Termen ein Gerät, welches in Europa unter dem Namen Ätherophon bekannt werden sollte.

„Die beschwörenden Gesten, die der Spieler vollführen musste, um diesem Gerät Töne zu entlocken - die er quasi ,aus dem Äther‘ holte - sind, aller Wahrscheinlichkeit nach, die Ursache für diese Bezeichnung." (Ruschkowski, 1998, S. 25)

In der Presse fand sich das Ätherophon auch unter der Bezeichnung Termenvox wieder(ebd.). Diese ironische Anspielung auf das Phono-Label „His Masters Voice“(ebd.) in der frühen Entwicklungsphase des Instrumentes, welches als Theremin in die Geschichte eingehen sollte, ist als Hinweis, auf die enge Verbindung zwischen Klang und Stimme zu verstehen.

Das Feld der Sound Studies hat in den letzten Jahren erheblich an Bedeutung gewonnen. So fordern aktuelle Phänomene, wie beispielsweise sprachliche Assistentinnen, zu einer Auseinandersetzung mit Klang und Stimme auf. Solche befinden sich darüber hinaus in einem Spannungsverhältnis zum Automatisierungsdiskurs. Betrachten wir die Stimme als „Orchester aus Blasinstrumenten“ (Sonnenschein, 2011, S. 131), wird schnell klar, dass es sich bei ihr um ein Schwellenphänomen handelt. Demnach ist die Stimme „sinnlich und sinnhaft, soma und semantik, diskursiv und ikonisch, aber auch aisthesis und l ogos. (Vgl. Kolesch, 2006, S.12). Wohingegen unter Klang qua Definition ein Zusammenhang zwischen Metapher und Materialität verstanden werden darf (Vgl. Novak, S. 1).

Laut Dolar steht die Stimme nicht „für einen hypothetischen oder mythischen Ursprung, den die Analyse in distinktive Merkmale zerlegen müsste und auch nicht für eine diffuse Substanz, die es auf Struktur zu reduzieren, ein Rohmaterial, das es zu bändigen gälte, sondern sie steht im Gegenteil am Ende der strukturellen Operation.“ (Vgl. Dolar, 2007, S.49).

Lacan schriebt in diesem Zusammenhang daher auch, dass es die „Ursache ist, an der es hapert (il n’y a de cause que de ce qui cloche)“ (Vgl. Dolar, 2007, S.18).

Abbildung in dieser Leseprobe nicht enthalten

Figur 1: Graph des Begehrens, Lacan (Vgl. Dolar, 2007, S.18 ff.)

Lacans Graph des Begehrens deutet Bereits die „erotische Beziehung zwischen der Stimme und demjenigen, der sie hört“ (Vgl. Barthes, 2002, S.204) an.

„Doch mit welcher Stimme haben wir es zu tun? Mit der, welche die Phonologie abgetötet hat? Wenn sie aber wirklich ermordet wurde, warum kehrt sie zurück? Weiß sie nicht, dass sie tot ist?“ (Vgl. Dolar, 2007, S. 49).

Dolars anschließender Appell, die Stimme sei trotz aller strukturalistischer Reduktionsversuche „übrig geblieben“ und zwar „als Objekt im Lacanschen Sinne“ mag angesichts der von Bruno Latour thematisierten Irreduktionen als wenig schlüssig erscheinen (Vgl. Louis Morelle in Graham, 2012, S. 255). So ließe sich die Stimme nach der objekt-orientierten Ontologie auch als Aktant bezeichnen (Vgl. Louis Morelle in Graham, 2012, S. 252), gleichwohl ihre physischen Qualitäten uns vermeintlich verborgen bleiben.

Der Begriff „spekulativer Realismus“ wurde das erste Mal auf einer Konferenz im Jahr 2007 um die Philosophen Ray Brassier, Graham Harman, Iain Hamilton Grant und Quentin Meillassoux verwendet, mit dem Wunsch eine Autonomie der Realität jenseits des Anthropozentrismus herzustellen (Vgl. Gere, 2015, S.279). Ebenso sei an dieser Stelle auf eine Sorge Heideggers verwiesen, die postuliert, dass der moderne Mensch nicht bereit sei, seine Endlichkeit zu akzeptieren (Vgl. O'Gorman & Méchoulan, 2003, S.163). Stimme verweist also, auf Grund ihrer Flüchtigkeit, immer auf eine Kategorie des „anthropologisch Imaginären“ (Barthes, 2002, S. 44). Ob sich dadurch Medien auch in einer nicht­anthropologischen Perspektive betrachten lassen (Vgl. Denson, 2014, S. 286), bleibt allerdings offen.

Mit der sprachlichen Assistenz, welche sich in die Kategorie der intelligenten personalen Assistenten (IPA) einordnen lässt, hat nun eine Technologie an Relevanz gewonnen, die eine Dynamik zwischen Klang, Stimme und Gespräch in sich vereint. Als besonders populär gelten dabei die Anwendungen der großen Anbieter Google, Apple und Amazon.

Amazons Alexa wurde in einer repräsentativen Umfrage des Hamburger Marktforschungsinstitut Splendid Research von 81 Prozent der Befragten in Deutschland als angenehmste Stimme wahrgenommen (Vgl. „Voice Search: Digitale Sprachassistenten immer Beliebter“) und zählt sowohl in der Bundesrepublik, als auch in den Vereinigten Staaten, zu den meistgenutzten IPAs (Vgl. Lenz-Kesekamp, 2012, S.19). Doch die Frage nach der Stimme Alexas verquickt sich unweigerlich mit der Schnittstelle zwischen Mensch und Maschine. Werden Medien in Zukunft laut gesprochen oder ist ein Voice- User-Interface nur ein Übergang zu nie da gewesenen Medienlandschaften?

Die folgende Hausarbeit versucht sich daher dem Phänomen Amazon Alexa multiperspektivisch zu nähern und richtet den Fokus dabei vor allem auf das Voice User Interface.

Stimme

Jacques Lacan machte bereits in den 50er Jahren einen Zusammenhang zwischen Psychoanalyse und Kybernetik aus (Vgl. Mills, 2010, S. 35). Dabei hielt er fest, dass menschliche Sprache als Schaltkreis gedacht werden möchte, welcher unsere sozialen Beziehungen formt (Ebd. S.35). Die Stimme wird somit als Medium des sozialen Austausches charakterisiert. Das Konzept des dialogischen Selbst thematisiert den Zusammenhang zwischen Dialog und für-sich-sein (Vgl. Hermans, 2011, S. 654 f.). Das selbst kann dabei als Gesamtheit des Kapitals einer Person gedeutet werden und geht daher über die reine physischen und psychischen Komponenten hinaus (Vgl. ebd. S.655 f.) So umfasst es beispielsweise auch „Familie, Herkunft, Haus, Reputation, Arbeit und Yacht“ (ebd. S.656), weshalb in diesem Zusammenhang auch von einem „erweitertem Selbst“ (ebd. S.656) die Rede ist. Dieses Selbst ist von äußeren Einflüssen geprägt, ähnlich wie das „Habitat im Tierreich einen selektiven Druck auf die Lauterzeugung ausübt“ (Julia Fischer in Kolesch, 2006, S. 178)."

Kommunizieren wir mit Amazon Alexa, führen wir einen zweifelhaften Dialog. Wir haben zwar ein gegenüber, welches wir adressieren, aber zugleich körperlos und nicht­menschlich ist. Derrida schreibt daher auch, im Rückbezug auf Plato, dass die Stimme ein Dualismus aus „Heilmittel und Verderben“ sei (Vgl. Dolar, 2007, S. 64). So mag es „heller werden, wenn jemand spricht, doch dieses Gefühl der Geborgenheit kann auch ins Gegenteil transformiert werden: In die Unheimlichkeit einer körperlosen Stimme“ (Macho in Kolesch, 2006, S. 131). Lässt sich eine Stimme auf keine konkrete Person beziehen, wirkt sie „mächtiger und bedrohlicher, als jedes Geräusch“ (ebd. , S.131). Die Stimme aus dem Nichts kommt einer Art Urangst gleich. Denn vormals wurden Götter und Dämonen häufig durch körperlose Stimmen charakterisiert (ebd. , S.131). Aber auch psychotische Krankheiten können in ihren Symptomen das Hören von Stimmen aufweisen, die keinem Individuum zuzuordnen sind (Vgl. Reynolds & Scragg, 2010, S. 123)

Die Erfindung einer Sprechmaschine im 18. Jahrhundert durch den Österreicher Wolfang von Kempelen löste daher in erster Linie Verwunderung aus. Sie wurde als „unheimlich wahrgenommen und war darüber hinaus auch noch stark limitiert“(Dolar, 2007, S.12). Sprachliche Assistenz und Automatisierung gehen Hand in Hand. So war Kempelen nicht durch diesen Fehlversuch bekannt geworden, sondern hatte viel mehr durch die Erfindung eines Schachautomaten für Aufsehen gesorgt. Seinen Zeitgenossen waren diese Art von Apparaturen jedoch nicht geheuer, weshalb auch der Denker Walter Benjamin festhielt: „In dieser Maschine muss ein Geist sein“ (ebd. , S.11). Einer körperlosen Stimme schwingt also auch etwas mythisches mit. Nicht selten bezieht man sich dabei auf die Geschichte der Nymphe Echo, nach welcher auch der Smart Speaker von Amazon benannt ist. Aber auch „Wiedergänger und Phantome“ betreten in diesem Zusammenhang die Bühne, da auch ihr „körperlicher Status fragwürdig ist, oft als unklar, wenn nicht unheimlich, gilt“ (Kolesch, 2006, S. 32). "

Der Körper ist dabei für die Stimme auch insofern entscheidend, da er die physiologische Voraussetzung für die Klangerzeugung schafft (Vgl. Julia Fischer in Kolesch, 2006, S. 173). Die Lieblichkeit darf dabei als „modulierbares, wie plastizierbares Element verstanden werden, das an der Gestaltung der Stimme gleichzeitig mitarbeitet und bricht“ (Kolesch, 2006, S.219). Die aus der Psychologie stammenden Begriffe des Embodiement und Embedment sind in diesem Fall interessant, da sie eine Präsenz im sozialen Hier und Jetzt bedeuten (Vgl. Ferraris, 2014, S. 136). An diesen beiden Aspekten scheint es Apparaturen zu mangeln. Sie sind zwar nicht leer, missen aber einen „kulturellen Corpus“ und den „natürlichen Körper“ (Vgl. Ferraris, 2014, S. 151)."

In Roland Barthes Die Körnung der Stimme wird beschrieben, dass sich die Kommunikation, welche wir mit dieser vollziehen, also der Akt des Redens, sich von dem des Schreibens abgrenzt. Demnach gibt es im Schreibprozess einen Verluste der Schärfe, des Phatischen, sowie der Interpellationsfunktion, welche den Zweck verfolgt die Aufmerksamkeit des Gegenübers zu erlangen (Vgl. Barthes, 2002, S.12f.).

„Diese Worte, diese Ausdrücke haben trotz ihrer Einfachheit doch etwas diskret Dramatisches: es sind Rufe, Modulationen - sollte ich, an Vögel denkend, sagen: Gesänge?“ Durch die ein Körper einen anderen sucht. Dieser Gesang - der linkisch, platt und lächerlich wirkt, wenn er geschrieben wird - erlischt in unserer Schrift“ (ebd. S.13)

Es kann also davon ausgegangen werden, dass wir einen Teil dieser verloren gegangenen Theatralität in der Kommunikation mit einer sprachlichen Assistenz wiedererlangen. Doch gleichzeitig, muss die Einschränkung konstatiert werden, dass es sich um eine körperlose Stimme handelt, der nur in rudimentärem Maße ein menschliches Individuum zu Grunde liegt. So wird bei IPAs, wie Alexa oder Siri, die Stimme nach wie vor von einem Menschen eingesprochen, jedoch im Syntheseverfahren, durch Rekombination, um Worte ergänzt, die der Sprecher nicht gesagt hat (Vgl. Anderson, 2013). Auch ist die Trennung zwischen Schrift und Sprache nicht all zu streng zu sehen, da wir es in abendländischer Tradition gewohnt sind, „Schrift mit mündlicher, aufgeschriebener Sprache zu assoziieren“ (Deppermann, 2010, S. 18).

Die Stimme wird in diesem Moment also „vermeintlich entmenschlicht, behält aber nach wie vor ihre Phänomenalität“ (Vgl. Benthien, 2011, S.224).

Sie besitzt nicht mehr den „performativen Charakter ,indem sie das Hier und Jetzt und die Spannung physischer Ko-Präsenz von Sprecher/in und Hörer/in erfahrbar macht - jene spezifische Sonosphäre, die durch Sprechen und Hören zwischen Menschen entsteht -, nichtsdestoweniger verweist sie auf ebendiese Ereignishaftigkeit als ihre leitende ästhetische Eigenschaft“. Aber auch andere ästhetische Parameter können in Betracht gezogen werden. So gibt es beispielsweise für den Operngesang klare Kriterien nach der eine Stimme beurteil werden kann, wie beispielsweise Vibrato, Umfang, Dynamik, Fülle oder Intensität, welche alle mit spezifischen Teilfrequenzen und Singformanten der Stimme in Verbindung stehen(Vgl. Kolesch, 2006, S.68f.).

Diese können trainiert werden durch eine häufige und gezielte Verwendung der Stimme (Vgl. Eidsheim, 2011, S. 136). Eine Festlegung bleibt jedoch problematisch in respektive auf Erfindungen, wie den Vocoder, welcher der Stimme robotische Klänge hinzufügte und durch seine „posthumanen Ästhetik“ begeisterte (Vgl. Mills, 2012, S.110).

Eine materialistische Auffassung von Stimme begreift diese als Zusammenspiel zwischen Körper, Kultur und sozialer Geschichte (Vgl. ebd. , S. 148). Die Hinwendung zu dieser Perspektive, lässt sich in erster Linie dadurch betonen, dass die „menschliche Orientierung zur Welt eine körperliche Orientierung ist“ (Vgl. Schürmann, 2008, S. 116.). Aber auch, dass die Hinwendung zur Welt auf den Menschen zentriert ist (Vgl. Denson, 2014, S. 14)."

"Die Erfahrung von Sound wird dabei zu einer Triangulation von Ereignissen, bei denen physische Impulse, unser körperlich, kulturell codierte Kapazität, diese zu empfangen, und die Verarbeitung dieser Impulse eine Rolle spielen“ (ebd. , S.149).Ebenso bezeichnet die Materialität der Stimme „immer eine Singularität. (Denn) jede Stimme ist einzigartig und bezieht sich mittels ihrer Affektion (auf ein Gegenüber)“ (Kolesch, 2006, S.212). Sie ist Teil unseres Ausdrucksrepertoires, ebenso wie Mimik und Gebärden (Vgl. Deppermann, 2010, S. 15). Es wird eine Verbindung zwischen der Leiblichkeit des Sprechenden und Angesprochenen hergestellt. Eine körperliche Verbindung ohne Körperlichkeit (Vgl. Kolesch, 2006, S. 213). Auf einer technologischen Ebene darf die Materialität, die von einer solchen Stimme ausgeht, auch als Verbindung aufgegriffen werden, die einen Computer erfahrbar macht (Vgl. Andersen und Pold, 2018, S.14). Es werden im erweiterten Sinne Portale geöffnet, welche uns sonst nicht zugänglich wären. Eine Schnittstelle zwischen Mensch, Technik und Kultur (Vgl. Ebd. , 2018, S.16). Die Vorstellung einer „doppelten Materialität des anthropotechnischen Interfaces, bedeutet daher mit, durch und über gegebene Konzepte hinaus zu denken“ (Denson, 2014, S. 15). Körper und Technologie repräsentieren gleichermaßen einen solchen Diskurs (Vgl. Denson, 2014, S. 152), in welchem, aus einer Bergsonschen Sicht auf Körperlichkeit, das Anthropozän erneut herausgefordert wird(Vgl. Ebd. S.154).

Die körperliche Anwesenheit von Stimme wird auch „von Jean-Luc Godard und Philippe Sollers in Bezug auf Godards Film Je, vous salue Marie P. Sollers: »Doch die Stimme kommt nicht aus dem Körper heraus, sondern der ganze Körper ist innerhalb der Stimme. Das wird man nie beweisen können. Niemand wird es zeigen.« J. L. Godard: »Man kann die Zuschauer das fühlen lassen. Ich glaube, dass das Kino immer noch dafür steht, aber aus eben demselben Grund, wird es verschwinden.“ (Szydlowski, 2013, S. 202)."

Die Erregung wird somit zum Teil der Wirkungsästhetik, die der Körper-Klang-Koppelung innewohnt (Vgl. Brüstle, 2015, S.48).

Alexa

Die Etablierung zu einer sprachlichen Assistenz darf als Gegenpol zu Apparaturen visueller, oder tangibler Wahrnehmung verstanden werden.

Die auditive Wahrnehmung genießt im populären Diskurs einen zweifelhaften Ruf. So wird ihr oftmals unterstellt, sie sei „in unserem universellen Wahrnehmungsapparat weniger eingebunden, als das Sehen“ (Vgl. Maszerowska et. al. ,S.135), gleichwohl bekannt ist, dass Klänge „um ein vielfaches schneller und präsenter sind“ (Vgl. ebd.), als jene Reize, welche wir optisch verarbeiten. Denn unsere Ohren lassen sich zumindest nicht einfach verschließen (Vgl. Thomas Macho in Kolesch, 2006, S.130). Die Tradition des Okuluzentrismus reicht dabei bis in das antike Griechenland zurück (Vgl. Kolesch, 2006, S. 1 f.). Dabei stehen Stimme und unsere visuelle Wahrnehmung nicht zwangsläufig in Opposition zueinander. So publizierte Van Nostrand bereits im Jahre 1947 ein Buch mit dem Titel Visible Speech, welches sich mit der „Spektographie des Klanges“ beschäftigte (Vgl. Mills, 2010, S.40). Doch ebenso, wie Klang in unserem Sinnesapparat ein Schattendasein führt, wurde die Stimme medientheoretisch lange vernachlässigt. Die Permanente Rüstung unseres Körpers wurde vorangetrieben vergaß aber eines unser wichtigsten Instrumente: Die Stimme (Vgl. Kolesch, 2006, S. 81).

Amazons sprachliche Assistenz Alexa wurde im Jahre 2014 einer breiteren Öffentlichkeit vorgestellt und ist in ihrer Namensgebung an die Bibliothek von Alexandria angelehnt (Vgl. Grünhag, 2018, S.7)."

Ihre vermeintlich entmenschlicht Stimme, behält aber nach wie vor ihre Phänomenalität“ (Vgl. Benthien, 2011, S.224). Als solche besitzt Alexa zwar nicht mehr den „performativen Charakter, indem sie das Hier und Jetzt und die Spannung physischer Ko-Präsenz von Sprecherin und Hörerin erfahrbar macht - jene spezifische Sonosphäre, die durch Sprechen und Hören zwischen Menschen entsteht -, nichtsdestoweniger verweist sie auf ebendiese Ereignishaftigkeit als ihre leitende ästhetische Eigenschaft“.Aber auch andere ästhetische Parameter können in Betracht gezogen werden. So gibt es beispielsweise für den Operngesang klare Kriterien, nach denen eine Stimme beurteil werden kann. Zu diesen zählen Vibrato, Umfang, Dynamik, Fülle oder Intensität, welche alle mit spezifischen Teilfrequenzen und Singformanten der Stimme in Verbindung stehen. (Vgl. Kolesch, 2006, S.68f.)

Vielmals ist in diesem Zusammenhang die Rede von Instrumenten als Extensionen unseres Körpers (Vgl. Flusser). Exemplarisch für eine solche Entwicklung sind historische Werkzeuge zu nennen, wie der Pfeil, welcher als Simulation unseres Auges gedeutet wird (Vgl. Ebd.). Doch da Alexa vielmehr als interaktives Gegenüber agiert, stellt sich die Frage, ob eine solche Perspektive sinnvoll erscheint, oder nicht doch sogar von einer abgewandelten Ko-Präsenz die Rede sein kann, respektiv einer Kategorie des anthropologischen Imaginären (Vgl. Barthes, 2002, S.43). In jedem Fall aber erlangen wir durch Alexa Zugriff auf etwas, was uns sonst verborgen bleiben würde. Dies können

Informationen, Anwendungen, bei Alexa heißen sie „Skills“, oder die Interkonnektivität zu anderen Objekten im Internet of Things sein (Vgl. Shaked & Winter, 2016, S. 25).

Zu den unzähligen Anwendungen zählen unter anderem die Kontrolle eines Smart Home, die Aufgabe von Bestellungen oder das Abspielen von Musik. Dabei schwingt immer der Mythos der Technologie mit (Vgl. Andersen und Pold, 2018, S. 13), welche dem Konsumenten dabei hilft, eine futuristische Welt zu erschließen, die ihm vormals eher aus der Science Fiction bekannt war. Ein gutes Beispiel hierfür ist die sprachliche Assistenz K.I.T.T. aus der Serie „Knight Rider“, welche mit dem Fahrer in einem permanenten Dialog während der Fahrt steht. Eine solcher Zukunftsanspruch unterläuft aber auch stets der Gefahr, anmaßend zu wirken. So lies Allende im Chile der 1970er Jahre den sogenannten OPS Raum errichten (Vgl. Medina, 2015, S. 115), der im Stile einer Kommandobrücke konzipiert wurde und mit seiner reduzierten Gestaltung zu imponieren versuchte.

Aus einer technischen Sichtweise muss an dieser Stelle auf die text-to-speech Software verwiesen werden, die, in Kombination mit ausreichender Speicherkapazität und Rechenleistung des Rechners, Alexa erst möglich gemacht hat (Vgl. Lilljegren und Larsson, 2013, S. 11).

Dem vermeintlichen Luxuscharakter eines IPA sei entgegengehalten, dass auch Mitbürger*innen mit einer eingeschränkten Wahrnehmung profitieren (Vgl. Kuhl, 2011, S. 529). So findet Amazon Echo beispielsweise auch bei der Unterstützung von älteren Mitbürgern Anwendung (Vgl. Austerjost et. al. , 2018, S. 477) und auch die Nachfrage nach virtueller Assistenz in professionellen Kontexten wächst (Ebd. S. 476). So werden eigens kreierte Skills bereits in Laboren angewendet, um dort Abläufe zu optimieren. Auch eine Integration von Nutzergruppen mit Krankheitsbildern, so geschehen im Fall der Dysarthrie, bei der Patienten in ihrer sprachlichen Funktion stark eingeschränkt sind, lässt sich beobachten (Vgl. Kim et. al. 2013, S. 189). Dies ist auch mitunter durch Einsatz alternativer Technologien möglich, welche das Voice User Interface ergänzen. So gibt es auch Bemühungen „Head Tracking und Eye Tracking“ (Vgl. ebd. S.198) entsprechend in sprachliche Assistent*innen zu integrieren. Im erweiterten Sinne findet somit eine Befreiung des Körpers innerhalb seiner raumzeitlichen Einschränkungen statt (Vgl. Hansen, 2006, S.14). Diese Aussage steht in der Tradition eines breit gefächerten Diskurses um moderne Medien, welcher in diesem Zusammenhang vielmals von Entkörperlichung spricht (Vgl. Shapiro, 2018, S.35).

„Narziss gibt seinen Körper auf, zu Gunsten seines Spiegelbildes - das „selbst“ wird zu einem anderen (Körper). Seine Bewegungen sind nur ein illusorisches Echo“ (Hansen, 2006, S.59).

Das Interface ist als „eine Art Beziehung zu verstehen und gleichzeitig eine Differenzierung und Unterscheidung“ (Hadler, 2018, S. 3). Der Nutzer „validiert das Interface und bildet somit ein Ensemble, innerhalb welches permanent die Schnittstellen zwischen Mensch und Maschine neu verhandelt werden“ (ebd. S.3). Im Zeitalter des Barocks konnte man den Kronleuchter noch als Interface verstehen, mit dem der Kosmos aus der beengten privaten und persönlichen Sphäre vorstellbar wurde (Zielinski, 2018, S. 49f.). Heutzutage verwendet man den Begriff in der Regel im Kontext neuer Medien und den entstandenen Schnittstellen zwischen Mensch und Maschine. Seinen Ursprung hat er aus der Chemie und beschreibt die „Phasengrenze zweier Zustände eines Mediums“ (Szydlowski, 2013, S. 200).

Alexa als sprachliche Assistenz eines Apparates, wie beispielsweise Amazon Echo oder dem Smartphone, mit der man eine Konversation führt, kann durchaus als Neudeutung des Konzeptes des dialogischen Selbst verstanden werden. Vor allem da die Konversation stark an eigene Wünsche und Erwartungen gekoppelt ist. Die Stimme wird zum ästhetischen Mittler einer Technologie (Distelmeyer, 2018, S. 29), die uns hilft, Bedürfnisse zu befriedigen und daher ein Begehren auslöst, welches jenseits des zwischenmenschlichen stattfindet. Es findet eine Rückkopplung des Nutzers zu seiner Selbst statt. Dementsprechend kann Technik „schwer von den primären Operationen unseres Körpers ausgeschlossen werden“ (Hansen, 2006, S.43). Philosophisch wird hier wieder eine Brücke geschlagen zur "Objekt-orientierten Ontologie (und damit auch dem Spekulativen Realismus), welche den Positionen des Postnaturalismus sehr nahe steht und diesen Dualismus am ehesten mit sich vereinbaren lässt“ (Denson, 2014, S.285).

Grundsätzlich lassen sich Interfaces in verschiedene Untergruppen Kategorisieren.Bei Alexa haben wir es mit einem Voice-User-Interface (VUI) zu tun, welches die generierte Stimme an den Nutzer vermittelt."

Dazu sei an dieser Stelle an Thars Definition eines VUI verwiesen, welche wiederum aus Michael H. Cohens Buch Voice User Interface Design stammt:

„A voice user interface (or VUI) is what person interacts with when communicating with a spoken language application. The elements of a VUI include prompts, grammars, and dialog logic (also referred to as call flow). The prompts, or system messages are all the recordings or synthesized speck played to the user during the dialog. Grammars define the possible things callers can say in response to each prompt. The system understand only those words, sentences or phrases that are included in the grammar . The dialog logic defines the actions taken by the system - for example responding to what the caller has just said or reading out information retrieved from a database“ (Thar, 2015, S.58)

Der Vorteil eines solchen Interface, in Abgrenzung zum Graphic User Interface (GUI), besteht zunächst in der Einsparung von Fläche, da kein Eingabebereich mehr vorhanden sein muss (Vgl. Shaked & Winter, 2016, S. 20). Ebenso ist die Geschwindigkeit, mit der sich Anwendungen bedienen lassen, deutlich erhöht. Dies liegt unter anderem daran, dass bei der Verwendung natürlicher Sprache auf die Navigation in untergeordneten Menüs verzichtet werden kann (Ebd. S.20 f.).

Hinsichtlich einer nach wie vor bestehenden Dominanz des GUI, stellt sich die Frage, wie lange Voice-User-Interfaces brauchen werden, um in ihrer Benutzerfreundlichkeit auf den selben Stand zu gelangen (Vgl. Masterson, 2013, S. 20). Die häufige Verquickung zwischen GUI und VUI weist zumindest darauf hin, dass der Stimme eine nicht unerhebliche Rolle zufällt, um Nutzern eine noch vielseitigere Handhabbarkeit von Technologie zu ermöglichen (Vgl. Masterson, 2013, S.22). Dies lässt sich auch als „neue Form fluider Multidimensionalität“ (Vgl. Hansen, 2006, S.2) bezeichnen.

Das Wechselspiel aus Interaktion zwischen Interface und Nutzer, bei dem, auf Grundlage physischer Gegebenheiten, kognitive Handlung nachvollzogen werden und letztendlich mit eigenen Erwartungen abgeglichen werden (Vgl. Scheffig, 2018, S.77), erschafft „einen neuen Menschen“ (Ebd. S.77). Dieser vermag, dank Alexa, seine Stimme anders zu verwenden, als dies zuvor der Fall gewesen ist. "

Das Interface Design ist aktuell stark am Nutzer ausgerichtet (Vgl. Shaked & Winter, 2016, S.5). Dieses Prinzip greift Amazon bei der Optimierung von Alexa auf und wertet mit dieser Begründung alle Konversationen aus, um kontinuierliche Qualitätssteigerung zu erzielen. Auch die Schnittstellen zwischen Maschine und Maschine werden in diesem Zusammenhang interessant(Vgl. Szydtowski, 2018, S.136).

Der dominante Imperativ beim Design eines Interface lautet nach wie vor möglichst unsichtbar zu bleiben (Vgl. Szydtowski, 2018, S. 140). Dieser Prämisse folgt ein sprachlicher Assistent zwar in der Gestaltung, dennoch gilt es zu kritisieren, dass Alexa nach wie vor bei der Verwendung für Aufmerksamkeit sorgt und im öffentlichen Raum sogar als störend empfunden wird. Jonathan Crary schreibt in diesem Zusammenhang: „Für Rilke war im frühen zwanzigsten Jahrhundert authentische Aufmerksamkeit das kostbare und seltene Überbleibsel eines verlorenen Ideals (Vgl. Crary, 1999, S.47)."

Das „mysteriöse Innenleben der Sprecherin“ (Vgl. (Szydlowski, 2013, S. 199) bei Seite, ist ist Alexa nicht nur im Hinblick auf das empirische Phänomen der Stimme interessant, sondern auch im Bezug auf das Marketing. "

Das Beispiel des amerikanischen Unternehmens Thryv zeigt, dass Amazon mit Alexa auf eine Vielzahl kleinerer und größerer Kooperationen setzt, welche sich in die Anwendung integrieren lassen. Dass dies jedoch nicht immer auf Gegenliebe stößt, lässt sich auch durch die verminderte Markenvisibilität erklären (Vgl. Lenz-Kesekamp, 2012, S.23). So agiert Alexa als „neuer Intermediär in der Beziehung zwischen Unternehmen und ihren Kunden, womit sich eine völlig neue Konstellation im Vergleich zu bisheriger Kundeninteraktion ergibt (Lenz-Kesekamp, 2012, S. 23). Alexa kommuniziert dabei mit anderen Smart Devices einer Cloud und den Applikationen von Drittanbietern (Vgl. Chung, 2017, S.4). Es bildet sich somit ein heterognes Austauschgeflecht. Für Anbieter von Skills hat dies zur Folge, dass sie Marketingmaßnahmen ergreifen müssen, um ihre Anwendungen bekannt zu machen. Lenz-Kesekamp weißt in diesem Zusammenhang auf die Analogie zu unternehmenseigenen Smartphone-Apps hin, bei denen die „eigenständige Kundenentscheidung zum Download der Anwendung“ (ebd. S. 23) zu den entscheidenden Schwierigkeiten zählt. Auch ist die „ungenügende Performance- Information“ (ebd. S.24) als kritisch zu betrachten. Dies liegt daran, dass Amazon die Einsicht zu detaillierten Informationen, wie beispielsweise über Fehlerdaten verweigert und sich somit die Optimierung der Skills häufig erschwert(Vgl. Ebd. S.24).

Im Hinblick auf die User-Experience, setzt sich diese Problematik weiter fort. Denn nicht nur Amazon Alexa als Endgerät, sondern auch die Skills der Drittanbieter, mit ihrer spezifischen Benutzeroberfläche, tragen zum Erleben des Kunden bei (Vgl. Buck, 2014, S. 192).

Darüberhinaus spielt sogar die Frage nach dem Geschlecht bei der Nutzung sprachlicher Assistenz eine Rolle. „So werden weibliche Stimmen eher als sozial kompetent, freundlich und hilfsbereit empfunden" (Thar, 2015, S.87), wohingegen männliche Stimmen der Ruf anhaftet „vertrauenswürdig und kompetenter im Bezug auf technische Sachfragen zu gelten“ (ebd. S.88). Dies könnte durch das stereotype Rollenbild des „Fräuleins von der Auskunft oder allgemein durch das Bild der weiblichen Rezeptionistin geprägt sein“ (ebd. S.88). Die Beliebtheit weiblicher Stimmen im Bereich der sprachlichen Assistenz steht dabei im Kontrast zur langen Missachtung dieser im westlichen Kontext der Stimmanalyse (Vgl. Bloom, 2011, S. 3). So wurden in der frühen Moderne junge Frauen oftmals davon abgehalten, sich stimmlich zu äußern (Vgl. ebd. S.9).

Neben dem Geschlecht, gaben jedoch in einer repräsentativen Umfrage der Hochschule Södertörn „70 von 100 Befragten an, dass eine sprachliche Assistenz in erster Linie ein Gefühl von Sicherheit und Ruhe vermitteln sollte. Auch eine klare, angenehme, menschenähnliche, erfahrene Stimme, mit einem Dialekt, welcher von den Nutzern nachvollzogen werden kann, wurde als wichtig für die Qualität einer sprachlichen Assistenten empfunden“ (Lilljegren und Larsson, 2013, S. 2).

Das Vertrauensmodell von Corritore, Kracher und Widenbeck veranschaulicht dabei gut, welche Faktoren für die adequate Vertonung eines IPA entscheidend sind (Vgl. ebd. , S.16).

Abbildung in dieser Leseprobe nicht enthalten

Figur 2: Vertrauensmodell,Corritore, Kracher und Wittenberg (Lilljegren und Larsson, 2013, S. 16)

[...]

Details

Seiten
21
Jahr
2019
ISBN (eBook)
9783346244437
ISBN (Buch)
9783346244444
Sprache
Deutsch
Katalognummer
v922830
Institution / Hochschule
Universität der Künste Berlin
Note
1,3
Schlagworte
amazon alexa sprachliche assistenz etablierung voice-user-interfaces

Autor

Zurück

Titel: Amazon Alexa. Sprachliche Assistenz und die Etablierung des Voice-User-Interfaces