Lade Inhalt...

Profilerstellung von Menschen mit kognitiven Beeinträchtigungen anhand ihrer mündlichen Sprache. Document Categorization mit dem Maximum-Entropy-Algorithmus

Akademische Arbeit 2018 81 Seiten

Informatik - Angewandte Informatik

Leseprobe

Inhaltsverzeichnis

Abstract

1 Einleitung
1.1 Motivation
1.2 Zielsetzung
1.3 Aufbau der Arbeit

2 Grundlagen
2.1 Projekt zur Erstellung von personalisierten Texten in einfacher Sprache
2.2 Leichte Sprache, einfache Sprache
2.2.1 Leichte Sprache
2.2.2 Einfache Sprache
2.3 Natural Language Processing

3 Related Work
3.1 Linguistic Inquiry and Word Count
3.2 Sentiment Analysis
3.3 Clusteranalyse zur Proflerstellung

4 Datenerhebungim Albertinum mit kognitiv eingeschr ä nkten Menschen
4.1 Methode der Datenerhebung
4.2 Durchführung der Studie
4.3 Anforderungen an weitere Datenerhebungen
4.4 Datenaufbereitung

5 Datenanalyse durch Anwendung des Maximum-Entropy-Algorithmus
5.1 Document Categorization
5.2 Tokenization

6 Ergebnisse der Sprachanalyse
6.1 Alles Gesprochene
6.2 Alles Gesprochene mit Bezug zu Exponaten
6.3 Alles Gesprochene ohne Antworten auf Fragen
6.4 Alles Gesprochene, das nicht wiederholt wurde

7 Interpretation der Ergebnisse
7.1 Interpretation der Document Categorization
7.2 Interpretation der Tokenization
7.3 Bewertung der Ergebnisse
7.4 Erkenntnisse für die Fragestellung

8 Diskussion
8.1 Vernachlässigte Aspekte
8.2 Weitere Forschungsmöglichkeiten

9 Zusammenassung

A Transkriptionen

Abkürzungsverzeichnis

Tabellenverzeichnis

Literatur

Abstract

Die vorliegende Arbeit beschäftigt sich mit der Proflbildung von Menschen mit kognitiven Ein-schränkungen zur personalisierten Erstellung von Texten in einfacher Sprache. Dazu wurden in einem Museum Sprachaufzeichnungen von Menschen mit Lernschwierigkeiten angefertigt, bei denen sie zu sechs ausgewählten Exponaten ihre Fragen stellten und Gedanken äußerten. Die Aufnahmen wurden transkribiert um mit dem Maximum-Entropy-Algorithmus eine Document Categorization durchzuführen. Die Kategorisierung konzentrierte sich auf die Bestimmung der personenbezogenen Merkmale Geschlecht und Alter.

Die Ergebnisse der Document Categorization lassen darauf schließen, dass eine Erkennung der genannten Merkmale möglich ist. Dabei zeigte sich bei der Bestimmung des Alters, dass die Er-gebnisse am besten sind, wenn man keine Aussagen fltert, die zur Kategorisierung verwendet werden. Bei der Bestimmung des Geschlechts war es förderlich, nur die Aussagen zu nutzen, die sich auf die Exponate beziehen oder welche keine Antworten auf eine zuvor gestellte Frage ent-hielten.

Für weitere Analysen wurden die korrekt bestimmten Aussagen auf die Häufgkeit genutzter Wör-ter untersucht. Dabei ließen sich besonders Unterschiede fnden, wenn man nach biologischem Geschlecht unterschied. Frauen interessierten sich vermehrt dafür, wo etwas stattfndet und was zu sehen ist, während Männer sich fragten, wie ein Exponat angefertigt wurde. Insgesamt hat sich gezeigt, dass eine Kategorisierung einzelner Merkmale möglich ist und sich die Interessen nach biologischem Geschlecht in der erhobenen Stichprobe unterscheiden ließen. Ob damit auch eine Proflerstellung zur personalisierten Texterstellung in einfacher Sprache gelingt, müssen weitere Forschungen zeigen.

1 Einleitung

„Inklusion geht alle an!“ Diesen Ausspruch hat wohl jeder schon einmal gehört, dennoch ist es noch ein weiter Weg bis Inklusion selbstverständlich wird. Die vorliegende Arbeit beschäftigt sich mit der Frage, wie sich Profle von Menschen mit kognitiven Einschränkungen fnden lassen, um die Erstellung persona-lisierter Texte in einfacher Sprache zu ermöglichen. Diese Texte helfen bei der Inklusion, da sich Menschen mit Lernschwierigkeiten auf diese Weise selbst mit komplexen Themen beschäftigen können ohne auf die Hilfe von anderen Menschen angewiesen zu sein.

1.1 Motivation

Ein Museumsbesuch kann viele positive Aspekte vereinen - man wird unterhalten, beschäftigt sich mit seinen Sinnen und lernen oft etwas Neues, indem man einem Audioguide lauscht oder Texte auf Schildern der Exponate liest. Allerdings bringen die angebrachten Beschreibungstafeln häufg auch folgende Herausforderungen mit sich:

1. Die Tafeln beanspruchen trotz einer verhältnismäßig kleinen Schrift viel Raum.
2. Oft befndet sich der gleiche Text in mehreren Sprachen übersetzt auf diesen Tafeln, sodass sich die lesende Person die für sie bevorzugte Sprache selbst suchen muss. Der Inhalt in anderen Sprachen ist für die lesende Person nicht relevant und daher überfüssig.
3. Umden gesamten Text lesenzu können, muss man sich gegebenenfalls weiter bewegen und ein Stück laufen, um den nächsten Textabschnitt zu erreichen.
4. Bilder im Text können für das Verständnis hilfreich sein, aber auch stören, wenn sie den Lesefuss unterbrechen oder das Layout ungeeignet ist.

MenschenmitkognitivenEinschränkungenhabenSchwierigkeiten, diese Texte aufzunehmenund zu verarbeiten. Obwohl Menschen mit Lernschwierigkeiten viele Fragen zu den ausgestellten Ob-jekten haben, können diese oft nur unzureichend mit den vorhandenen Mitteln beantwortet wer-den. Um Informationen zu Exponaten leichter zugänglich zu machen, werden diese in einfacher Sprache verfasst und für einen Audioguide vertont.

Wie auf der Internetseite Barrierefrei informieren und kommunizieren - f ür alle zu lesen ist, sind kognitive Beeinträchtigungen oder Lernbehinderungen sehr unterschiedlich ausgeprägt. „Die Span-ne reicht von Lernstörungen wie Legasthenie (Lese-Rechtschreib-Schwäche) oder ADHS (Auf-merksamkeitsdefzitsyndrom) bis hin zu schwerer Intelligenzminderung“. So groß die Varianz der Zielgruppe ist, so divers können auch ihre Interessen sein. Bisherige Untersuchungen ver-nachlässigen diese Unterschiede im Sprachverständnis.

1.2 Zielsetzung

Die Fragestellung der vorliegenden Arbeit lautet:

Wie lassen sich anhand von Sprachaufnahmen mit Hilfe von Algorithmen Profle kognitiv beeintr ächtigter Menschen erstellen, die Ausgangspunkt für eine personalisierte einfache Sprache

Dazu soll untersucht werden ob sich anhand von Fragen, die Menschen mit kognitiven Beein-trächtigungen in einem Museum zu ausgewählten Exponaten stellen, ein Clustering fnden lässt, sodass verschiedene Profle entstehen. Damit soll der Grundstein für das übergeordnete Ziel die-ser Arbeit gelegt werden, in der die Personalisierung von Texten in einfacher Sprache ermöglicht wird. Aus der Forschungsfrage ergeben sich weitere Teilfragen, die zur Lösung beitragen:

1. Welche Merkmale kognitiv eingeschränkter Menschen sind für eine Proflerstellung geeig-net?
2. Wie lassen sich diese Merkmale anhand von Sprachaufnahmen kategorisieren?
3. Welche Interessen besitzen Menschen, die die kategorisierten Merkmale haben?

Die Erstellung von personalisierten Texten in einfacher Sprache ermöglicht Menschen mit Lern-schwierigkeiten mehr Selbstbestimmtheit, da sie nicht auf die Hilfe von Anderen angewiesen sind, die ihnen schwierige Texte vorlesen und erklären. Dieses Ziel ist allerdings übergeordnet und so-mit nicht mehr Gegenstand der vorliegenden Arbeit. Das Ergebnis sollte idealerweise aufzeigen, wofür sich eine Person interessiert, die bestimmte Merkmale aufweist.

Die Herangehensweise zur Bearbeitung der Forschungsfrage spiegelt sich auch im Aufbau der Arbeit wieder, über den nun ein kurzer Überblick folgt.

1.3 Aufbau der Arbeit

Grundlagen. In den Grundlagen wird zunächst das übergeordnetete Gemeinschaftsprojekt die-ser Arbeit vorgestellt. Außerdem wird erklärt, was einfache Sprache von Leichter Sprache un-terscheidet und warum Natural Language Processing (NLP) für die Lösung der Forschungsfrage unumgänglich ist.

Related Work. Das Kapitel Related Work stellt zwei Sprachanalyseverfahren vor, die sich auf schriftliche Texte konzentrieren und zeigt, wie ihre Erkenntnisse für die Analyse mündlicher Texte genutzt werden können. Außerdem wird erläutert, wie die Clusteranalyse zur Proflerstellung verwendet werden kann.

Datenerhebung im Albertinum mit kognitiv eingeschr ä nkten Menschen. Die Datenerhebung im Albertinum mit kognitiv eingeschränkten Menschen stellt die Grundlage für die Untersuchung der Sprachaufnahmen bereit. Das Studiendesign, der tatsächliche Ablauf und Anforderungen für zukünftige Versuche werden aufgezeigt. Außerdem wird beschrieben, wie die Sprachaufzeich-nungen für eine Analyse durch Algorithmen aufbereitet wurden.

DatenanalysedurchAnwendungdesMaximum-Entropy-Algorithmus. Die Datenanalyse durch Anwendung des Maximum-Entropy-Algorithmus beschreibt, wie die erhobenen Daten genutzt wurden, um Merkmale von Menschen mit kognitiven Einschränkungen zu kategorisieren.

Ergebnisse der Sprachanalyse. Das Kapitel stellt die wichtigsten Ergebnisse der Sprachanalyse in strukturierter Tabellenform dar. Dabei wird der Fokus auf die Document Categorization und Tokenization gelegt.

Interpretation der Ergebnisse Die Interpretation der Ergebnisse zeigt, welche Maßnahmen be-sonders geeignet waren, um die Kategorisierung von Merkmalen zu optimieren. Außerdem wer-den anhand der meist genutzten Worte Rückschlüsse auf die Interessen verschiedener Personen-gruppen gezogen.

Diskussion. In der Diskussion wird aufgezeigt, welche Punkte in der vorliegenden Arbeit ver-nachlässigt wurden, aber in weiterführenden Forschungen Beachtung fnden können. Heraus-forderungen bei der Bearbeitung der Forschungsfrage werden ebenfalls erläutert sowie weitere Forschungsmöglichkeiten aufgezeigt.

Zusammenfassung. Die Zusammenfassung erläutert die wesentlichen Erkenntnisse dieser Ar­beit in einem kurzen Schlusswort.

2 Grundlagen

Der Ausgangspunkt dieser Arbeit ist ein Gemeinschaftsprojekt der Linguistik und Informatik, über welches deshalb in Abschnitt 2.1 ein Gesamtüberblick gegeben wird. Weiterhin erklärt Kapitel 2.2 was einfache Sprache ist und wie sie sich von Leichter Sprache unterscheidet, um zu zeigen, wie das Ergebnis einer Transformation von Texten in hochdeutscher Sprache aussehen kann. Da sich die Untersuchung der Daten auf Sprachaufzeichnungen stützt, ist der Bereich NLP unumgänglich. Abschnitt 2.3 zeigt, was NLP ist und wie es für die Sprachanalyse genutzt werden kann.

2.1 Projekt zur Erstellung von personalisierten Texten in einfacher Sprache

Die vorliegende Arbeit ist Teil eines Gemeinschaftsprojekts, dass es zum Ziel hat, personalisierte Texte in einfacher Sprache zu erstellen. Um dieses Ziel zu erreichen, wirkten viele Menschen aus unterschiedlichen Bereichen zusammen. Beteiligt waren unter anderem:

- Staatliche Kunstsammlungen Dresden
- Menschen mit kognitiven Einschränkungen
- Prof. Dr. Rainer Lasch
- eine Seminargruppe der Professur für germanistische Linguistik und Sprachgeschichte
- die Verfasserin dieser Arbeit

Gemeinsam wurden sechs Führungen durch die Staatlichen Kunstsammlungen im Albertinum Dresden initiiert, bei denen Sprachaufzeichnungen vorgenommen wurden.

Datenerhebungim Albertinum

Für die personalisierte Texterstellung ist es wichtig, die Interessen der Menschen mit kognitiven Einschränkungen zu kennen. Deshalb wurden Menschen mit Lernschwierigkeiten eingeladen an einer Führung im Museum teilzunehmen, bei der sie Fragen zu ausgewählten Exponaten an eine Museumsangestellte richten durften. Diese wurden mit Mikrofonen aufgezeichnet und bildeten die Datengrundlage für die vorliegende Arbeit.

Die Verfasserin dieser Arbeit erstellte ein Studiendesign welches im Kapitel Datenerhebung im Al-bertinum mit kognitiv eingeschr änkten Menschen beschrieben wird. An dieser Stelle wird ebenfalls erläutert, wie die Führungen tatsächlich verliefen und welche Anforderungen sich für zukünftige Datenerhebungen ergaben.

Proflerstellung von Menschen mit kognitiven Einschr ä nkungen

Die im Albertinum erhobenen Aufzeichnungen wurden genutzt um in einer Sprachanalyse zu un-tersuchen, wie sich Profle von Menschen mit kognitiven Einschränkungen bilden lassen. Dazu wurde zunächst entschieden, welche Merkmale eines Menschen für eine Proflerstellung geeig-net sind. Das Kapitel Related Work stellt die Clusteranalyse als Mittel zur Proflerstellung vor und zeigt zwei Sprachanalyseverfahren, welche sich darauf konzentrieren, aus einem schriftlichen Text Schlüsse auf den Autor zu ziehen.

Personalisierte Erstellung von Texten in einfacher Sprache

Die Studierenden der Sprachwissenschaften können die gewonnenen Erkenntnisse dieser Arbeit nutzen, um Texte in einfacher Sprache für verschiedene Anforderungsprofle anzufertigen. Was einfache Sprache ist, und wie sie verwendet werden kann, um personalisierte Texte für Menschen mit Lernschwierigkeiten zu nutzen, wird im Abschnitt Leichte Sprache, einfache Sprache erläutert.

2.2 Leichte Sprache, einfache Sprache

Laut Statistischem Bundesamt lebten imJahr 2017 etwa 7.8Millionen schwerbehinderte Menschen in Deutschland1. Davon sind etwavier Prozent kognitiv beeinträchtigt. Eindeutige Zahlen zudieser Personengruppe gibt es bis zum heutigen Zeitpunkt nicht. Ein Grund für diese fehlenden Statisti-ken ist unter anderem die nicht eindeutige Begriffsklärung. Begriffe wie „Lernstörungen“, „Lern-schwierigkeiten“, „geistige Behinderung“ oder „kognitive Einschränkungen“ bezeichnen kognitive Beeinträchtigungen bei Menschen.

Havemann und Stöppler verwenden den Begriff geistige Behinderung und defnieren es als „Sam-melbegriff für ein Phänomen mit oft lebenslangen, aber verschiedenen Äußerungsformen einer unterdurchschnittlichen Verarbeitung kognitiver Prozesse und Probleme mit der sozialen Adapti-on“[HS10]. Einige Beispiele dafür sind Legasthenie, Aufmerksamkeitsdefzitsyndrom oder schwe-re Intelligenzminderung.

Um Textemitkomplexen Inhalten auch für Menschen mit kognitiven Beeinträchtigungen zugäng-lich zu machen, können diese in Leichte Sprache transformiert werden. Nach Lasch [Las17] fühlen sich viele Menschen mit kognitiven Beeinträchtigungen unterfordert, wenn sie Texte in Leichter Sprache lesen. Einen Mittelweg zwischen der hochdeutschen Sprache und der Leichten Sprache für Menschen mit Lernschwierigkeiten bietet die einfache Sprache. Der folgende Abschnitt soll zeigen was bei diesen „Varietäten der Verständlichkeit“ zu beachten ist und wie sie sich vonein-ander unterscheiden.

2.2.1 Leichte Sprache

Das Bundesministerium für Arbeit und Soziales entwickelte gemeinsam mit dem Netzwerk Leichte Sprache 2 und Menschen mit kognitiven Einschränkungen eine Art Regelwerk, in dem grundlegen-de Prinzipien für die Erstellung von Texten in Leichter Sprache erklärt sind. Ein Auszug aus diesem Regelwerk wird in Tabelle 2.1 zusammengefasst.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2.1 – Auszug aus dem Regelwerk des Netzwerk Leichte Sprache

Das Regelwerk für Leichte Sprache umfasst zahlreiche weitere Richtlinien zum Schriftbild für Texte. Auf diese Vorschriften wird an dieser Stelle nicht eingegangen, da im vorliegenden An-wendungsfall ein Audioguide erstellt werden soll und daher lediglich die auditiven Regeln von Bedeutung sind. Bereits anhand des kurzen Auszuges lassen sich Schwierigkeiten in der Umset-zung erkennen, welche nachfolgend erläutert werden.

Die Regeln sind nicht eindeutig defniert. Es ergeben sich einige Fragen: Was sind einfache Wörter? Was sind kurze Wörter? Was ist ein einfacher Satzbau?

Um solche Fragen zu beantworten gibt es bisher keine einheitliche Defnition. Das Netzwerk Leichte Sprache empfehlt daher, dass Menschen mit kognitiven Einschränkungen gefragt werden ob sie die Texte in Leichter Sprache verstehen.

ZahlenundDatenwerdenungenau. Geradeineinem Museum istdie Vermeidung vonalten Jah-reszahlen ein Problem, da auf sehr viele Objekte die Beschreibung „vor vielen Jahren entstanden“ zutrifft.

Ausnahmen müssen defniert werden. Der Verzicht auf Abkürzungen ist prinzipiell erwünscht, allerdings gibt es auch Abkürzungen, die leichter verständlich sind als ihre ausgeschriebenen Worte. Für diese Fälle muss eine Ausnahme gelten (z.B. WC /Toilette). Welche Abkürzungen be-kannt sind, sollte bei einer Gruppe von Personen mit kognitiven Einschränkungen erfragt werden.

Die Texte werden monoton. Durch die Verwendung der immer gleichen Wörter, kurzer Sätze und der Vermeidung des Konjunktivs können die Texte schnell sehr gleichbleibend klingen und zu Ermüdungserscheinungen oder Langeweile führen, wenn der Hörer unterfordert ist.

Einige dieser Schwierigkeiten lassen sich mit der einfachen Sprache vermeiden, welche im fol-genden Abschnitt vorgestellt wird.

2.2.2 Einfache Sprache

Wie auf der Webseite des IQ Netzwerk Bremen 3 zu lesen ist, wurde einfache Sprache aufbau-end auf der Leichten Sprache entwickelt und soll der barrierefreien Kommunikation dienen. Als Zielgruppen werden „Menschen mit Leseschwäche, ältere Menschen, Menschen mit geringen Deutschkenntnissen, Migrantinnen und Migranten sowie Touristinnen und Touristen“ genannt. Damit spricht die einfache Sprache eine vergleichsweise große Zielgruppe an. Im Gegensatz zur Leichten Sprache gibt es für die einfache Sprache bisher kein einheitliches Re-gelwerk4. Dennoch lassen sich Empfehlungen zur Erstellung von Texten in einfacher Sprache fn-den. Um einen vergleichbaren Eindruck zur Leichten Sprache zur erhalten, werden nachfolgend einige dieser Richtlinien5 aufgelistet.

1. Ein Satz sollte nicht mehr als 15 Wörter haben.
2. In einem Satz sollte höchstens ein Komma stehen.
3. Erklären Sie in jedem Satz nur einen Gedanken.
4. Schreiben Sie aktive Verben, vermeiden Sie das Passiv.
5. Benutzen Sie möglichst keine Fremdwörter.
6. Erklären Sie schwierige Wörter und Begriffe.
7. Vermeiden Sie Sprichwörter und Metaphern.
8. Vermeiden Sie Abkürzungen.
9. Vermeiden Sie Negationen.
10. Sprechen Sie langsam und deutlich.
11. Verwenden Sie keine Ironie.

Grotlüschen und Riekmann [GR12] unterscheiden in der Level-One Studie den Funktionalen An-alphabetismus in mehrere Alpha-Levels, die sowohl die Lese- als auch die Schreibfähigkeiten ka-tegorisieren. Die Lesekompetenzen werden in Tabelle 2.2 beschrieben, während die Schreibkom-petenzen vernachlässigt werden, da diese unerheblich für das Textverständnis sind.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2.2 – Lesekompetenzen in verschiedenen Alpha - Levels

Die Gemeinsamkeiten und Unterschiede der Leichten und einfachen Sprache sind nicht immer auf den ersten Blick erkennbar. Lange und Bock [LB16] untersuchen in ihrem Ratgeber Leichte Sprache empirisch ob und welche Unterschiede es zwischen Leichter und einfacher Sprache gibt, indem sie die Nutzung in der Praxis betrachten. Die Autoren bemerken, dass es bei den beiden Begriffen sowohl Bezeichnungs- als auch Bedeutungskonkurrenz gibt.

Bezeichnungskonkurrenz. Dabeiwerden fürdiegleichenPhänomeneverschiedene Namenver-wendet. So gibt es für viele Texte, die für Menschen mit kognitiven Einschränkungen oder Men-schen mit Lernschwierigkeiten geschrieben wurden, verschiedene Bezeichnungen wie „einfache Sprache“, „einfach gesagt“, „leicht lesbar“ oder „leicht gesagt“.

Bedeutungskonkurrenz. Dabei hat derselbe Begriff verschiedene Bedeutungen. Als ein Indiz da-für nennen die Autoren die explizite Sprachthematisierung, das heißt es wird explizit erwähnt das Leichte Sprache und einfache Sprache nicht das Gleiche sind.

Lange und Bock [LB16] stellen fest, dass sich die Beteiligten der Erstellung von Regeln für die Leichte Sprache und einfache Sprache zwar in der Theorie deutlich voneinander abgrenzen, dies in der Praxis aber schwer möglich ist. In Tabelle 2.3 sind die wichtigsten theoretischen Unter-schiede noch einmal zusammengefasst.

Abbildung in dieser Leseprobe nicht enthalten

Quellen: IQ Netzwerk Bremen. ‚Einfache Sprache‘? - Servicestelle Einfache Sprache. Website. URL: http://www.pro-einfache-sprache.de/, abgerufen am 02.07.2018. Netzwerk Leich-te Sprache. Die Regeln für Leichte Sprache. Website. URL: https://www.leichte-sprache. org/, abgerufen am 01.07.2018.

Tabelle 2.3 – Vergleich Leichte Sprache und einfache Sprache

Insgesamt überschneiden sich weite Teile der Sprachvarietäten. Diese Überlagerung liegt zum einen an den zu ungenau formulierten Regeln und zum anderen an den fießenden Übergängen der „Varietäten der Verständlichkeit“ [Las17]. Da Leichte Sprache und einfache Sprache das gleiche Ziel verfolgen - die Kommunikation für alle

Menschen leichter zugänglich zu machen - können sie als Lösungen verschiedener Schwierig-keitsgrade betrachtet werden.

Nachdem nun beschrieben wurde, warum einfache Sprache für Menschen mit kognitiven Ein-schränkungen notwendig ist, erklärt der folgende Abschnitt, wie die Sprache von Menschen mit Lernschwierigkeiten mittels Natural Language Processing analysiert werden kann.

2.3 Natural Language Processing

Diemenschliche Spracheist sehr komplexundnur schwer füreinen Computerzuuntersuchen. Es gibt unzählige Ausdrucksweisen, verschiedene Sprachen und Mehrdeutigkeiten, die die Analyse zusätzlich erschweren. Damit Computer trotzdem mit menschlicher Sprache arbeiten können, befasst sich das Themengebiet Natural Language Processing (NLP) mit diesen Problemen und versucht Lösungen zu fnden. Einige dieser Lösungen wurden für die Untersuchung der Sprach-aufnahmen verwendet und werden deshalb nachfolgend erklärt.

Defnition

NLP ist ein Verfahren für Computer, dass es ermöglicht menschliche Sprache zu analysieren, ver-stehen und Inhalte zu extrahieren. Obwohl dieses Themengebiet von sehr vielen Wissenschaftlern erforscht wird, gibt es bisher keine eindeutige Defnition. Liddy versucht NLP in ihrer Arbeit fol-gendermaßen zu defnieren:

Defnition 1 „Natural Language Processing is a theoretically motivated range of computational techniques for analyzing and representing naturally occurring texts at one or more levels of linguistic analysis for the purpose of achieving human-like language processing for a range of tasks or applications.“ [Lid01]

Natürliche Sprache bezeichnet dabei die Sprache, in der Menschen untereinander kommunizie-ren. Diese stellt NLP vor einige schwerwiegende Herausforderungen, welche Baschel et al. [BW06] in ihrem Buch Challenges in natural language processing beschreiben.

Einige dieser Probleme werden hier an Beispielen in deutscher Sprache aufgezeigt,um die Schwie-rigkeit der natürlichen Sprachverarbeitung zu verdeutlichen.

Mehrdeutigkeiten. Ein Wort kann mehrere Bedeutungen haben. Dabei ist zu unterscheiden, ob ein Wort lediglich gleich klingt (Homophonie) oder auch gleich geschrieben (Polysemie) wird. Eine weitere Form der Mehrdeutigkeit ist die, dass Wörter zwar gleich geschrieben, aber unterschied-lich ausgesprochen werden (Homographie). Der Kontext ist oft entscheidend, um herauszufnden wie das Wort zu verstehen ist. Wie viel Kontext notwendig ist, kann ebenfalls stark variieren, wie am folgenden Beispiel zu sehen ist.

Beispiel:

Das ist alles ein bisschen Meer hier. - Substantiv Das ist alles ein bisschen mehr hier. - Indefnitpronomen Da Menschen mit kognitiven Einschränkungen oftmals nicht in vollständigen Sätzen spre-chen, ist es schwierig ohne Kontext herauszufnden, welche Bedeutung eines Wortes ge-meint ist. So erkennt man aus dem obigen Sprachbeispiel nicht, ob die aufgezeichnete Per­son ein Meer sieht oder ob sie ein Bild sieht auf dem sehr viel zu erkennen ist, eben ein bisschen mehr von allem. Je nachdem, welche Bedeutung gemeint ist, ist die Wortart ei-ne andere. Für die Transkription der Daten stellen solche Homophonien eine besondere Herausforderung dar.

Zu weit gefasste Grammatikregeln. Um einen Satz zu bilden, gibt es viele Varianten die gram-matikalisch richtig sind. Auch wenn ein Satz streng genommen immer aus Subjekt, Prädikat und gegebenenfalls einem Objekt besteht, ist die Reihenfolge nicht eindeutig.

Caspar David Friedrich malte dieses Gem älde. Dieses Gemälde malte Caspar David Friedrich.

Beide Sätze bestehen aus dem gleichen Subjekt, Prädikat und Objekt. Die Reihenfolge der Elemente ist unterschiedlich. Dennoch sind beide Varianten korrekt. Um herauszufnden, welches Wort welche Stellung im Satz hat, ist es erforderlich die Bedeutung der Wörter zu kennen oder einen ausreichend großen Datensatz als Trainingsdaten zu haben.

Zahlreiche Ausnahmen. Um die verschiedenen Zeitformen eines Verbs zu bilden, gibt es zwar eindeutige Regeln, allerdings gibt es auch sehr viele Ausnahmefälle. Ebenso verhält es sich mit der Konjugation - nur regelmäßige („schwache“) Verben bestehen aus ihrem Wortstamm und einer festen Endung je Personalpronomen. Natürlich kann man ein Wörterbuch mit allen Aus-nahmen anlegen. Dies bedeutet allerdings sehr hohen Aufwand aufgrund der großen Wortanzahl. Erschwerend kommt hinzu, dass dieses Wörterbuch dann lediglich für eine einzige Sprache ge-nügt. regelm äßiges Verb:

Abbildung in dieser Leseprobe nicht enthalten

Trotz dieser Herausforderungen ist es mittlerweile möglich, gute Ergebnisse mit NLP zu erlangen. Wie diese Berechnungen erfolgen, wird im nächsten Abschnitt deutlich.

Relevante Schwerpunkte der Sprachanalyse

Einige der Techniken zur Sprachanalyse werden in diesem Abschnitt genauer erklärt. Darüber hinaus gibt es zahlreiche weitere Techniken, welche hier nicht genauer betrachtet werden, da sie für die vorliegende Arbeit nicht relevant sind.

Tokenization. Der Computer bekommt eine Zeichenfolge als Eingabe. Die Aufgabe ist es, diese Zeichenfolge in Stücke zu teilen, sogenannte Tokens. Dabei ist es auch erlaubt, einige Zeichen zu entfernen, wie zum Beispiel Apostrophe. Das Resultat ist meist ein Array bestehend aus einzelnen Wörtern und Satzzeichen.

Parts-of-Speech(POS)-Tagging. Mit Hilfe des POS-Tagging werden Tokens ihren jeweiligen Wort-arten zugeordnet. Dabei spielt das Token selbst eine Rolle ebenso wie der Kontext. Ein Token kann mehrere POS Tags besitzen, in diesem Fall wird mit Hilfe eines probabilistischen Modells die wahrscheinlichste Lösung zugeordnet.

WordCount. Nachdem auf einem Text die Tokenization durchgeführt wurde, lässt sich die Wort-frequenz ermitteln. Dabei werden die Vorkommen eines jeden Tokens in einem Text gezählt. Bei der Berechnung wird unterschieden in Tokens und Types. Types sind die verschiedenen Wörter in einem Korpus, während Tokens alle einzelnen Komponenten eines Korpus sind.

Sentence Segmentation. Die Sentence Segmentation zerlegt einen Text in seine einzelnen Sät-ze. Diese Aufgabe erscheint auf den ersten Blick einfach, birgt aber einige Schwierigkeiten. So wird ein Punkt nicht immer als Satzzeichen verwendet, sondern kommt auch in Nummerierun-gen oder innerhalb von großen Zahlen vor.

Die vorgestellten Techniken des NLP können kombiniert werden, um weitere Erkenntnisse durch eine Sprachanalyse zu erlangen. Die Document Categorization nutzt diese Aspekte und errechnet mit Hilfe eines Algorithmus komplexere Zusammenhänge. Die Funktionsweise dieses Verfahrens wird im folgenden Abschnitt erklärt.

Document Categorization

Die Document Categorization nutzt die eben vorgestellten Möglichkeiten des NLP um zu erken-nen, welcher Kategorie ein Text zugeordnet werden kann. Die Kategorien sind je nach Anwen-dungsfall verschieden und können selbst festgelegt werden. Das Verfahren basiert auf Machine Learning und ist dadurch sehr fexibel.

Um festzulegen, welche Kategorien existieren sollen, erstellt man zunächst ein Trainingsmodell. Für die Modellerstellung wird eine einfache Textdatei benötigt, die mehrere Zeilen enthält, wobei eine Zeile als ein Trainingsdatum gilt. Das erste Wort jeder Zeile ist dabei die Kategorie, alles wei-tere der zugehörige Text. Es gibt keine Begrenzung, wie lang eine Textzeile maximal sein darf, sie muss jedoch mindestens ein Wort enthalten. Wie ein Ausschnitt dieser Textdatei aussehen kann, wird im folgenden Beispiel gezeigt. männlich Ach Gott. Ein Eisberg. Marmorstein. männlich Achtung ich sehe das nicht so. Ich sehe das nicht so. Ich bin ja nicht der einzige. weiblich Nur gucken, aber man darf nichts anfassen, das geht nicht. weiblich Was ist denn das? Also das koennte Material, das koennte Holz sein. Je mehr Trainingsdaten in dem Modell vorhanden sind, desto genauer werden die späteren Be-rechnungen. Die Texte, die hinter der Kategorie stehen, werden mittels Tokenization in ein Array umgewandelt, dass die einzelnen Wörter enthält. Um das Modell zu trainieren, wird mehrfach über die Textdatei iteriert. Nachdem das Trainingsmodell erstellt wurde, ist es für die eigentliche Kategorisierung unbekannter Texte geeignet.

Dazu wird der zu klassifzierende Text mit den Trainingsdaten verglichen. Ein Algorithmus be-rechnet, mit welcher Wahrscheinlichkeit der Text welcher Kategorie angehört. Dabei wird auch das POS-Tagging berücksichtigt. Die Kategorie mit der höchsten Wahrscheinlichkeit wird als die korrekte Kategorie angenommen und ausgegeben.

Nachdem aufgezeigt wurde, welche Möglichkeiten NLP bei der Sprachanalyse bietet, werden ei-nige Verfahren vorgestellt, die auf diesen Techniken basieren.

3 Related Work

Die Motivation, aus einem Text Rückschlüsse auf seinen Autor ziehen zu können, führte bereits in den 90er Jahren zu Sprachanalyseverfahren, die sich auf die Untersuchung von schriftlichen Tex-ten konzentrieren. Zwei dieser Verfahren werden in diesem Abschnitt genauer betrachtet. Kapitel 3.1 stellt das Wörterzählverfahren LIWC vor, dass auf einem Vokabular basiert und daher sprach-abhängig ist. Unabhängig von der Sprache ist hingegen die Sentiment Analysis, die in Kapitel 3.2 beschrieben wird. Sie wird angewendet, um herauszufnden, ob ein Text negative oder positive Aussagen enthält. Kapitel 3.3 zeigt auf, wie es möglich ist, aus einzelnen Merkmalen Profle zu bilden.

3.1 Linguistic Inquiry and Word Count

Tausczik und Pennebaker [TP10] entwickelten das Programm Linguistic Inquiry and Word Count (LIWC) (gesprochen „Luke“), das mittels eines Wörterzählverfahrens Wörter in psychologisch re-levanten Kategorien einteilt. Es ist geeignet Aufmerksamkeitsfokus, Emotionen, soziale Bezie-hung, Denkrichtungen und individuelle Unterschiede aus schriftlichen Texten zu fltern [PBF07].

Funktionsweise des Verfahrens

Die Anwendung LIWC besteht aus zwei grundlegenden Bausteinen: die Verarbeitungskomponen-te und die Wörterbuchkomponente. Im ersten Teil betrachtet LIWC jedes Wort eines Dokuments nacheinander und einzeln. Dabei wird überprüft, ob es sich im Wörterbuch befndet und wenn ja, in welche Kategorien es eingeordnet werden kann. Der Wert dieser Kategorien wird inkremen-tiert. Ist das Verfahren am Ende des Dokuments angekommen, errechnet sich aus den inkremen-tierten Werten für jede Kategorie ein prozentueller Wert, welcher für weiterführende Aussagen genutzt werden kann.

Als das Verfahren noch sehr jung war, gab es lediglich die zwei Wörterbuch–Kategorien „positive Wörter“ und „negative Wörter“. Mit der Weiterentwicklung des Verfahrens kamen immer neue Kategorien hinzu, sodass Wörter heute in 80 Kategorien eingeteilt werden. Dabei gibt es eindeu-tige Kategorien, wie zum Beispiel „Artikel“. Andere Kategorien sind komplexer, wie „Emotionen“ und ihre Wörter müssen in aufwendigen Verfahren wissenschaftlich zugeordnet werden. Mitt-lerweile wurden mehr als 100 Millionen englische Wörter analysiert und innerhalb von 15 Jahren dreimal überarbeitet, um die Daten stetig zu aktualisieren und zu verbessern. Über die Jahre fanden Tausczik und Pennebaker [TP10] heraus, dass sich Wörter in zwei große Gruppen teilen lassen: Inhalts- und Stilwörter. Inhaltswörter sind im Allgemeinen Substantive, Verben, Adjektive und Adverben und zeigen an, worauf sich eine Person fokussiert. Stilwörter sind meist Pronomen, Präpositionen, Artikel, Konjunktionen oder Hilfsverben. Stilwörter zeigen auf, wie Menschen kommunizieren, während Inhaltswörter mitteilen, was gesagt wird. Besonders auffallend ist eine ungleiche Verteilung dieser beiden Gruppen. Während von annä- hernd 100 000 englischen Wörtern lediglich 500 Wörter (0.05%) zu den Stilwörtern zählen, ma-chen sie circa 55% der Wörter aus, die wir sprechen und lesen [Mil95].

Äquivalenz zur deutschen Sprache

Wolf et al. [Wol+08] untersuchten in mehreren Teilstudien die Äquivalenz des deutschen und englischen LIWC-Verfahrens und wie robust es gegenüber Schreibfehlern ist. Dabei fanden die Autoren heraus, dass die meisten Kategorien eine hohe Äquivalenz zu ihrem englischen Pendant aufweisen.

Unterschiede zeigten sich vor allem in der Länge von Wörtern, Sätzen und Texten. Deutsche Tex-te beinhalten mehr lange Wörter als englische Texte. Dafür sind englische Texte im Schnitt 30 Wörter länger und auch ein einzelner Satz besteht im Durchschnitt aus einem Wort mehr als das deutsche Äquivalent.

Lediglich die zwei Kategorien „Cause“ und „Space“ sind nicht äquivalent. Die Kategorie „Cause“ enthält Wörter, die eine Begründung einleiten (z.B. weil, weswegen, deshalb), während die Kate-gorie „Space“ Wörter beinhaltet, die einen räumlichen Bezug beschreiben (z.B. unten, in). In allen anderen Kategorien war die Äquivalenz zumindest zu einem großen Teil gegeben. Außerdem fanden die Autoren heraus, dass das Verfahren robust genug ist, um mit Schreibfehlern umzugehen. Dazu ließen sie E-Mails verfassen mit der expliziten Anweisung, keine Korrekturen vorzunehmen und nicht noch einmal zulesen, was geschrieben wurde. Diese E-Mails wurden ver-glichen mit der korrigierten Variante dieser Texte.

Das Gesamtergebnis wird von Fehlern kaum beeinfusst, allerdings lassen sich anhand der ge-machten Fehler Rückschlüsse auf die Verfasserin oder den Verfasser ziehen. Korrekturen der Satzlänge kamen häufger bei Frauen als bei Männern vor. Das Alter beeinfusste vor allem die Kategorien, in denen Fehler gemacht wurden. Schulbildung und Berufsausbildung hatten jedoch keinen Einfuss auf die Ergebnisse.

Anwendung auf die vorliegende Forschungsfrage

Die Analysen der Autoren zeigten auch, welche Merkmale eines Menschen für eine automatisierte Erkennung in Frage kommen. Diese werden nachfolgend in Hinblick auf ihre Eignung als Cluster-Kriterium genauer untersucht.

Geschlecht. Kowalski [Kow00] fand mittels LIWC heraus, dass es einen signifkanten Unter-schied zwischen den biologischen Geschlechtern gibt, was die Nutzung von Personalpronomen betrifft. Männer nutzten in seiner erhobenen Stichprobe mehr Personalpronomen der dritten Form wenn sie Ereignisse beschrieben, die sie selbst erlebt hatten. Dies könnte auch für die ak-tuelle Frage relevant sein, wie sich Profle anhand mündlicher Aufzeichnungen erstellen lassen. Newman et al. [New+08] wiesen nach, dass die größten Sprachunterschiede zwischen Männern und Frauen, die in einer Stichprobe untersucht wurden, in der Komplexität der Sprache und im Grad sozialer Referenzen zu fnden sind. Männer verwendeten in der Studie häufger lange Wör-ter, Artikel und Präpositionen. Frauen nutzten hingegen mehr soziale Wörter und Personalpro-nomen.

Dabei ist die Frage offen, ob sich die Sprache der Menschen mit kognitiven Einschränkungen äquivalent verhält zu den von Kowalski untersuchten Gruppen, da die Sprache der Menschen mit Lernschwierigkeiten oft deutlich weniger komplex ist.

Bildungsabschluss. Sexton und Helmreich [SH00] entdeckten eine Korrelation zwischen dem Rang einer Person und der Benutzung der ersten Person im Plural. Dabei benutzten höher gestell-te Personenöfter die „Wir“-Form. Außerdem stellten sie weniger Fragen im Vergleich zu Personen die einen niederen Rang hatten. Es sollte überprüft werden, ob sich diese Auffälligkeit bei Perso-nen mit kognitiven Beeinträchtigungen ebenfalls in ihrem Bildungsabschluss oder ihrem Beruf widerspiegelt.

Hartley et al. [HPF03] beschreiben in einer weiteren Arbeit, dass Präpositionen, kognitive Mecha-nismen und Wörter, die aus mehr als sechs Buchstaben bestehen als Indikatoren für eine kom-plexere Sprache stehen. Sie können demzufolge ebenso in Hinblick auf eine Korrelation mit dem Bildungsabschluss einer Person überprüft werden.

Alter. Pennebaker und Stone [PS03] konnten in einem Experiment nachweisen, dass die erste Person Singular immer seltener angewendet wird, je älter eine Person ist. Dafür war ein Anstieg zu verzeichnen im Gebrauch von Erkenntniswörtern („realisieren“, „wissen“, „verstehen“) und Zu-kunftsverben. Allerdings bezog sich auch dieses Experiment ausschließlich auf schriftliche Da-tensätze.

Mentaler Gesundheitszustand. Stirman und Pennebaker [SP01] fanden heraus, dass sich mit-tels LIWC berechnen lässt, ob Menschen suizidale Gedanken haben. Auch eine Verbesserung ihres mentalen Gesundheitszustandes ließ sich damit erkennen.Offen bleibtdie Frage,ob sich auch an-dere mentale Gesundheitszustände einordnen lassen. Esist zu untersuchen,obsich bei Menschen mit kognitiven Beeinträchtigungen Wörter fnden lassen, die Rückschlüsse auf den Schweregrad der Einschränkung oder die Art der Beeinträchtigung ziehen lassen.

Kritik

Trotz der guten Ergebnisse merken Tausczik und Pennebaker [TP10] selbst an, dass LIWC ein probabilistisches System ist und daher Kontext, Ironie und Redewendungen vollkommen außer Acht lässt.

Ein wichtiger Aspekt ist die Tatsache, dass Menschen mehr Füllwörter benutzen, wenn sie sich in einem Thema unsicher fühlen, dass sie selbst betrifft [TP10]. Beaudreau et al. [BSS05] fanden allerdings heraus, dass dies nicht der Fall ist, wenn Menschen eine Geschichte beschreiben, die auf einem Bild basiert. Für den konkreten Anwendungsfall im Museum ist dies relevant, da auch dort die Probanden ein Bild oder eine Skulptur betrachten und sie wahrscheinlich deshalb anders reden als wenn sie von sich selbst erzählen würden.

Der größte Nachteil dieses Verfahrens ist die Sprachabhängigkeit, da die einzelnen Wörter in Ka-tegorien eingeordnet werden müssen, um die Wörterbuchkomponente nutzen zu können. Eine weitere Schwäche ist, dass sich die bisherigen Erfahrungen lediglich auf schriftliche Datensätze beziehen. Auf mündliche Aufzeichnungen wurde das Verfahren in den genannten Arbeiten nicht verwendet. Das gesprochene Wort ist jedoch unmittelbarer und spontaner und kann daher zu vollkommen anderen Ergebnissen führen.

Ein Analyseverfahren, das sprachunabhängig ist, da es auf Machine Learning basiert und somit kein Wörterbuch benötigt, ist die Sentiment Analysis.

3.2 Sentiment Analysis

Nasukawa und Yi [NY03] defnieren die Sentiment Analysis (oft auch als Opinion Mining bezeich-net) als Werkzeug, um herauszufnden ob die Meinungen zu einem bestimmten Thema positiv oder negativ ausfallen. Sie untersucht außerdem auf welche Weise Gefühle in Texten ausgedrückt werden. Um dieses Wissen zu extrahieren, ist die Identifkation von Gefühlsausdrücken, Polarität und Stärke dieser Ausdrücke und ihrer Beziehung zum Thema erforderlich. Wie die Umsetzung dieser Anforderungen gelingen kann, soll der nächste Abschnitt aufzeigen.

Funktionsweise des Verfahrens

Yi et al. [Yi+03] geben zu beachten, dass nicht die Gesamtheit eines Dokuments betrachtet wird, sondern einzelne Sätze, die ein Thema betreffen. Durch diese Einzelbetrachtung wird die Analyse sehr detailliert und dementsprechend präzise. Zuerst werden alle Terme extrahiert, die für das gewählte Thema relevant sind. Anschließend werden dem Dokument die verschiedenen Meinun-gen und Gefühle entnommen. Erstimletzten Teil werden diese beiden Komponenten miteinander verknüpft. Yi et al. erreichten mit ihrer Analyse eine Genauigkeit von über 80 Prozent. Liu [Liu12] betont, dass die Sentiment Analysis sich mit einem Zwei-Klassen Klassifzierungspro-blem beschäftigt. Opinion Mining gibt also lediglich Auskunft darüber, ob ein Document positiv oder negativ ist. Um möglichst korrekte Werte zu berechnen, nutzt die Analyse weitere Kompo-nenten des NLP. Adjektive sind wichtige Indikatoren für Meinungen, mit POS-Tagging können sie extrahiert werden.

Nasukawa und Yi [NY03] nennen einen bedeutenden Vorteil der Sentiment Analysis für die Wer-beindustrie: Anstatt teure Umfragen zur Kundenzufriedenheit durchzuführen, bei der eine aktive Teilnahme der Kunden notwendig ist, können mit Opinion Mining Texte im Internet zum betref-fenden Produkt untersucht werden. Dieser Vorteil kann auch für die Proflerstellung von Men-schen mit kognitiven Einschränkungen in Betracht gezogen werden. Statt langen, anstrengenden Umfragen zu möglichen Interessen der einzelnen Personen kann untersucht werden, ob anhand weniger frei gesprochener Worte ein Interessenprofl erstellt werden kann. Welche Algorithmen zur Berechnung besonders gut geeignet sind, wird im folgenden Abschnitt genauer erläutert.

Algorithmen für die Textkategorisierung

Eine besondere Herausforderung der Sentiment Analysis ist nach Vinodhini und Chandrasekaran [VC12] die Tatsache, dass sich Opinion Mining mit Einstellungen von Menschen anstelle von Fak-ten beschäftigt. Das Hinzufügen einer Negation kann den kompletten Sinn eines Satzes ändern und muss ebenfalls beachtet werden. Die Sentiment Analysis wird mit Hilfe von Machine Lear­ning umgesetzt. Dabei haben sich die folgenden zwei Algorithmen für die Textkategorisierung als besonders erfolgreich erwiesen.

NaiveBayes. Naive Bayes (NB) ist ein einfacher Algorithmus, der oft für Dokumentenklassifzie-rung angewendet wird. Der naive Teil des Algorithmus geht von der Annahme aus, dass Wörter unabhängig voneinander sind. Diese Art der starken Vereinfachung macht die Berechnungen des NB deutlich effzienter und leichter, aber auch ungenauer als andere Algorithmen.

Maximum Entropy. Maximum Entropy (ME) ist ein auf Machine Learning basierender Algorith-mus, der bereits 1957 von Jaynes entwickelt wurde [Jay57]. Er ist sehr fexibel und kann deshalb auf viele Klassifkationsprobleme des NLP angewendet werden, darunter Tokenization, POS-Tagging und Sentence Segmentation. Malouf [Mal02] sieht allerdings in dieser Flexibilität die Herausfor-derungen des Algorithmus. ME-Modelle sind oft sehr groß und können tausende freie Parameter beinhalten, was sehr schnell viel Rechenzeit und -leistung beansprucht. Dennoch ist diese Me-thode bewährt wenn es um NLP-Berechnungen geht. Berger et al. [BPP96] nutzten bereits in den 90er Jahren den ME-Algorithmus um automatisiert eigene Trainingsdatenmodelle zu erstellen. Diese dienten der Übersetzung von schriftlichen Texten in eine andere Sprache.

Chancen für die Proflerstellung

Wie bereits im Abschnitt Funktionsweise des Verfahrens erläutert, wird die Sentiment Analysis bisher genutzt, um positive und negative Gefühle in einem Dokument zu erkennen. Mit dieser Überlegung kann untersucht werden, ob Menschen mit bestimmten Merkmalen einem Exponat positiv gegenüberstehen, während Menschen mit anderen Merkmalen dieses Objekt eher negativ auffassen.

Hat man einzelne Merkmale eines Menschen aus Texten extrahiert, können diese genutzt werden um aus ihnen Profle zu bilden. Die Clusteranalyse ist eine Möglichkeit, um dieses Ziel umzusetzen und wird im nächsten Abschnitt vorgestellt.

3.3 Clusteranalyse zur Proflerstellung

Da es sehr viele Menschen mit kognitiven Einschränkungen gibt und diese eine noch größere An-zahl verschiedener Eigenschaften haben, ist eine Proflerstellung der Zielgruppe ein komplexer Prozess. Für Anwendungsfälle dieser Art wurde die Clusteranalyse entwickelt, welche der vorlie-gende Abschnitt erklärt.

Defnition

Bereits 1939 erwähnte Tyron [Tyr39] die Clusteranalyse zur Kennzeichnung eines speziellen Ver-fahrens, um Variablen zu gruppieren. In den 70er Jahren wurde der Begriff deutlich häufger ver-wendet, beispielsweise in Werken wie Cluster-Analysis for Applications [And73], Clustering Al­gorithms [Har75] oder Cluster-Analyse-Algorithmen zur Objektklassifzierung und Datenreduktion [Spä75].

Trotz der großen Bedeutung der Clusteranalyse gibt es bis heute viele verschiedene Defnitionen. Steinhausen und Langer beschreiben die Clusteranalyse wie folgt:

Defnition 1 „Clusteranalyse wird verstanden als ein zusammenfassender Terminus für ei-ne Reihe unterschiedlicher mathematisch-statistischer und heuristischer Verfahren, deren Ziel darin besteht, eine meist umfangreiche Menge von Elementen durch Konstruktion homogener Klassen, Gruppen oder Cluster optimal zu strukturieren. Die gesuchten Cluster sollen jeweils nur ähnliche Elemente enthalten, während Elemente verschiedener Gruppen möglichst unähn-lich sein sollen.“ [SL13]

Die Findung dieser Gruppen beschreibt das Klassifkationsproblem. Es beschäftigt sich in erster Linie damit Klassen oder sinnvolle Gruppierungen zu fnden. Dabei sind viele Faktoren wie An-zahl, Homogenität oder die Lokalisation der Gruppen unbekannt. Auch über die Zuordnung der einzelnen Elemente hat man anfangs keine Informationen. Wie man aus dieser unübersichtlichen Ausgangslage zu einem strukturierten Ergebnis gelangt, zeigt die Methode der Clusteranalyse.

Methode der Clusteranalyse

Die Durchführung einer Clusteranalyse ist ein Prozess, der mehrere Schritte erfordert. Steinhau-sen und Langer [SL13] beschreiben in ihrem Buch genauer, wie sich kleine Gruppen fnden lassen, in der die einzelnen Menschen ähnliche Merkmale aufweisen:

1. Pr äzisierung der Untersuchungsfragestellung. Das inhaltliche Problem, das zur Cluster-analyse führt, sollte vorher genau spezifziert werden.
2. Auswahl der Elemente und Variablen. Diese Elemente und Variablen sollen sich eindeutig auf das Untersuchungsziel beziehen.
3. Aufbereitung der Daten. Die ermittelten Messwerte werden in einer Rohdatenmatrix an-geordnet.
4. Festlegung einer angemessenen Ähnlichkeitsfunktion. Die Ähnlichkeitsfunktion ist ab-hängig vom Untersuchungsziel und erleichtert die Erstellung einer Ähnlichkeits- und einer Unähnlichkeitsmatrix.
5. Bestimmung des geeigneten Algorithmus zur Gruppierung. Der Algorithmus sollte nicht nur in Hinblick auf die Ergebnisse geeignet sein, sondern nicht mehr Rechenzeit und Spei-cher beanspruchen, als vorhanden.
6. Technische Durchf ührung. Da die Clusteranalyse sehr rechenintensiv ist, ist eine effektive Programmierung des Algorithmus unumgänglich.
7. Analyse der Ergebnisse. Die Analyse dient der statistischen Beurteilung der gefundenen Lösungen.
8. Interpretation der Ergebnisse. Die gefundenen Cluster werden auf einen Vergleichsdaten-satz angewendet um Schlüsse ziehen zu können, wie erfolgreich die Clusteranalyse war.

Im konkreten Anwendungsfall bedeutet das Folgendes: Eine große Herausforderung besteht dar­in, zu ermitteln, wie sich die teilnehmenden Menschen mit kognitiven Einschränkungen gruppie-ren lassen. Es ist zu Beginn nicht bekannt, wie viele solcher Gruppen sich fnden lassen oder was geeignete Kriterien sind.

Für die Überprüfung, wie sich sinnvoll Gruppen fnden lassen, wurden in der Studie im Alber-tinum von den Teilnehmenden die Metadaten Geschlecht, Alter, Bildungsabschluss, Schwere und Art der kognitiven Beeinträchtigung erfragt. Wie die Datenerhebung ablief, beschreibt das fol-gende Kapitel.

4 Datenerhebung im Albertinum mit kognitiv eingeschr ä nkten Menschen

In diesem Kapitel wird erläutert wie die Sprachaufnahmen erhoben wurden, welche für die Prof-lerstellung kognitiv eingeschränkter Menschen genutzt werden. Dabei wird zunächst in Abschnitt 4.1 die Methode der Datenerhebung vorgestellt. Anschließend wird der praktische Ablauf der Stu-die in Abschnitt 4.2 beschrieben. Wie sich aus diesen Erfahrungen Anforderungen für weitere Forschungen ableiten lassen, zeigt Abschnitt 4.3.

4.1 Methode der Datenerhebung

Bevor die eigentliche Studie begann, wurden in einer Führung die Exponate gewählt, die für die folgenden Museumsbesuche relevant waren. Wie diese Auswahl erfolgte, zeigt der folgende Ab-schnitt.

Auswahl geeigneter Exponate

Um die sechs Exponate festzulegen, die in den nachfolgenden Führungen gezeigt wurden, wurden Kinder einer Sonderschule eingeladen sich die Staatlichen Kunstsammlungen Dresden im Alber-tinum anzuschauen. Die Auswahl dieser Personengruppe erfolgte durch eine Mitarbeiterin unter Leitung von Prof. Dr. Rainer Lasch, die die Terminlegung der Führungen organisierte. Eine Führerin erklärte den Teilnehmenden zunächst wo sie sich befnden und dass sie so viele Fra-gen stellen können wie sie möchten. Die Kinder wählten sich selbst eine Begleitperson unter den Studierenden, die die Aufnahme mit einem Smartphone vornahm. Gemeinsam gingen sie zuerst in die Skulpturensammlung im Erdgeschoss. Dort bewegten sich die Kinder mit ihren Begleitper-sonen 15 Minuten frei im Raum, um die Exponate zu erkunden. Dabei hielten die Studierenden auch schriftlich fest, welche Objekte besonderes Interesse erzeugten. Nach der freien Zeit zeig-ten die Kinder der Führerin ihre Lieblingsobjekte und besprachen diese in der Gruppe. Fortgesetzt wurde der Versuch in der zweiten Etage wo sich zahlreiche Gemälde befanden. Diese weckten bei den Kindern deutlich weniger Interesse, sodass kaum Fragen gestellt wurden. In den letzten Räumlichkeiten fanden sich Exponate noch lebender Künstler. Dabei begeisterten beson-ders die zeitgenössischen Skulpturen. Insgesamt dauerte diese Führung zwei Stunden. Im Anschluss wählte ein Team bestehend aus Expertinnen der Sprachwissenschaften, einer Be-treuerin für Menschen mit kognitiven Einschränkungen und die Verfasserin dieser Arbeit gemein-sam die sechs Exponate aus, bei denen die meiste Resonanz zu erwarten war. Die festgelegten Ausstellungsstücke waren:

1. Das Drama - Max Klinger (1857-1920)
2. Bertolt Brecht - Fritz Cremer (1906-1993)
3. Ever After - Tony Cragg (1949-)
4. Blick auf Dresden bei Vollmondschein - Johan C. Dahl (1788 - 1857)
5. Bildnis der Tänzerin Anna Pawlowa - Max Slevogt (1868-1932)
6. Neun stehende Scheiben - Gerhard Richter (1932-)

Einige dieser Ausstellungsstücke sind in Abbildung 4.1 zu sehen. Auswahlkriterien waren unter anderem verschiedene Fertigungsmaterialien, unterschiedliche Entstehungszeiten sowie die Re-sonanz der ersten Gruppe.

In den folgenden fünf Führungen wurden ausschließlich die sechs ausgewählten Exponate vor-gestellt. Um eine Vergleichbarkeit und möglichst hohe Qualität dieser Führungen zu erreichen, wurde von der Verfasserin dieser Arbeit ein Studiendesign entworfen.

Studiendesign

Jede teilnehmende Person mit kognitiven Beeinträchtigungen wurde von Studierenden der Tech-nischen Universität Dresden mit einem Mikrofon ausgestattet. Die Anzahl der Menschen mit Lernschwierigkeiten in einer Gruppe sollte idealerweise immer gleich groß sein, um Umgebungs-faktoren wie Ablenkung bei allen Teilnehmenden möglichst konstant zu halten. Aus dem gleichen Grund sollten andere Besucher während der Versuchsdurchführung ausgeschlossen werden. Von jedem Objekt, zu dem Menschen mit kognitiven Einschränkungen Fragen stellen und ihre Gedanken äußern konnten, wurde ein Foto gemacht, um die Daten zu ergänzen. Die gesammel-ten Informationen wurden anonymisiert und lediglich mit den Metadaten Geschlecht, Alter, Bil-dungsgrad, Art und Schwere der Behinderung zum Zwecke der späteren Datenverarbeitung ge-speichert.

Stellten die Personen keine Fragen, konnten sie von ihrer Begleitperson mit gesprächsfördern-den Fragen zum Äußern ihrer Gedanken bewegt werden. Dabei sollte so wenig Beeinflussung wie möglich stattfinden, indem konkrete in eine Richtung führende Fragen vermieden wurden. Die Frage „Ist es dunkel auf dem Bild?“ ist beispielsweise schlecht, da sie eine Entscheidungsfrage ist.

[...]


1 Statistisches Bundesamt. Pressemitteilungen. Webseite. URL: https://www.destatis.de, abgerufen am 25.06.2018

2 Netzwerk Leichte Sprache. Die Regeln für Leichte Sprache. Website. URL: https://www.leichte-sprache.org/, abgerufen am 01.07.2018.

3 IQ Netzwerk Bremen. ‚Einfache Sprache‘? - Servicestelle Einfache Sprache. Website. URL: http://www.pr o-einfache-sprache.de/, abgerufen am 02.07.2018.

4 Bundeszentrale für politische Bildung. Website. URL: http://www.bpb.de/, abgerufen am 24.08.2018.

5 Einfache Sprache Bonn. Website. URL: https://einfachesprachebonn.de/, abgerufen am 06.09.2018.

Details

Seiten
81
Jahr
2018
ISBN (eBook)
9783346219565
ISBN (Buch)
9783346219572
Sprache
Deutsch
Katalognummer
v541082
Institution / Hochschule
Technische Universität Dresden
Note
1,7
Schlagworte
beeinträchtigungen categorization document maximum-entropy-algorithmus menschen profilerstellung sprache
Zurück

Titel: Profilerstellung von Menschen mit kognitiven Beeinträchtigungen anhand ihrer mündlichen Sprache. Document Categorization mit dem Maximum-Entropy-Algorithmus