Lade Inhalt...

Vergleich der COVID-19 Berichterstattung zu Beginn der Pandemie und Anfang Juli 2020 in der ZEIT ONLINE

Operationalisierung einer Sentiment-Analyse zur Untersuchung von Dramatisierungstendenzen

©2020 Hausarbeit 91 Seiten

Zusammenfassung

Ziel dieser Arbeit ist es, die zwei folgenden Hypothesen mittels einer Sentiment-Analyse in Python mit der Bibliothek textblob-de zu operationalisieren und zu prüfen: Die ZEIT ONLINE setzt zu Beginn der Pandemie in Relation zur Textlänge mehr Adjektive in der Berichterstattung über COVID-19 ein als in der Berichterstattung Anfang Juli. Die ZEIT ONLINE setzt zu Beginn der Pandemie in Relation zur Textlänge mehr wertende, negativ polare Adjektive in der Berichterstattung über COVID-19 ein als in der Berichterstattung Anfang Juli.

Für den Vergleich der beiden Zeiträume wurden zwei Subkorpora erstellt. Das erste Subkorpus enthält Artikel vom 11. März 2020, dem Tag, an dem die Weltgesundheitsorganisation den Ausbruch von COVID-19 zur Pandemie erklärt hat. Das zweite Subkorpus enthält Artikel des 1. Juli 2020, einem Zeitpunkt, zu dem die erste COVID-19-Welle in Deutschland laut dem Robert Koch-Institut abgeflacht ist. Um die Effektstärke einschätzen zu können, wurden die Ergebnisse mit einem Referenzkorpus abgeglichen.

Die Sentiment-Analyse ist eine Aufgabe des Natural Language Processing und dient der automatisierten Auswertung von Texten mit dem Ziel, Meinungen und Stimmungen von Menschen gegenüber Entitäten als positiv, neutral oder negativ zu analysieren. Meinungen sind laut Liu sowohl für Einzelpersonen als auch für Unternehmen von großer Relevanz, als Forschungsgegenstand aber erst seit 2000 in den Blickpunkt geraten. Anwendung findet die Sentiment-Analyse hauptsächlich im Unternehmenskontext, zum Beispiel um Verbrauchermeinungen über Produkte aus nutzergenerierten Inhalten zu extrahieren.

Leseprobe

Inhaltsverzeichnis

Abkürzungsverzeichnis

Tabellenverzeichnis

1. Einleitung

2. Methodische und theoretische Grundlagen
2.1 Untersuchungskorpus
2.2 Objektivität: Bedeutung für den Journalismus und Operationalisierung
2.3 Erläuterung des Python-Skripts und Beschreibung der Methoden
2.3.1 Vorverarbeitung der Korpora mit der Python-Bibliothek spaCy
2.3.2 Sentiment-Analyse mit der Python-Bibliothek textblob-de

3. Durchführung der Sentiment-Analyse
3.1 Auswertung und Interpretation der Ergebnisse
3.2 Kritische Reflexion

4. Fazit

Literaturverzeichnis

Anhang
Programmcode
Subkorpus 1
Subkorpus 2
Referenzkorpus

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Tabellenverzeichnis

Tabelle 1: Ergebnisse der Sentiment-Analyse in Python (Eigene Darstellung)

1. Einleitung

Die Corona-Pandemie bestimmt seit Anfang des Jahres 2020 das Leben der Menschen. Das stetige Informieren über aktuelle Zahlen und Entwicklungen ist fester Bestandteil des Alltages geworden. Die Presse spielt eine wichtige Rolle zur Meinungsbildung und sollte dem Leser nicht das Denken abnehmen, sondern ihm ermöglichen, sich selbst ein Urteil zu bilden.1 Um dies zu gewährleisten, muss die Berichterstattung objektiv und wertfrei sein.2 Es ist zu untersuchen, ob die Medien dies, insbesondere zu Beginn der Pandemie, geleistet haben. Außerdem stellt sich die Frage, welche Bedeutung die Objektivität im Journalismus hat und wie sie sich operationalisieren lässt. Ausgehend davon beschäftigt sich die vorliegende Arbeit mit folgender zentraler Fragestellung: Berichtet die ZEIT ONLINE zu Beginn der Pandemie durch den vermehrten Einsatz wertender, negativ konnotierter Adjektive stärker dramatisierend und nach längerem Andauern der Pandemie stärker objektivierend über COVID-19?

Ziel der vorliegenden Arbeit ist es, die zwei folgenden Hypothesen mittels einer Sentiment-Analyse in Python zu operationalisieren und zu prüfen:

1. Die ZEIT ONLINE setzt zu Beginn der Pandemie in Relation zur Textlänge mehr Adjektive in der Berichterstattung über COVID-19 ein als in der Berichterstattung Anfang Juli.
2. Die ZEIT ONLINE setzt zu Beginn der Pandemie in Relation zur Textlänge mehr wertende, negativ polare Adjektive in der Berichterstattung über COVID-19 ein als in der Berichterstattung Anfang Juli.

Der Schwerpunkt liegt dabei nicht auf der statistischen Auswertung der Daten. Im Mittelpunkt steht die Entwicklung des Untersuchungsdesigns aus der Fragestellung heraus sowie der kritischen Reflexion der Erkenntnisreichweite dieser Modellierung.

Für den Vergleich der beiden Zeiträume wurden zwei Subkorpora erstellt. Das erste Subkorpus (K1) enthält zehn Artikel vom 11. März 2020, dem Tag, an dem die Weltgesundheitsorganisation den Ausbruch von COVID-19 zur Pandemie erklärt hat.3 Das zweite Subkorpus (K2) enthält zehn Artikel des 1. Juli 2020, einem Zeitpunkt, zu dem die erste COVID-19-Welle in Deutschland laut dem Robert Koch-Institut (RKI) abgeflacht ist.4 Ein späterer Zeitpunkt wurde nicht gewählt, um weitere Aspekte, wie die bereits Anfang Juli vom RKI angedeutete Sorge um eine zweite Welle, auszuschließen.5 Die Kriterien der Korpuswahl werden in Kapitel 2.1 erläutert.

Aufgrund der kleinen Korpusgröße wurde auf das Durchführen eines Signifikanztestes verzichtet. Ein direkter Mittelwertvergleich wurde von der Autorin als ausreichend erachtet, um Aussagen über Tendenzen treffen zu können. Um die Effektstärke einschätzen zu können, wurden die Ergebnisse mit einem Referenzkorpus (RK), bestehend aus zehn randomisierten ZEIT ONLINE Artikeln zu anderen Themen, abgeglichen.

Die Sentiment-Analyse ist eine Aufgabe des Natural Language Processing (NLP), genau wie die zur Vorverarbeitung der Korpora verwendeten Methoden Tokenisierung, Lemmatisierung und Part-of-Speech (POS) Tagging.6 Das NLP befasst sich mit der Entwicklung computergestützter Techniken zur Verarbeitung natürlicher Sprache und hat sich in den letzten Jahren von einem Nebenzweig der Künstlichen Intelligenz und Linguistik zu einer aufstrebenden wissenschaftlichen Disziplin entwickelt.7 Die Sentiment-Analyse ist seit Anfang 2000 eines der aktivsten Forschungsgebiete in diesem Bereich.8 Sie dient der automatisierten Auswertung von Texten mit dem Ziel, Meinungen und Stimmungen von Menschen gegenüber Entitäten als positiv, neutral oder negativ zu analysieren.9 Unter dem weit gefassten Begriff Meinung werden in dieser Arbeit Meinungsäußerungen verstanden, die die positiven oder negativen Sentimente, d.h. Stimmungen, von Menschen beschreiben.10 Meinungen sind laut Liu sowohl für Einzelpersonen als auch für Unternehmen von großer Relevanz, als Forschungsgegenstand aber erst seit 2000 in den Blickpunkt geraten.11 Grundlegend für diese Entwicklung sind die leicht zugänglichen, meinungsbildenden Texte im World Wide Web (WWW).12 Wurden früher zum Beispiel bei Kaufentscheidungen Freunde befragt, bietet das Web heute durch nutzergenerierte Inhalte unzählige Informationsquellen.13 Unternehmen können Kundenverhalten aus diesen Inhalten extrahieren und müssen nicht selbst aufwändige Befragungen durchführen.14 Meinungsquellen aufzuspüren, die Inhalte zu extrahieren, zusammenzufassen und in brauchbare Formen zu gliedern, ist eine komplexe und zeitaufwändige Aufgabe.15 Automatisierte Systeme werden benötigt – aus diesem Bedarf ist die Sentiment-Analyse erwachsen.16

Anwendung findet die Sentiment-Analyse hauptsächlich im Unternehmenskontext, zum Beispiel um Verbrauchermeinungen über Produkte aus nutzergenerierten Inhalten zu extrahieren.17 Auch in anderen Anwendungsszenarien wird die Sentiment-Analyse vorwiegend genutzt, um meinungsbildende Texte auf ihre Polarität zu untersuchen.18 Im Gegensatz zu diesen Anwendungsszenarien hat die Autorin die Sentiment-Analyse in der vorliegenden Arbeit als geeignet erachtet, um aus tatsachenbetonten, journalistischen Texten Meinungen und Stimmungen herauszufiltern. Denn die Objektivitätsnorm ist ein wichtiges Qualitätskriterium in der tatsachenorientierten Berichterstattung,19 lässt sich bislang aber nur schwer messen.

Operationalisiert wurde die Sentiment-Analyse mit der Python-Bibliothek textblob-de. Zum Schreiben des Programmes wurde Python in der Version 3.8.3rc1 mit der integrierten Entwicklungsumgebung Thonny verwendet. Zuerst wurden die Korpora mit der Python-Bibliothek spaCy vorverarbeitet, wie in 2.3.1 beschrieben. Im Rahmen der Sentiment-Analyse wurden die Adjektive anhand ihrer Polaritätswerte in drei Gruppen eingeteilt: Stark polar positive, negative und neutrale Adjektive. Anschließend wurde ihre Anzahl pro Gruppe ermittelt und in Relation zur Korpusgröße gesetzt. Die Ergebnisse wurden in 3.1 ausgewertet und in 3.2 ihre Reichweite kritisch diskutiert.

Die Literaturverwaltung wurde mit dem Programm Zotero vorgenommen. Zitiert wurde in der deutschen Zitierweise mit dem Zitierstil Chicago Manual of Style. Aus Gründen der besseren Lesbarkeit verwendet diese Arbeit sprachlich das generische Maskulinum und impliziert gleichermaßen die weibliche Form.

2. Methodische und theoretische Grundlagen

2.1 Untersuchungskorpus

Das Untersuchungskorpus besteht aus zwei Subkorpora, die jeweils zehn Artikel aus der ZEIT ONLINE zu den in der Einleitung beschriebenen Zeitpunkten enthalten. Die Korpusgröße wurde auf zehn Artikel limitiert, um im Rahmen der kritischen Reflexion einen Vergleich zwischen der Sentiment-Analyse und eigenen Lese-Analysen zu ermöglichen. K1 hat eine Länge von 8314 Tokens und K2 von 5410 Tokens. Die unterschiedliche Länge ist unbedeutend, da mit relativen Häufigkeiten gerechnet wurde.

Für die Implementierung in Python wurden die Artikel in einer TXT Datei pro Korpus zusammengefasst. Bild- und Videounterschriften wurden vernachlässigt.

Die Auswahl der Artikel erfolgte anhand folgender Kriterien:

1. Inhalt der Artikel

Es wurden nur Artikel gewählt, die sich inhaltlich mit COVID-19 befassen. Als solche wurden diejenigen Artikel definiert, die in der Themenrubrik Coronavirus: Alles zu Sars-CoV-2 der ZEIT ONLINE enthalten sind.

2. Länge der Artikel

Um Vergleichbarkeit zu gewährleisten wurden nur Artikel mit einer maximalen Länge von zwei Seiten gewählt.

3. Journalistische Darstellungsform

Es wurden nur die tatsachenbetonten Darstellungsformen Meldung, Nachricht und Bericht aufgenommen.20 Die Reportage und weitere tatsachenbetonte Darstellungsformen wurden nicht aufgenommen, da sie von Schneider und Raue nicht als rein informierend eingeordnet werden.21 Meinungsbetonte Darstellungsformen, wie Kommentare, sind für die Analyse nicht geeignet, da sie bewerten sollen und nicht den Anspruch erheben, objektiv zu sein.22

4. Verhältnis von Text, Bild und Video

Artikel mit einem hohen Anteil an Grafiken und Schaubildern, die zum Verständnis der Artikel von zentraler Bedeutung sind, wurden nicht aufgenommen, da sich diese nicht in TXT Dateien einbetten lassen. Aus demselben Grund wurden Artikel, die aus einem Videobeitrag mit einem kurzen Text bestehen, nicht berücksichtigt.

Zusätzlich zu den beiden Subkorpora wurde ein Referenzkorpus erstellt, das zehn randomisierte Artikel aus der ZEIT ONLINE 2019 enthält. Die Randomisierung wurde vorgenommen, indem im Archiv der ZEIT ONLINE jede fünfte Ausgabe aus dem Jahr 2019 sondiert und daraus jeweils im Wechsel ein Artikel aus den Kategorien Politik, Wirtschaft, Wissen, Kultur und Gesellschaft gewählt wurde, der den oben genannten Kriterien entspricht. Die Auswahl wurde auf diese Kategorien begrenzt, da die meisten der COVID-19 Artikel sich in diese einordnen lassen.

2.2 Objektivität: Bedeutung für den Journalismus und Operationalisierung

Die Objektivitätsnorm ist als eines der wichtigsten Qualitätskriterien des Journalismus in verschiedenen Pressegesetzen verankert.23 Sie ist ein stark umstrittenes Kriterium.24 Aus idealistischer Sicht soll die Berichterstattung objektiv und faktenorientiert sein.25 Objektivität ist im Journalismus jedoch nie erreichbar, denn „jede Beobachtung eines Ereignisses und jede Berichterstattung darüber ist zwangsläufig subjektiv, selektiv und perspektivenabhängig.“26 Neuberger und Kapern resultieren aus dieser Problematik, dass Objektivität als eine Zielmarke verstanden werden soll, der es sich anzunähern gilt.27 La Roche vertritt ebenfalls die Ansicht, dass Objektivität im Journalismus nicht erreichbar ist und diskutiert deshalb was ein Journalist leisten kann und muss, und was nicht.28 Dabei positioniert La Roche sich klar gegen das Format des Kommentars.29 Meinungen und Kommentare fließen laut ihm meist unbeabsichtigt in Nachrichten ein, deshalb sollte der Wortwahl besondere Beachtung geschenkt werden.30 Ein plötzlich auftretender Streik kann laut La Roche mit zwei Begriffen treffend beschrieben werden:31 „wilder Streik und spontane Arbeitsniederlegung.“32 Der erste Begriff wird beim Leser wenig Sympathie erzeugen, wohingegen der zweite fortschrittlich und dynamisch wirkt.33

Die vorliegende Arbeit legt den Fokus auf die negativen, wertenden Wörter, die im Gegensatz zu den positiven dramatisierender wirken. Dramatisieren bedeutet, „etwas aufregender, schlimmer oder bedeutungsvoller darstellen, als es eigentlich ist.“34 Auch positiv polare Wörter können dramatisierend wirken, indem sie Ereignisse zwar nicht schlimmer, aber aufregender oder bedeutungsvoller darstellen. Zum Beispiel in dem Satz Die Öffnung der Freibäder ist die schönste Nachricht des ganzen Sommers. Die positiv polaren, dramatisierenden Adjektive wurden in dieser Arbeit nicht ausgewertet, da sie sich unabhängig vom Kontext nicht einordnen lassen.

Es stellt sich die Frage, weshalb Journalisten dramatisierende Wörter verwenden, obwohl diese offensichtlich nicht mit der Objektivitätsnorm vereinbar sind. Neuberger und Kapern erklären dies anhand eines Beispiels aus der Berichterstattung der dpa: „Der Begriff ‚Streit‘ hat einen negativen Beiklang […]. Es ist ein für Journalisten überaus attraktives Wort, das den beschriebenen Sachverhalt mit einer Spur Dramatik würzt, ein möglicherweise ansonsten langweiliges Ereignis ein wenig hochjazzt.“35

Operationalisiert wurden die Dramatisierungen in der vorliegenden Arbeit, indem die Polaritätswerte der Adjektive mit einer Sentiment-Analyse ermittelt wurden. Polaritätswerte geben an, ob eine textuelle Einheit eine positive, negative oder neutrale Stimmung zum Ausdruck bringt.36 Sie können Werte im Bereich [-1, 1] annehmen, wobei -1 eine besonders negative und +1 eine besonders positive Stimmung ausdrückt. Anhand der Polaritätswerte wurden stark polar positive und negative Adjektive rausgefiltert. Als Schwellenwert für stark polar positive Wörter wurde größer / gleich 0.7 und für besonders stark polar negative Wörter kleiner / gleich -0.7 festgelegt. Die Analyse wurde in der vorliegenden Arbeit auf Adjektive beschränkt. Substantive und Verben können ebenfalls Stimmungen vermitteln, laut Liu sind die meisten Sentiment Wörter jedoch Adjektive.37

Für die Operationalisierung der Fragestellung legt die Autorin drei Annahmen zugrunde:

1. Stark polar negative Adjektive vermitteln beim Leser eine negative Stimmung,38 wirken dramatisierend und stehen einer objektiven Berichterstattung entgegen.
2. Stark polar positive Adjektive vermitteln beim Leser eine positive Stimmung.39 Sie wirken in Einzelfällen ebenfalls dramatisierend, stehen einer objektiven Berichterstattung aber meist entgegen, da sie bagatellisierend wirken, d.h. die Geschehnisse verharmlosen.40
3. Neutrale oder schwach polare Adjektive lösen beim Leser keine Stimmung aus41 und stehen einer objektiven Berichterstattung nicht entgegen.
4. Eine hohe Frequenz an Adjektiven im Verhältnis zur Korpuslänge lässt auf Dramatisierungstendenzen schließen. Laut La Roche sollten Adjektive in der objektiven Berichterstattung grundsätzlich mit Bedacht benutzt werden, da sie oft unbeabsichtigt Wertungen einbringen.42

Anhand der vier genannten Annahmen wurde die Fragestellung der Arbeit operationalisiert und in Python implementiert.

2.3 Erläuterung des Python-Skripts und Beschreibung der Methoden

2.3.1 Vorverarbeitung der Korpora mit der Python-Bibliothek spacy

Die Vorverarbeitung von Texten ist wesentlicher Bestandteil jedes NLP-Systems, denn die hierbei identifizierten Zeichen und Wörter bilden die grundlegenden Einheiten für alle weiteren Verarbeitungsstufen.43 In dieser Arbeit wurde die Vorverarbeitung mit der Python-Bibliothek spaCy durchgeführt. Diese Bibliothek enthält verschiedene linguistische Algorithmen zur Verarbeitung natürlichsprachlicher Texte.44 spaCy wurde gewählt, da sie die führende Open-Source Bibliothek für NLP in Python ist45 und sich die drei für diese Arbeit relevanten, im Folgenden definierten, NLP-Aufgaben in spaCy einfach umsetzen lassen.

Tokenisieren bezeichnet das Zerlegen eines Satzes in seine Tokens, d.h. in Wörter, Zahlen oder Satzzeichen.46 Bei der Lemmatisierung werden die Tokens in ihre Grundform umgewandelt.47 POS-Tagging ist „die Zuweisung von Wortartenlabels, die man als Part-of-Speech-Tags […] bezeichnet, zu einzelnen Items im Korpus.“48 Grundlage für die Zuweisung sind Tagsets, die sich in der Anzahl der Tags und der Strukturierung unterscheiden.49 Der deutsche POS-Tagger in spaCy verwendet das Annotationsschema TIGER Treebank,50 das mit geringfügigen Abweichungen das Stuttgart - Tübingen - Tagset (STTS) verwendet.51 Das STTS gliedert die Wortformen des Deutschen in elf Hauptwortformen und fügt diesen Unterkategorien hinzu.52

Zu Beginn der Implementierung wurde spaCy importiert, die drei Korpora eingelesen und mit einer For-Schleife über sie iteriert. Diese Schritte sind im Code in den Kommentaren zu a.1 sowie b.1 bis b.3 ausführlich erläutert.

Als erste Operation wurden die Korpora tokenisiert (c.2). Die Tokenisierung ist typischerweise die erste Aktion jeder NLP-Anwendung, da alle anderen Operationen voraussetzen, dass bereits Tokens vorhanden sind.53 Anschließend wurde die Anzahl der Tokens pro Korpus berechnet. Diese Zahl wird zur Berechnung der relativen Häufigkeiten in der Sentiment-Analyse benötigt.

Als zweite Operation wurden die Adjektive mit dem POS-Tag ADJ herausgefiltert und ihre Lemmata in einer Liste pro Korpus ausgegeben (c.3). Das POS-Tagging eignet sich für diese Aufgabe, da in der Sentiment-Analyse nur Adjektive analysiert werden und diese so effizient herausgefiltert werden können. Die Lemmatisierung ist notwendig, damit textblob-de bei der Sentiment-Analyse auch die Worte erkennt, die nicht in ihrer Grundform sind.

Anschließend wurde die Anzahl der Adjektive pro Korpus ermittelt und deren Anteil an der Gesamtanzahl der Tokens pro Korpus berechnet (c.4). Diese Zahl wird benötigt, um Aussagen über die Gesamtfrequenz der Adjektive machen zu können. Nach erfolgreicher Vorverarbeitung der Daten kann die Sentiment-Analyse durchgeführt werden.

2.3.2 Sentiment-Analyse mit der Python-Bibliothek textblob-de

Die Sentiment-Analyse bezeichnet die computergestützte Untersuchung von Stimmungen, die in Texten zum Ausdruck kommen.54 Grundlage dafür bilden Sentiment Lexika, die aus Sentiment Wörtern bestehen, d.h. Wörter, die häufig verwendet werden, um positive oder negative Gefühle auszudrücken.55 Die zu analysierenden Daten werden mit den Sentiment Lexika abgeglichen und auf das Vorkommen von Sentiment Wörtern untersucht.56 Die Analyse kann auf verschiedenen Ebenen durchgeführt werden, im akademischen Bereich wird sie meist auf Dokumentebene, Satzebene oder Ebene des Aspekts durchgeführt.57

Die Klassifikation auf Dokumentebene verfolgt das Ziel, die allgemeine Stimmung eines Textes als positiv, negativ oder neutral zu klassifizieren.58 Es wird davon ausgegangen, dass ein Dokument nur Meinungen zu einer Entität zum Ausdruck bringt.59 Die Autorin erachtet diesen Ansatz für die vorliegende Arbeit als ungeeignet, da Zeitungsartikel sich selten auf einzelne Entitäten beziehen.

Auf Satzebene wird die Stimmung jedes Satzes als positiv, negativ oder neutral klassifiziert.60 Mit dieser Art der Analyse können Dokumente differenzierter untersucht werden. Der Ansatz ist zur Analyse von Zeitungsartikeln geeignet, wird aber in Bezug auf die Fragestellung nicht als zielführend erachtetet, da er nicht die dramatisierenden Adjektive als Output liefert.

Bei der Sentiment-Analyse auf Ebene des Aspekts werden zunächst die Ziele ermittelt, zu denen Meinungen in einem Satz geäußert wurden und anschließend bestimmt, ob diese Meinungen positiv, negativ oder neutral sind.61 Dieser Arbeitsansatz ermöglicht eine differenziertere Analyse als die vorherigen, ist aber in der Durchführung komplexer und würde den Rahmen dieser Hausarbeit überschreiten.

Die Sentiment-Analyse wurde in der vorliegenden Ausarbeitung auf Wortebene durchgeführt. Der Ansatz wird in der Praxis selten eingesetzt und ist laut Liu meist ungeeignet.62 Bei dieser Fragestellung eignet er sich jedoch, weil er als einziger die dramatisierenden Adjektive als Output liefert.

Neben den genannten Ebenen umfasst die Sentiment-Analyse zwei weitere zentrale Aspekte. Zum einen die Subjectivity Analysis, bei der einer textuellen Einheit ein Subjektivitätswert zugewiesen wird, der angibt, ob die Einheit einen subjektiven oder objektiven Charakter hat.63 Zum anderen die Polarity Analysis, bei der einer textuellen Einheit ein Polaritätswert gegeben wird, der beschreibt, ob eine positive, negative oder neutrale Stimmung zum Ausdruck gebracht wird.64 In dieser Arbeit wurden die Subjektivitätswerte nicht ausgewertet, obwohl Objektivierungen ein zentraler Aspekt der Fragestellung sind. Grund hierfür ist, dass die vorliegende Arbeit Wörter ermitteln soll, die beim Leser dramatisierend wirken, indem sie negative Stimmungen vermitteln. Stimmungen können laut Liu aber auch in objektiven Sätzen impliziert werden.65 Im Gegensatz dazu gibt es auch subjektive Sätze, die keine Stimmungen vermitteln.66

Für die Implementierung der Sentiment-Analyse wurde die deutsche Erweiterung textblob-de der englischsprachigen NLP-Bibliothek TextBlob gewählt.67 Viele Funktionen in textblob-de befinden sich im Entwicklungsstadium. Die Sentiment-Analyse liefert aktuell noch keine Subjektivitäts-Werte und das verwendete Polaritätslexikon enthält nur unflektierte Formen.68 Die Bibliothek wurde gewählt, da sie eine einfach Programmierschnittstelle für die Sentiment-Analyse bietet.69 Die fehlenden Subjektivitätswerte sind für diese Arbeit nicht relevant. Die unflektierten Formen stellen kein Problem dar, da die Adjektive vorab lemmatisiert wurden.

Zu Beginn der Implementierung wurde textblob-de importiert (a.3). Als Input für die Sentiment-Analyse wurde in c.3 bereits eine Liste mit den Lemmata aller Adjektive erstellt. Diese Liste wurde in einen String umgewandelt, da textblob-de nicht mit Listen als Input arbeiten kann (d.1). Dabei wurden die Adjektive mit einem Punkt voneinander getrennt und so Sätze erzeugt. Grund für diesen Workaround ist, dass es in textblob-de keine Möglichkeit gibt, Sentiment-Analysen auf Wortebene durchzuführen. Es wird davon abgeraten, diese Methode in anderen Kontexten zu verwenden, da sie zu ungenauen Ergebnissen führen könnte.

Zur Berechnung der Anzahl stark polar positiver, negativer und neutraler Adjektive wurden drei Listen mit Tupeln, bestehend aus Adjektiven und dazugehörigen Polaritätswerten, erstellt. Die Inhalte dieser Listen wurden mit einer if-Bedingung jeweils auf die in 2.2 definierten Schwellenwert-Bereiche der Polaritätswerte begrenzt. Daraus entsteht jeweils eine Liste mit allen stark polar positiven, negativen und neutralen Adjektiven. (d.2). Aus den drei Listen wurde die Anzahl der positiven, neutralen und negativen Adjektive ermittelt, indem die Listeneinträge gezählt wurden (d.3). Abschließend wurde ihr Anteil an der Gesamtanzahl der Tokens pro Korpus in Prozent berechnet (d.4).

3. Durchführung der Sentiment-Analyse

3.1 Auswertung und Interpretation der Ergebnisse

Quantitative Analyse

Tabelle 1: Ergebnisse der Sentiment-Analyse in Python (Eigene Darstellung)

Abbildung in dieser Leseprobe nicht enthalten

Die Verteilung der positiven, negativen und neutralen Adjektive ist in K1 und K2 ähnlich. Der Anteil neutraler Adjektive überwiegt mit 6.0981 Prozent in K1 und 4.9538 Prozent in K2 in beiden Subkorpora deutlich. Der Anteil positiver Adjektive fällt mit 1.2509 Prozent in K1 und 1.2200 Prozent in K2 in beiden Korpora geringer aus. Negative Adjektive gibt es mit 0.4089 Prozent in K1 und 0.4067 Prozent in K2 in beiden Subkorpora am wenigsten. Ein Vergleich der Ergebnisse mit dem RK zeigt, dass auch hier die Verteilung der positiven, negativen und neutralen Adjektive ähnlich ist. Der Anteil neutraler Adjektive ist im RK mit 5.9082 Prozent am höchsten, der Anteil positiver Adjektive ist mit 1.0579 Prozent geringer und der Anteil negativer Adjektive mit 0.5788 Prozent am geringsten. Dieser Vergleich zeigt auf, dass die Artikel zu COVID-19 sich in der Verteilung der positiven, neutralen und negativen Adjektive nicht von der Verteilung in der Berichterstattung zu anderen Themen unterscheiden.

Der für diese Arbeit zentrale Anteil negativer Adjektive ist in K1 mit 0.4089 Prozent um 0.0022 Prozent höher als in K2 mit 0.4067 Prozent. Im RK ist der Anteil negativer Adjektive mit 0.5788 Prozent um mehr als 0.1 Prozent höher als in den Subkorpora. Aufgrund des mathematisch zu vernachlässigenden Unterschiedes der Anteile negativer Adjektive zwischen K1 und K2 und dem höheren Anteil negativer Adjektive im RK ist anzunehmen, dass in der Berichterstattung über COVID-19 nicht durch den häufigen Einsatz negativ polarer Adjektive Dramatisierungen geschaffen wurden. Die zweite Hypothese, dass die ZEIT ONLINE zu Beginn der Pandemie in Relation zur Textlänge mehr wertende, negativ polare Adjektive in der Berichterstattung über COVID-19 einsetzt als in der Berichterstattung Anfang Juli, wurde nicht bestätigt. Die Nullhypothese hat sich bestätigt. Es gibt keinen, bzw. einen mathematisch vernachlässigbaren, Unterschied zwischen den zwei Subkorpora.

[...]


1 Vgl. Walther Von La Roche, Klaus Meier, und Gabriele Hooffacker, La Roches Einführung in den praktischen Journalismus: Mit genauer Beschreibung aller Ausbildungswege Deutschland · Österreich · Schweiz, 20. Aufl., Journalistische Praxis (VS Verlag für Sozialwissenschaften, 2017). S. 102.

2 Vgl. Von La Roche, Meier, und Hooffacker. S. 102.

3 Vgl. „WHO erklärt COVID-19-Ausbruch zur Pandemie“, Weltgesundheitsorganisation, 12. März 2020, https://www.euro.who.int/de/health-topics/health-emergencies/coronavirus-covid-19/news/news/2020/3/who-announces-covid-19-outbreak-a-pandemic.

4 Vgl. „Antworten auf häufig gestellte Fragen zum Coronavirus SARS-CoV-2 / Krankheit COVID-19: Wird es weitere COVID-19-Wellen in Deutschland geben?“, Robert Koch-Institut, 3. Juli 2020, https://www.rki.de/SharedDocs/FAQ/NCOV2019/gesamt.html.

5 Vgl. „Coronavirus SARS-CoV-2“.

6 Vgl. Bing Liu, „Sentiment Analysis and Opinion Mining“ (Morgan & Claypool, 2012). S. 5.

7 Vgl. Cheng Xiang Zhai und Sean Massung, Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining (Association for Computing Machinery and Morgan & Claypool, 2016), S. 39.; Alexander Clark, Hrsg., The Handbook of Computational Linguistics and Natural Language Processing (Chichester: Wiley-Blackwell, 2010). S. 1.

8 Vgl. Bing Liu, „Sentiment Analysis and Opinion Mining“ (Morgan & Claypool, 2012). S. 5.

9 Vgl. Liu. S. 7.

10 Vgl. Bing Liu, „Sentiment Analysis and Subjectivity“, in Handbook of Natural Language Processing, hg. von Nitin Indurkhya und David D. Palmer, 2. ed. (Boca Raton, FL: Taylor & Francis Ltd, 2010), 627–66. S. 627.

11 Vgl. Bing Liu, „Sentiment Analysis and Opinion Mining“ (Morgan & Claypool, 2012). S. 5.; Vgl. Liu, „Sentiment Analysis and Subjectivity“. S. 627.

12 Vgl. Liu, „Sentiment Analysis and Subjectivity“. S. 627.

13 Vgl. Liu. S. 627f.

14 Vgl. Liu. S. 628.

15 Vgl. Liu. S. 628.

16 Vgl. Liu. S. 628.

17 Vgl. Liu, Sentiment Analysis and Opinion Mining, 20. S. 8.

18 Vgl. Liu, 20. S. 8.

19 Vgl. Christoph Neuberger und Peter Kapern, Grundlagen des Journalismus (Wiesbaden: Springer VS, 2013). S. 146f.

20 Vgl. Claudia Mast, Hrsg., ABC des Journalismus: ein Handbuch, 11., überarb. Aufl. (Konstanz: UVK-Verl-Ges, 2008). S. 259.

21 Vgl. Wolf Schneider und Paul-Josef Raue, Das neue Handbuch des Journalismus, Vollst. überarb. und erw. Neuausg. (Reinbek bei Hamburg: Rowohlt-Taschenbuch-Verl, 2003). S. 108.

22 Vgl. Mast, ABC des Journalismus. S. 306.

23 Vgl. Neuberger und Kapern, Grundlagen des Journalismus. S. 146f.

24 Vgl. Vgl. Neuberger und Kapern. S. 146.

25 Vgl. Mast, ABC des Journalismus. S. 268.; Vgl. Neuberger und Kapern, Grundlagen des Journalismus. S. 146.

26 Neuberger und Kapern, Grundlagen des Journalismus. S. 159.

27 Vgl. Vgl. Neuberger und Kapern. S. 159.

28 Vgl. Von La Roche, Meier, und Hooffacker, La Roches Einführung in den Journalismus. S 102.

29 Vgl. Von La Roche, Meier, und Hooffacker. S. 104.

30 Vgl. Von La Roche, Meier, und Hooffacker. S. 104, 106.

31 Vgl. Von La Roche, Meier, und Hooffacker. S. 105.

32 Von La Roche, Meier, und Hooffacker. S. 105f.

33 Vgl. Von La Roche, Meier, und Hooffacker. S. 106.

34 Dudenredaktion, „dramatisieren“, in Duden online, o.J., https://www.duden.de/rechtschreibung/dramatisieren.

35 Neuberger und Kapern, Grundlagen des Journalismus. S. 152f.

36 Vgl. Albin Zehe u. a., „Towards Sentiment Analysis on German Literature“, in KI 2017: Advances in Artificial Intelligence, hg. von Gabriele Kern-Isberner, Johannes Fürnkranz, und Matthias Thimm, Lecture Notes in Computer Science (Cham: Springer International Publishing, 2017), 387–94. S. 388.

37 Vgl. Liu, Sentiment Analysis and Opinion Mining. S. 32.

38 Vgl. Zehe u. a., „Towards Sentiment Analysis on German Literature“. S. 388.

39 Vgl. Zehe u. a. S. 388.

40 Vgl. Dudenredaktion, „bagatellisieren“ (Duden online, o.J.), https://www.duden.de/rechtschreibung/bagatellisieren.

41 Vgl. Zehe u. a., „Towards Sentiment Analysis on German Literature“. S. 388.

42 Vgl. Von La Roche, Meier, und Hooffacker, La Roches Einführung in den Journalismus. S. 107.

43 Vgl. David D. Palmer, „Text Preprocessing“, in Handbook of Natural Language Processing, hg. von Nitin Indurkhya und Fred J. Damerau, 2. ed. (Boca Raton, Fla. [u.a.]: CRC/ Taylor & Francis, 2010), 9–30. S. 9.

44 Vgl. Yuli Vasiliev, Natural Language Processing with Python and SpaCy: A Practical Introduction (No Starch Press, 2020). S. 20.

45 Vgl. Vasiliev. S. 27.

46 Vgl. Vasiliev, Natural Language Processing with Python and SpaCy 2020. S. 52.

47 Vgl. Vasiliev. S. 52.

48 Swantje Westpfahl, POS-Tagging für Transkripte gesprochener Sprache: Entwicklung einer automatisierten Wortarten-Annotation am Beispiel des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) (Tübingen: Narr Francke Attempto, 2020). S. 13.

49 Vgl. Westpfahl. S. 13.

50 Vgl. „Annotation Specifications. Schemes Used for Labels, Tags and Training Data.“, spaCy API Documentation, zugegriffen 19. August 2020, https://spacy.io/api/annotation.

51 Vgl. George Smith, „A Brief Introduction to the TIGER Treebank, Version 1“ (Universität Potsdam, 2003). S. 2.

52 Vgl. Smith. S. 2.

53 Vgl. Vasiliev, Natural Language Processing with Python and SpaCy. S. 52.

54 Vgl. Liu, „Sentiment Analysis and Subjectivity“. S. 629.

55 Vgl. Liu, Sentiment Analysis and Opinion Mining. S. 12.

56 Vgl. Liu, „Sentiment Analysis and Subjectivity“. S. 90.

57 Vgl. Liu, Sentiment Analysis and Opinion Mining. S. 10.

58 Vgl. Liu, „Sentiment Analysis and Subjectivity“. S. 628.

59 Vgl. Liu, Sentiment Analysis and Opinion Mining. S. 11.

60 Vgl. Liu, „Sentiment Analysis and Subjectivity“. S. 628.; Liu, Sentiment Analysis and Opinion Mining. S. 11.

61 Vgl. Liu, „Sentiment Analysis and Subjectivity“. S. 628.; Liu, Sentiment Analysis and Opinion Mining. S. 11.

62 Vgl. Liu, Sentiment Analysis and Opinion Mining. S. 12.

63 Vgl. Liu, „Sentiment Analysis and Subjectivity“. S. 628.

64 Vgl. Zehe u. a., „Towards Sentiment Analysis on German Literature“. S. 388.

65 Vgl. Liu, Sentiment Analysis and Opinion Mining. S. 11, 27.

66 Vgl. Liu. S. 11, 27.

67 Vgl. Markus Killer, „Textblob-de Documentation, Release 0.4.4a1“, 2019, https://readthedocs.org/projects/textblob-de/downloads/pdf/latest/. S. 1.

68 Vgl. Killer. S. 5.

69 Vgl. Killer. S. 1.

Details

Seiten
Jahr
2020
ISBN (eBook)
9783346346834
ISBN (Paperback)
9783346346841
Sprache
Deutsch
Institution / Hochschule
Universität Trier
Erscheinungsdatum
2021 (Februar)
Note
1,0
Schlagworte
Sentiment-Analyse Sentiment Analysis Sentiment COVID-19 Corona Corona-Berichterstattung Programmieren Python Natural Language Processing NLP textblob-de spaCy Korpusanalyse ZEIT ONLINE Datenerschließung Dramatisierungen Objektivität Journalismus Computerlinguistik Digital Humanities
Zurück

Titel: Vergleich der COVID-19 Berichterstattung zu Beginn der Pandemie und Anfang Juli 2020 in der ZEIT ONLINE