Abhängigkeit vom Alter zur Sterblichkeit durch COVID-19? Statistische Datenanalyse der bundesweiten Todesfälle
Zusammenfassung
Die Lungenkrankheit COVID-19, ausgelöst durch das Virus SARS-CoV-2 der Familie der Coronaviren, stellt im Jahre 2020 die gesamte Welt auf den Kopf. Der neuartige Erreger verursacht Krankheitssymptome vergleichbar einer Lungenentzündung und kann einen gefährlichen, unter Umständen sogar tödlichen Krankheitsverlauf hervorrufen. Das Virus wird überwiegend über die sogenannte Tröpfcheninfektion übertragen und verbreitet sich aufgrund der fehlenden Immunität rasant sowie weltweit und stellt demnach eine große Gefahr für die Menschheit dar.
Über den exakten Auslöser der Viren existieren bislang nur Vermutungen, es wird jedoch von einem Ursprung auf dem Lebensmittelmarkt in Wuhan, der Hauptstadt der chinesischen Provinz Hubei, ausgegangen. Bereits nach kurzer Zeit sprachen diverse Lungenfachärzte von Abhängigkeiten auf Krankheitsverläufe und formulierten in diesem Zuge sogenannte Risikogruppen. Personen dieser Gruppen sollen anfälliger sein und einem erhöhten Risiko unterliegen, schwere Konsequenzen von einer Infektion davonzutragen. Beispiele für Risikofaktoren sind Vorerkrankungen, vor allem Erkrankungen der Atemwege, oder auch das Alter und Geschlecht der Patienten.
Leseprobe
Inhaltsverzeichnis
Abbildungsverzeichnis
Tabellenverzeichnis
Abkürzungsverzeichnis
1 Einleitung
1.1 Fragestellung und Zielsetzung
1.2 Gang der Arbeit
2 Vorstellung des Datenmaterials
2.1 Datenmaterial und Aufbereitung
2.2 Darstellung des Datensatzes
3 Statistische Analyse
3.1 Auswahl der Methoden
3.2 Durchführung der Analyse
4 Fazit und Ausblick
Literaturverzeichnis
Abbildungsverzeichnis
Abbildung 1: Einlesen des Datenmaterials in RStudio
Abbildung 2: Prüfung der Dimensionen
Abbildung 3: Filtern der Variablen
Abbildung 4: Entfernen der Unbekannten
Abbildung 5: Adaption der Altersklassen
Abbildung 6: Todesfälle je Alter und Geschlecht
Abbildung 7: Altersdurchschnitt der Todesfälle
Abbildung 8: Chi-Quadrat-Analyse
Abbildung 9: Bestimmung des kritischen Bereichs
Abbildung 10: Korrektur des Kontingenzkoeffizienten
Tabellenverzeichnis
Tabelle 1: Todesfälle je Alter und Geschlecht
Tabelle 2: Kontingenztabelle als Testgrundlage
Abkürzungsverzeichnis
HO Nullhypothese
HA Alternativhypothese
1 Einleitung
1.1 Fragestellung und Zielsetzung
Die Lungenkrankheit COVID-19, ausgelöst durch das Virus SARS-CoV-2 der Familie der Coronaviren, stellt im Jahre 2020 die gesamte Welt auf den Kopf. Der neuartige Erreger verursacht Krankheitssymptome vergleichbar einer Lungenentzündung und kann einen gefährlichen, unter Umständen sogar tödlichen Krankheitsverlauf hervorrufen. Das Virus wird überwiegend über die sogenannte Tröpfcheninfektion übertragen und verbreitet sich aufgrund der fehlenden Immunität rasant sowie weltweit und stellt demnach eine große Gefahr für die Menschheit dar.1
Über den exakten Auslöser der Viren existieren bislang nur Vermutungen, es wird jedoch von einem Ursprung auf dem Lebensmittelmarkt in Wuhan, der Hauptstadt der chinesischen Provinz Hubei, ausgegangen.2
Bereits nach kurzer Zeit sprachen diverse Lungenfachärzte von Abhängigkeiten auf Krankheitsverläufe und formulierten in diesem Zuge sogenannte „Risikogruppen“. Personen dieser Gruppen sollen anfälliger sein und einem erhöhten Risiko unterliegen, schwere Konsequenzen von einer Infektion davonzutragen. Beispiele für Risikogruppen sind Menschen mit Vorerkrankungen, vor allem bei Erkrankungen der Atemwege oder auch das Alter und Geschlecht der Patienten.3
Aber sind ältere Menschen tatsächlich gefährdeter und somit einem hohen Risiko ausgesetzt, an der Infektion zu versterben? In Folge dieser Seminararbeit soll mithilfe einer statistischen Analyse genau diese Frage beantwortet werden.
1.2 Gang der Arbeit
Die Arbeit wird eingeleitet von einer Vorstellung und Abgrenzung des Datenmaterials mittels deskriptiver Umschreibung sowie grafischer Darstellung. Durch eine zusätzliche Veranschaulichung der Lagemaße soll ein zusätzlicher Bezug zur Fragestellung hergestellt werden und die Intention der Analyse herausgebildet werden.
Weiterführend wird die anzuwendende statistische Methodik ausgewählt und beschrieben. Im Kapitel 2.4 folgt die statistische Analyse des Datensatzes inklusive Vorstellung der Forschungsergebnisse.
Abschließend wird unter Einbezug der Fragestellung, der Methodik, der Ergebnisse sowie eventueller Grenzen der Analyse ein Fazit und Ausblick formuliert.
Für die Umsetzung dieser Seminararbeit werden jegliche Berechnungen und grafische Darstellungen mit der Software RStudio umgesetzt.
2 Vorstellung des Datenmaterials
2.1 Datenmaterial und Aufbereitung
Das Datenmaterial dieser Analyse stammt aus der online verfügbaren Datensammlung des Robert-Koch-Instituts, ein ausgezeichnetes biomedizinisches Institut mit Sitz in Deutschland.4
Die Sammlung der COVID-19 bezogenen Daten für ganz Deutschland ist tagesaktuell unter folgendem Link zum Download verfügbar: https://npgeo-corona-npgeo-de.hub.ar- cgis.com/datasets/ dd4580c810204019a7b8eb3e0b329dd6 0/data.
Die letzte Aktualisierung zum Zeitpunkt des Downloads erfolgte am 12.08.2020 um 00:00 Uhr und bildet den Datenstand bis einschließlich dem 11.08.2020 bis 23:59 Uhr ab.
Zu Beginn wurde der Datensatz in RStudio eingelesen und betrachtet.
Abbildung 1: Einlesen des Datenmaterials in RStudio
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung
Der Datensatz umfasst zahlreiche Merkmale und Merkmalsausprägungen. Die Dimensionen wurden mithilfe der folgenden Befehle abgefragt.
Abbildung 2: Prüfung der Dimensionen
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung
Der Befehl „ncol“ bildet dabei die Anzahl der verschiedenen Variablen ab, der Befehl „nrow“ zeigt die Anzahl der Ausprägungen, also der Zeilen auf. Aufgrund der Fragestellung sind für diese Seminararbeit nur die Altersklassen, das Geschlecht, die Todesfälle und die Anzahl der genesenen Personen durch COVID-19 von Relevanz. Aufgrund dessen wurde das Material auf diese Merkmale gefiltert.
Abbildung 3: Filtern der Variablen
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung
Das ursprüngliche Datenmaterial enthält eine geringe Anzahl an Merkmalsträgern, dessen Alter oder Geschlecht unbekannt sind. Diese wurden entfernt, um die Grundbedingungen für eine Datenanalyse zu schaffen.
Abbildung 4: Entfernen der Unbekannten
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung
Zusätzlich wurden die bereits bestehenden Altersklassen anlässlich identischer Intention größer gefasst.
Abbildung 5: Adaption der Altersklassen
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung
Die daraus resultierende Analysegrundlage zeigt somit die absoluten Häufigkeiten der Todesfälle und der genesenen Patienten durch eine COVID-19 Infektion inklusive Zuordnung zum jeweiligen Geschlecht sowie zur Altersklasse.
2.2 Darstellung des Datensatzes
Für die nachfolgende Darstellung wurde eine Kontingenztabelle mit Randhäufigkeiten erzeugt, welche die Todesfälle je Geschlecht und je Altersgruppe komprimiert wiedergibt. Die genesenen Patienten sind aufgrund der Übersichtlichkeit nicht inkludiert und dienen nur zu Berechnungszwecken.
Tabelle 1: Todesfälle je Alter und Geschlecht
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung
Auf den ersten Blick ist erkennbar, dass die Anzahl der Todesfälle von der jüngsten bis zur ältesten Klasse stetig steigen, was die Annahme einer Altersabhängigkeit stützt.
Die Darstellung der Kreuztabelle innerhalb eines Säulendiagramms verdeutlicht dies zusätzlich.
Abbildung 6: Todesfälle je Alter und Geschlecht
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung
Ebenfalls erkennbar ist eine konträr wirkende Ausprägung je Geschlecht. Von einem Muster ist jedoch nicht auszugehen, da kein Geschlecht konstant höhere oder niedrigere Todeszahlen zu verzeichnen hat. Aufgrund dessen wird die Variable „Geschlecht“ für die folgenden Analysemethoden nicht berücksichtigt und dient nur der Illustration.
Zur Veranschaulichung der demografischen Lage der Daten, wurde das arithmetische Mittel des Alters gebildet, welches in der nachfolgenden Abbildung dargestellt wird.
Abbildung 7: Altersdurchschnitt der Todesfälle
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung,
Das arithmetische Mittel des Alters beträgt demnach 83,48722 Jahre, welches ein fortgeschrittenes Alter darstellt. Das gibt zusätzlich zu den in Kapitel 1.1 erläuterten Ansichten der Fachärzte einen weiteren Impuls, diese Abhängigkeit zu prüfen.
3 Statistische Analyse
3.1 Auswahl der Methoden
Für die Prüfung von Abhängigkeiten existieren diverse statistische Methoden. Dieser Datensatz wird analysiert mit dem Chi-Quadrat-Unabhängigkeitstest nach Pearson, welcher die Abhängigkeit zweier Merkmale zueinander innerhalb eines Hypothesentests stochastisch untersucht. Der Chi-Quadrat-Test ist unter Anderem geeignet für nominalskalierte Variablen und einer der meist verwendeten Verteilungen in der Interferenzstatistik.5
[...]
1 Vgl. https://www.rki.de/DE/Content/InfAZ/N/Neuartiges Coronavirus/Falldefinition.ydf;isessionid=9D 86C33DCA82DA6263297CB578C22C2B.internet072? blob=publicationFile, Zugriff am 25.08.2020
2 Vgl. https://www.bundesregierung.de/breg-de/themen/coronavirus/falschmeldungen-erkennen-1738120, Zugriff am 25.08.2020
3 Vgl. https://www.rki.de/DE/Content/InfAZ/N/Neuartiges Coronavirus/Risikogruppen.html, Zugriff am 25.08.2020.
4 Vgl. https://www.rki.de/DE/Content/Institut/institut node.html, Zugriff am 25.08.2020 Quelle: Eigene Darstellung Das ursprüngliche Datenmaterial enthält eine geringe Anzahl an Merkmalsträgern, dessen Alter oder Geschlecht unbekannt sind. Diese wurden entfernt, um die Grundbedingungen für eine Datenanalyse zu schaffen.
5 Vgl. Bleymüller, J., Weißbach, R., Wissenschaft, 2014, S. 161.