Lade Inhalt...

Eine Analyse zu den Überlebenden des Untergangs der Titanik mit "R". Zusammenhang von Alter und Geschlecht

Hausarbeit 2019 19 Seiten

Politik - Methoden, Forschung

Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis

1 Einleitung und Zielsetzung

2 Gang der Arbeit

3 Der Datensatz
3.1 Formatierung des Datensatzes

4 Zu testende Hypothesen
4.1 Zusammenhang Überleben – Geschlecht
4.1.1 Chi Quadrat Test
4.1.2 Feststellung der Anzahl – Überleben Männer und Frauen
4.1.3 Assocstats Befehl
4.2 Abhängigkeit Überleben – Alter
4.2.1 Chi Quadrat Test
4.2.2 Durchschnittsalter Überlebende / Nicht Überlebende

5 Fazit

Quellenverzeichnis

Abbildungsverzeichnis

Abbildung 1: Datensatz in R Studio

Abbildung 2: Datensatz in R Studio nach der Formatierung

Abbildung 3: Zusammenhang Geschlecht und Überleben

Abbildung 4: Numerische Daten Überleben nach Geschlecht

Abbildung 5: GGPlot Überleben - Geschlecht

Abbildung 6: QPlot Überleben - Geschlecht

Abbildung 7: Verteilung des Alters der Überlebenden der Titanic

Abbildung 8: QPlot Überleben nach Alter

Abbildung 9: Altersstruktur Männer und Frauen

Abbildung 10: GGPlot Altersstruktur Männer und Frauen

1 Einleitung und Zielsetzung

Der Untergang der Titanic gilt als größte Tragödie der Schifffahrt. Bei ihrer Jungfernfahrt am 14. April 1912 kollidierte sie, mutmaßlich aufgrund menschlichen Versagens, mit einem Eisberg und kenterte.

Trotz der immensen Größe des Schiffes reichte die Anzahl der Rettungsboote nicht aus, um alle Passagiere zu retten. Nur 16 Boote sollten über 2000 Menschen fassen – im Endeffekt reichten sie nur für die Hälfte der Insassen. Von den 2200 Menschen an Bord verloren 1514 ihr Leben.1

Diese Arbeit stellt eine statistische Untersuchung dazu dar, ob Variablen wie das Alter oder das Geschlecht der Insassen einen Einfluss darauf hatten, ob die Passagiere überleben konnten oder nicht.

Zielsetzung dieser Arbeit ist es zu untersuchen, ob ein Zusammenhang zwischen den oben genannten Variablen und der Überlebenschance der Touristen besteht. So könnte beispielsweise angenommen werden, dass Frauen und Kinder zuerst gerettet werden oder dass ältere Menschen eine geringere Chance hatten, die größte Katastrophe der Seefahrt zu überleben. Diese Zusammenhänge werden in dieser Arbeit untersucht sowie durch Grafiken unterstützt.

2 Gang der Arbeit

Wie schon in der Einleitung erwähnt wird in dieser Arbeit der Zusammenhang zwischen dem Überleben der Passagiere und Variablen wie dem Alter und dem Geschlecht untersucht. Hierzu wird zunächst der Datensatz vorgestellt sowie dessen Formatierung erklärt. Im weiteren Verlauf der Arbeit werden die aufgestellten Hypothesen statistischen Tests unterzogen, sowie die Relation der Variablen durch Abbildungen dargestellt. Am Ende der Arbeit soll wird ein Fazit gezogen.

3 Der Datensatz

Der erste Schritt zur statistischen Untersuchung ist einen geeigneten Datensatz zur Bearbeitung und Analyse zu finden. Dieser Datensatz wurde über den Link https://raw.github.com/vincentarelbundock/Rdatasets/master/csv/carData/TitanicSurvival.csv, welcher im Dokument Einstieg in R enthalten ist, gefunden und lokal unter Dokumenten abgespeichert. Er wird dann durch den Befehl read.csv geöffnet.

Der Datensatz enthält insgesamt Informationen zu 1309 Passagieren. Es sind über die Hälfte der Passagiere im Datensatz eingeschlossen. Dies garantiert, dass repräsentative Untersuchungsergebnisse erzielt werden können.

Es sind Informationen zu fünf Variablen in der Tabelle erfasst. Hierunter die Namen der Passagiere, welche für die statistischen Untersuchungen nicht essentiell sind sowie Informationen darüber, ob die Passagiere überlebt haben, deren Geschlecht, das Alter und die Passagierklasse, in welcher die Insassen mitgefahren sind.

Abbildung 1: Datensatz in R Studio

Abbildung in dieser Leseprobe nicht enthalten

Quelle: R Studio

Für die Auswertung des Datensatzes ist es zunächst nötig, einen Zuweisungsbefehl in R Studio vorzunehmen, um die Arbeit mit dem Datensatz zu vereinfachen. Dieser heißt wie folgt:

Abbildung in dieser Leseprobe nicht enthalten

3.1 Formatierung des Datensatzes

Der nächste Schritt ist es, die Tabelle zu formatieren. Hierzu werden zunächst alle Spaltenüberschriften ins Deutsche übersetzt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Datensatz in R Studio nach der Formatierung

Abbildung in dieser Leseprobe nicht enthalten

Quelle: R Studio

Nachdem die Tabelle für die Analyse passend formatiert wurde, werden im Folgenden die zu testenden Hypothesen aufgestellt.

4 Zu testende Hypothesen

4.1 Zusammenhang Überleben – Geschlecht

Die ersten Variablen, die in ihrer Abhängigkeit zueinander getestet werden sollen, sind das Überleben der Passagiere und deren Geschlecht. So kann die H0 Hypothese formuliert werden, dass kein Zusammengang zwischen den beiden Variablen besteht. Die H1 Hypothese beinhaltet, dass ein Zusammenhang besteht und dass Frauen eher überlebt haben als Männer, da die normale Vorgehensweise bei Unglücken ist, dass Frauen und Kinder zuerst gerettet werden.

4.1.1 Chi Quadrat Test

Zur ersten Einschätzung des Zusammenhangs wird in R Studio ein Chi Quadrat Test angewendet. Der Chi Quadrat Test wird für kategorische Variablen verwendet und untersucht, ob zwei Variablen voneinander stochastisch unabhängig sind.

Der Befehl für den Chi Quadrat Test lautet wie folgt:

Abbildung in dieser Leseprobe nicht enthalten

Das Ergebnis beinhaltet folgenden P-Wert:

Abbildung in dieser Leseprobe nicht enthalten

Vom sehr niedrigen P-Wert, welcher unter dem Signifikanzniveau 5% liegt, kann man darauf schließen, dass eine Abhängigkeit zwischen den beiden Variablen besteht und die H0 Hypothese abgelehnt wird.

Zur Unterstützung dieser Hypothese soll in R Studio eine Abbildung zu diesem Sachverhalt erstellt werden. Hierzu wird ein Plot Befehl benutzt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Zusammenhang Geschlecht und Überleben

Quelle: Eigene Darstellung, R Studio

Diese Abbildung unterstreicht die Feststellung der H1 Hypothese, dass mehr Frauen überleben konnten als Männer.

4.1.2 Feststellung der Anzahl – Überleben Männer und Frauen

Um zahlenmäßig festzulegen, wie viele Frauen und Männer jeweils überlebt und nicht überlebt haben, muss ein weiterer Datensatz verwendet werden, um die Informationen filtern zu können.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4: Numerische Daten Überleben nach Geschlecht

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung, in Anlehnung an: https://stackoverflow.com/questions/40448988/mosaic-plot-and-text-values

Auch aus dieser Abbildung kann geschlossen werden, dass ein Zusammenhang zwischen den Variablen besteht. Es wird ersichtlich, dass sehr viel mehr Frauen als Männer überleben konnten.

4.1.3 Assocstats Befehl

Wie stark der Zusammenhang zwischen den beiden Variablen ist, kann durch den assocstats Befehl in R bestimmt werden. Hierzu muss das package vcd aktiviert werden.

Abbildung in dieser Leseprobe nicht enthalten

Die Ergebnisse liefern folgende Zahlen:

Abbildung in dieser Leseprobe nicht enthalten

Da die Werte aller unteren Kennzahlen (Phi Koeffizient, Korrelationskoeffizient und Cramers V) um 0,5 liegen, lässt dies auf einen mittleren Zusammenhang zwischen den Variablen Überleben und Geschlecht schließen.

Zusammenfassend ist zu sagen, dass das Geschlecht eine Auswirkung darauf hatte, ob die Insassen die Katastrophe überleben konnten oder nicht. Insgesamt haben mehr weibliche Passagiere überlebt.

[...]


1 Vgl. https://www.br.de/themen/wissen/titanic-untergang-schiff100.html, Zugriff am 25.09.2019.

Details

Seiten
19
Jahr
2019
ISBN (eBook)
9783346302748
ISBN (Buch)
9783346302755
Sprache
Deutsch
Katalognummer
v960111
Institution / Hochschule
FOM Essen, Hochschule für Oekonomie & Management gemeinnützige GmbH, Hochschulleitung Essen früher Fachhochschule
Note
1,3
Schlagworte
Titanik R R Studio Statistik Analyse

Autor

Zurück

Titel: Eine Analyse zu den Überlebenden des Untergangs der Titanik mit "R". Zusammenhang von Alter und Geschlecht