Die nachfolgende Datenanalyse untersucht den Datensatz "Arrests for Marihuana Possession". Der Datensatz erfasst Personen, die von 1997 bis 2002 in Toronto aufgrund des Besitzes kleiner Mengen von Marihuana festgenommen worden sind. Es handelt sich dabei um einen Auszug von einer umfassenderen Erhebung, die im Rahmen eines Artikels der Toronto Star-Zeitung veröffentlicht wurde.
Mit Hilfe von Rstudio wird die dekriptive Statistik betrachtet (diskrete, metrisch-verhältnisskalierte Variablen und kategoriale, nomalskalierte Variablen), T-tests sowie Signifikanztests durchgeführt und Korrelationskoeffizienten berechnet.
Inhaltsverzeichnis
1 Vorstellung des Datensatzes „Arrests for Marihuana Possession“
2 Forschungsfragen und Hypothesen
3 Datenimport und Überblick über den Datensatz
3.1 Datenimport
3.2 Überblick
4 Variablenüberblick
4.1 Sex - Geschlecht
4.2 Age – Alter
4.3 Employed - Beschäftigt
4.4 Checks – Anzahl der Einträge in Polizeiakten
5 Beschreibung und Analyse der Hypothesen
5.1 Haben Männer und Frauen ein unterschiedliches Kriminalverhalten?
5.1.1 Deskriptive Statistik
5.1.2 Analyse
5.2 Hat ein Beschäftigungsverhältnis einen Einfluss auf das kriminelle Verhalten?
5.2.1 Deskriptive Statistik
5.2.2 Analyse
5.3 Steht das Alter der verhafteten Person in einem Zusammenhang mit dem kriminellen Verhalten?
5.3.1 Vorbereitung der Datenanalyse
5.3.2 Deskriptive Statistik
5.3.3 Signifikanztest
6 Fazit
Anhang.
1 Vorstellung des Datensatzes „Arrests for Marijuana Possession“
Für die nachfolgende Datenanalyse ist der Datensatz „Arrests for Marihuana Possession” verwendet. Diese Daten erfassen Personen, die von 1997 bis 2002 in Toronto aufgrund des Besitzes kleiner Mengen von Marihuana festgenommen worden sind. Es handelt sich dabei um einen Auszug von einer umfassenderen Erhebung, die im Rahmen eines Artikels der Toronto Star-Zeitung veröffentlicht wurde. Der vorliegende Datensatz setzt sich zusammen aus 5226 Zeilen sowie 8 Spalten und ist unter dem folgenden Link zu finden: http://vincentarelbundock.github.io/Rdatasets/datasets.html (Abgerufen am 26.07.2019).
2 Forschungsfragen und Hypothesen
Forschungsfrage:
Wird das kriminelle Verhalten von Personen, die im Besitz von Marihuana in Toronto von 1997 bis 2002 verhaftet worden sind, von den Variablen Geschlecht, Beschäftigung und Alter beeinflusst?
Hypothesen:
H1 Männer und Frauen haben ein unterschiedliches Kriminalverhalten.
H2 Beschäftigte und unbeschäftigte Personen, die durch den Besitz von Marihuana verhaftet worden sind, haben ein unterschiedlich kriminelles Verhalten.
H3 Je jünger eine verhaftete Person, desto mehr Einträge sind in dem Polizeiregister zu finden.
3 Datenimport und Überblick über den Datensatz
3.1 Datenimport
Mithilfe des RStudio wird der Datensatz analysiert. Um die Bearbeitung starten zu können ist RStudio zu öffnen und das benötigte Datenpacket für die Analyse wird geladen. Der Datensatz „Arrests for Marihuana Possession” lokal gespeichert und in das Programm RStudio eingelesen:
Abbildung in dieser Leseprobe nicht enthalten
Die Variablen „year“, „released“, „colour“ und „citizen“ werden für die nachfolgende Analyse nicht verwendet, weil diese für die aufgestellten Hypothesen und die damit verbundenen Abhängigkeiten nicht relevant sind. Eine Beschreibung dieser Variablen ist im Anhang zu finden.
Es wird ein neuer Datensatz mit dem Namen „Arrests1“ erstellt:
Abbildung in dieser Leseprobe nicht enthalten
3.2 Überblick
Durch den Befehl „inspect()“ kann eine Datenübersicht der verschiedenen Variablen generiert werden. Dadurch können, um kategoriale - qualitative Variablen und quantitative Variablen betrachtet werden.
Abbildung in dieser Leseprobe nicht enthalten
In dem Überblick sind die folgenden Variablen zu erkennen:
Sex: Geschlecht (weiblich vs. männlich)
Age: Alter (12-66)
Employed: Beschäftigt „ja“ oder „nein“
Checks: Anzahl der Einträge in den Polizeiakten (Festnahmen, Verurteilung, Bewährungsstatus)
4 Variablenüberblick
Das folgende Kapitel betrachtet die für die Analyse relevanten Variablen des Datensatzes näher. Dabei erfolgt eine Zusammenfassung der deskriptiven Kennzahlen.
4.1 Sex - Geschlecht
Die Variable „Sex“ differenziert zwischen weiblichen (Female) und männlichen (Male) Personen. Dabei handelt es sich um eine kategoriale, nominalskalierte Variable der Merkmalsausprägung. Um einen Überblick bezüglich der Geschlechterverteilung in dem Datensatz zu erhalten wird der Befehl tally verwendet:
Abbildung in dieser Leseprobe nicht enthalten
Daran lässt sich erkennen, dass wesentlich mehr Männer als Frauen für den Besitz von Marihuana von 1997 bis 2002 in Toronto festgenommen worden sind. Eine prozentuale Geschlechterverteilung lässt sich wie folgt darstellen:
Abbildung in dieser Leseprobe nicht enthalten
Der Datensatz besteht aus 8,5% weiblichen und 91,5% männlichen Straftätern, die in dem Besitz von Marihuana waren. Durch ein Balkendiagramm lassen sich diskrete nominalskalierte Merkmale graphisch darstellen.
Abbildung in dieser Leseprobe nicht enthalten
4.2 Age – Alter
Die Variable Age gibt das Alter der festgenommenen Personen an und ist eine diskrete, metrische, verhältnisskalierte Variable. Diese kann durch den Befehl favstats() dargestellt werden.
Abbildung in dieser Leseprobe nicht enthalten
Das Alter der festgenommenen Personen variiert von einem Minimum bei 12 Jahren, bis zu einem Maximum bei 66 Jahren. Das Durchschnittsalter der Festgenommenen der Stichprobe liegt bei 24 (23,8) Jahren. In dem Histogramm ist ersichtlich, dass bei der Verteilung der Stichprobe der Gipfel bei 16-20 Jahren liegt. Die Stichprobe ist rechtsschief, aufgrund dessen liegen mehrere Werte im unteren Wertebereich. Ab einem Alter von über 20 Jahren singt die Anzahl der Festnahmen mit zunehmendem Alter in der Stichprobe.
Abbildung in dieser Leseprobe nicht enthalten
4.3 Employed - Beschäftigt
Die Variable „Employed“ gibt an, ob die festgenommenen Personen zu diesem Zeitpunkt in einem Beschäftigungsverhältnis waren. Bei dieser Merkmalsausprägung handelt es sich um eine kategoriale, nominalskalierte Variable. Als erstes werden die absoluten Zahlen genannt, danach die Anteile angegeben und anschließend in zwei unterschiedlichen Diagrammen dargestellt.
Abbildung in dieser Leseprobe nicht enthalten
Es ist zu erkennen, dass wesentlich mehr Personen im Besitz von Marihuana festgenommen wurden, die zu dem Zeitpunkt ein bestehendes Arbeitsverhältnis hatten.
Abbildung in dieser Leseprobe nicht enthalten
-relative Anteile?
4.4 Checks – Anzahl der Einträge in Polizeiakten
Diese Variable weist aus, wie häufig der Name einer Person in der Polizeiakte aufgrund von früheren Festnahmen, früheren Verurteilungen oder eines Bewährungsstatusses auftaucht. Es handelt sich um eine metrische, verhältnisskalierte Variable.
Abbildung in dieser Leseprobe nicht enthalten
Die Anzahl der Einträge in den Polizeiakten variiert in der Stichprobe von 0 bis maximal 6. Der Durchschnittswert liegt bei 1,6. Insgesamt werden die Einträge von 5226 Personen betrachtet. In dem folgenden Histogramm lässt sich erkennen, dass es sich um eine annähernde rechtsschiefe Verteilung handelt.
Abbildung in dieser Leseprobe nicht enthalten
[...]