Die vorliegende Seminararbeit beschäftigt sich mit dem Datensatz „Weihnachtsumfrage 2017“. Es wird analysiert und somit der Fragestellung nachgegangen, ob ein Zusammenhang zwischen Alter oder Geschlecht und der Einkaufsmöglichkeit „Bestellung über das Internet" besteht. Die verwendete Software zur Analyse ist R-Studio.
Als erstes folgt die Nennung der Forschungsfrage und der Hypothesen, die analysiert werden. Daraufhin wird der Datensatz und die analysierten Variablen beschrieben. Das vierte Kapitel beschäftigt sich mit den eingesetzten statistischen Verfahren und einer darauffolgenden explorativen Analyse. Zum Schlussteil folgt eine Inferenzstatistische Analyse und ein Fazit.
Die Forschungsfrage der Arbeit lautet: „Haben Alter oder Geschlecht einen Einfluss auf die Einkaufsmöglichkeit – Bestellung über das Internet“.
Zunächst wird für beide Hypothesen eine Nullhypothese H0 und eine dazugehörige Alternativhypothese HA aufgestellt. Die Nullhypothese sagt aus, dass kein Zusammenhang zwischen den Variablen besteht. Die Alternativhypothese hingegen besagt, dass es einen Zusammenhang zwischen der abhängigen Variable AV und der unabhängigen Variable UV gibt.
Inhaltsverzeichnis
Abkürzungsverzeichnis
1 Einleitung
2 Forschungsfrage und Hypothesen
3 Beschreibung des Datensatzes und der analysierten Variablen
4 Eingesetzte statistische Verfahren
5 Explorative Analyse
5.1 Variable 1 (unabhängige Variable Hypothesenpaar 1)
5.2 Variable 2 (abhängige Variable Hypothesenpaar 1 und 2)
5.3 Variable 3 (unabhängige Variable Hypothesenpaar 2)
5.4 Bivariate Analyse Hypothesenpaar 1
5.5 Bivariate Analyse Hypothesenpaar 2
6 Inferenzstatistische Analyse
6.1 Hypothesenpaar 1
6.2 Hypothesenpaar 2
7 Diskussion und Fazit
Anhang: Dokumentation der R-Syntax
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
1 Einleitung
Weihnachten am Jahresende ist kaum weg zu denken und mittlerweile ein fester Bestandteil einer jährlichen Tradition. Am Weihnachtsabend, dem 24. Dezember kommen in der Regel Familie und Freunde zusammen und feiern das Fest ausgiebig. Der Handel profitiert vom Konsum der Verbraucher und Weihnachten stellt durch den Brauch, dass man sich gegenseitig beschenkt, ein lukratives Geschäft dar. Die FOM Hochschule für Oekonomie & Management führt jedes Jahr eine sogenannte „Weihnachtsumfrage“ durch. Die Umfrage wird von den Studierenden durchgeführt und das Ergebnis zeigt wie viel verschiedene Personengruppen an Weihnachten für Geschenke ausgeben. Die Umfrage zeigt aber auch, wie viel zum Beispiel für Geschenke insgesamt innerhalb eines Jahres ausgegeben wird oder wo die Befragten Personen vorzugsweise die Geschenke einkaufen.
Die vorliegende Seminararbeit beschäftigt sich mit dem Datensatz „Weihnachtsumfrage 2017“. Es wird analysiert, und somit der Fragestellung nachgegangen ob ein Zusammenhang zwischen Alter oder Geschlecht und der Einkaufsmöglichkeit „Bestellung über das Internet „ besteht. Die verwendete Software zur Analyse ist R- Studio.
Als erstes folgt die Nennung der Forschungsfrage und der Hypothesen die analysiert werden. Daraufhin wird der Datensatz und die analysierten Variablen beschrieben. Das vierte Kapitel beschäftigt sich mit den eingesetzten statistischen Verfahren und einer darauffolgenden explorativen Analyse. Zum Schlussteil folgt eine Inferenzstatistische Analyse und ein Fazit.
2 Forschungsfrage und Hypothesen
Die Forschungsfrage der Arbeit lautet: „Haben Alter oder Geschlecht einen Einfluss auf die Einkaufsmöglichkeit - Bestellung über das Internet“.
Zunächst wird für beide Hypothesen eine Nullhypothese Ho und eine dazugehörige Alternativhypothese Ha aufgestellt. Die Nullhypothese sagt aus, dass kein Zusammenhang zwischen den Variablen besteht. Die Alternativhypothese hingegen besagt, dass es einen Zusammenhang zwischen der abhängigen Variable AV und der unabhängigen Variable UV gibt.
1. Hvpothesenpaar Hm und Hai
Bei diesem Hypothesenpaar wird analysiert, ob ein Zusammenhang zwischen dem Alter und der Einkaufsmöglichkeit Bestellung über das Internet besteht.
Nullhvpothese Hm
Die verwendete Einkaufsmöglichkeit „Bestellung über das Internet“ ist unabhängig vom Alter. Es besteht kein Zusammenhang zwischen dem Alter und der Einkaufsmöglichkeit Bestellung über das Internet.
Hoi: pAlter = pEinkaufsmöglichkeit
Alternativhypothese Hai
Die Möglichkeit „Bestellung über das Internet“ ist abhängig vom Alter. Es besteht ein Zusammenhang zwischen Alter und der Einkaufsmöglichkeit.
Hm: pAlter^ pEinkaufsmöglichkeit
2. Hvpothesenpaar H02 und Ha2
Hierbei wird geprüft ob das Geschlecht der befragten Personen einen Einfluss auf die Einkaufsmöglichkeit „Bestellung über das Internet“ hat, also ob ein Zusammenhang zwischen männlich oder weiblich und der Einkaufsmöglichkeit besteht.
Nullhvpothese H02
Die Einkaufsmöglichkeit „Bestellung über das Internet“ ist unabhängig vom Geschlecht. Es besteht kein Zusammenhang zwischen Geschlecht und der gewählten Einkaufsmöglichkeit.
H02: pmännlich = pweiblich
Alternativhypothese Ha?
Die Einkaufsmöglichkeit „Bestellung über das Internet“ ist abhängig vom Geschlecht. Es besteht ein Zusammenhang zwischen Geschlecht und der gewählten Einkaufsmöglichkeit.
Ha2: pmännlich ^ pweiblich
3 Beschreibung des Datensatzes und der analysierten Variablen
Der zur Datenerhebung genutzte Fragebogen ist vom Institut für Empirie & Statistik der FOM Hochschule für Oekonomie & Management erstellt worden. Die Daten wurden in persönlichen Interviews zwischen Befragern und Befragten erhoben und anonymisiert festgehalten. Die Befrager sind Studenten aus dem ersten Semester vom Jahr 2017. Der Fragebogen gibt einen Einblick über verschiedene Bereiche des Kaufverhaltens der befragten Personen. Zum Beispiel lässt sich ermitteln wann die Geschenke eingekauftwerden, also kurz vor Weihnachten oder lange im voraus oder welche Personen beschenkt werden und was beim Kauf wichtig ist. Der genutzte Fragebogen besteht aus verschiedenen kategorialen und numerischen Skalenniveaus. Zu den Kategorialen Skalenniveaus zählen nominal- und ordinalskalierte Daten. Bei Nominalskalen können Merkmalsausprägungen unterschieden werden, wie zum Beispiel das Geschlecht. Bei Ordinalskalen können Merkmalsausprägungen unterschieden sowie in eine Reihenfolge gebracht werden. Numerische Skalenniveaus finden sich im Fragebogen in Form von Verhältnis-, Absolut- und Intervallskalen wieder.
Durch den Befehl str('2019_SS_Datensatz_Seminararbeit') ersieht man in der Konsole das der Datensatz aus 124 Variablen besteht.
Abbildung in dieser Leseprobe nicht enthalten
Welche Variablen sind zur Analyse und zur Beantwortung der Fragestellung entscheidend?
Die folgenden Variablen werden zur Analyse der Forschungsfrage genutzt: Variable X4.1, Bestellung überdas Internet
Die Variable 4.1 ist im Fragebogen unter der Kategorie „Wie wichtig sind Ihnen die folgenden Einkaufsmöglichkeiten beim Kauf von Geschenken?“. Weitere Einkaufsmöglichkeiten die angekreuzt werden können sind:
X4.2 Supermarkt (z. B. Rewe, Edeka, Kaufland usw.)
X4.3 Discounter (z. B. Aldi, Lidl, Norma, Netto, Penny, usw.)
X4.4 Warenhaus (z. B. Kaufhof)
X4.5 Einkaufszentrum in der Stadt X4.6 Einkaufszentrum außerhalb der Stadt X4.7 Weihnachtsmarkt
X4.8 Bestellung über den Katalog (Versandhandel)
X4.9 Teleshopping über das Fernsehen X4.10 Fachgeschäft in der Stadt X4.11 Farbikverkauf/Factory-Outlet X4.12 Kaufhaus (z. B. H&M, usw.)
X4.13 Fachmarkt, (z. B. Elektronik, Bau, Möbel, usw.)
Es gibt zu jeder Kategorie eine Skala bei der man von (1), ist mir überhaupt nicht wichtig, bis (7) ist mir sehr wichtig entscheiden kann. Wie bereits zuvor erwähnt wird allerdings nur die Einkaufsmöglichkeit Bestellung über das Internet untersucht, da es sonst den Rahmen der Arbeit überschreiten würde. Diese Variable bildet die abhängige Variable beider Hypothesenpaare.
Variable D1, Alter
Die zweite Variable die benötigt wird ist D1 und diese zeigt das Alter der befragten Person. Die Variable ist im Fragebogen unter der Kategorie „Zur statistischen Auswertung noch einige Fragen zu Ihrer Person,, zu finden. Das angegebene Alter erfolgt als ganze Zahl und D1 ist somit eine Verhältnisskalierte Variable. Diese ist die unabhängige Variable im ersten Hypothesenpaar.
Variable D2, Geschlecht
Die unabhängige Variable des zweiten Hypothesenpaares ist D2. Diese Variable ist im Fragebogen ebenfalls unter der Kategorie „Zur statistischen Auswertung noch einige Fragen zu Ihrer Person,, zu finden und es handelt sich um eine kategoriale, nominale Variable. Es wird unterschieden zwischen männlich und weiblich. Da im Datensatz unter der Variable die Geschlechter mit Zahlen angegeben werden, 1 für männlich und 2 für weiblich, wurde mittels factor Befehl eine neue Variable erstellt.
Diese ist D2 neu und hier wurden die zahlen durch das Geschlecht direkt ersetzt.
Der Befehl ist: '2019 SS Datensatz Seminararbeit'$D2 neu<-fac- tor('2019_SS_Datensatz_Seminararbeit'$D2, levels= c(1,2), labels=c("männ- lich","weiblich"))
Abbildung in dieser Leseprobe nicht enthalten
4 Eingesetzte statistische Verfahren
Zunächst wird eine explorative Analyse der drei Variablen durchgeführt. Die Verteilung der Variablen werden in Balkendiagrammen, Histogrammen und Boxplots dargestellt. Im Anschluss an die explorative Analyse folgt die bivariate Analyse. Bei der bivariaten Analyse werden die Variablen nicht einzeln betrachtet sondern als Hypothesenpaare. Auch hier werden zur genaueren Analyse und einer besseren Veranschaulichung die Ergebnisse in Histogrammen und Boxplots dargestellt und bewertet. Sollten sich bei den Boxplots Ausreißer feststellen lassen werden diese berücksichtigt. Der letzte Teil der Analyse beinhaltet die inferenzstatistische Analyse. Da es sich beim ersten Hypothesenpaar sowohl bei der UV D1 und bei AV X4.1 um numerische Variablen handelt wird eine Regressionsanalyse durchgeführt und interpretiert. Das zweite Hypothesenpaar wird mittels t-Test analysiert.
5 Explorative Analyse
5.1 Variable 1 (unabhängige Variable Hypothesenpaar 1)
Der Autor beginnt mit der unabhängigen Variable des ersten Hypothesenpaares. D1 stellt in diesem Falle das Alter dar.
Mittels favstats Befehl wird zunächst eine Kennzahlenübersicht geschaffen:
Abbildung in dieser Leseprobe nicht enthalten
Die Kennzahlenübersicht zeigt nun verschiedene Werte. Die Stichprobengröße unter n erkennbar beträgt 1907 Personen und 9 Personen gaben keine Angabe zu Ihrem Alter an was unter missing sichtbar ist. Das Durchschnittsalter der befragten beträgt 45,85 Jahre, also ca. 46 Jahre, dies zeigt der Wert mean. Der Median entspricht mit 46 also fast dem Durchschnitt das heißt es liegt eine symmetrische Verteilung vor und es gibt keine Ausreißer. Dies wird grafisch nochmals durch den Befehl histrogram verdeutlicht: histogram(~ D1, data = '2019_SS_Datensatz_Semi- nararbeit', main="Histogramm Alter der Befragten").
Abbildung in dieser Leseprobe nicht enthalten
[...]