Lade Inhalt...

Auf der Suche nach dem nächsten US-Präsidenten. Besteht ein Zusammenhang zwischen Vorwahl-Erfolg und dem Ergebnis bei der Präsidentschaftswahl?

Analyse anhand einer multivariaten Regression

Hausarbeit 2016 39 Seiten

Politik - Methoden, Forschung

Leseprobe

Inhaltsverzeichnis

1. Einleitung

2. Theoretische Vorüberlegungen

3. Modelle, Variablen, Hypothese
3.1. Der Analysezeitraum und die besondere Rolle von Iowa und New Hampshire
3.2. Die Rolle des „Supertuesday

4. Multivariate lineare Regression
4.1. Datengrundlage
4.2. Probleme bei der Datenerhebung
4.2.1. Fehlende Werte
4.2.2. Dummy-Variablen
4.3. Prüfung der Regressionsfunktionen und Modellprämissen

5. Auswertung der Regressionsanalyse

6. Fazit

7. Quellenverzeichnis

8. Anhang

1. Einleitung

Schon im November dieses Jahres ist es wieder soweit: Die maximal mögliche achtjährige Amtszeit des demokratischen US-Präsidenten Barack Obama geht zu Ende und ein Nachfolger wird gewählt. Ähnlich wie bereits 2008, als Obama als erster Afroamerikaner das Amt bekleiden konnte und damit eine Zäsur markierte, kann auch im Jahr 2016 wieder Geschichte geschrieben werden. Die mögliche eindrucksvolle Geschichtsschreibung ist zwar erneut auf Seiten der Demokratischen Partei möglich - entweder, indem mit Hillary Clinton die erste Frau auf Obama folgt oder mit Bernie Sanders nicht nur der älteste Präsident der US- Geschichte (CNN 2015) sondern auch der erste Jude (NPR 2016) in das Amt gewählt wird - doch die mit Abstand größte Aufmerksamkeit zieht dennoch der Republikanische Kandidat Donald Trump auf sich, der derart polarisiert, wie es vor ihm wohl noch niemand getan hat. Die vorliegende Arbeit befasst sich mit dem traditionellen Vorwahlkampf, bei dem es darum geht, dass die beiden großen Parteien jeweils ihren Kandidaten für die eigentliche Präsidentschaftswahl festlegen. Die grundlegende Annahme ist dabei, dass es einen Zusammenhang zwischen einem Erfolg bei den Vorwahlen und dem späteren Ergebnis bei der Präsidentschaftswahl gibt. Diese Annahme beruht in erster Linie darauf, dass auch bei den Vorwahlen schon Wahlkampf für die Präsidentschaftswahl betrieben wird und die Menschen schon in dieser Zeit erfahren, was der jeweilige Kandidat als Präsident tun würde. Wenn jemand also schon in den Vorwahlen viele Wähler mobilisieren kann, dürften der Annahme zufolge die Chancen nicht schlecht sein, dass sich dieser Effekt dann auch auf die nationale Präsidentschaftswahl überträgt.

Neben dieser theoretischen Vorüberlegung beruht die Annahme aber auch auf anderen bisherigen Studien zu diesem Thema. Es gibt mehrere Studien, die einen solchen Zusammenhang postulieren (Weinberg/Crowley 1970; Nownes 1992; Norrander/Wendland 2012).

Ob ein solcher Zusammenhang tatsächlich vorliegt, soll letztendlich mittels einer multivariaten linearen Regression getestet werden. Diese beinhaltet vier unabhängige Variablen, die in Abschnitt 3 detaillierter vorgestellt werden, wobei das Ergebnis der Präsidentschaftswahl die abhängige Variable darstellt. Für die kommende Wahl im November 2016 soll diese abhängige Variable geschätzt bzw. prognostiziert werden - und zwar jeweils für die Kandidaten von Republikanern und Demokraten, die aktuell die besten Chancen darauf haben, Kandidat ihrer Partei zu werden. Für die Demokraten sind das Hillary Clinton und Bernie Sanders, für die Republikaner Donald Trump und Ted Cruz.

Die Daten für diese Regressionsanalyse speisen sich aus mehreren verschiedenen Quellen zusammen. Auf diesen Aspekt wird später näher eingegangen. Die Ergebnisse für die Präsidentschaftswahl werden vom Portal CountingTheVotes bezogen. Es haben sich auch andere Quellen angeboten, darunter die offizielle Seite archives.gov. Die Entscheidung fiel letztlich zugunsten von CountingTheVotes, da die Ergebnisse hier mit zwei Nachkommastellen angegeben werden, was letztendlich Auswirkungen auf die Berechnung der Regressionskoeffizienten hat.

Weitere zentrale Literatur für diese Arbeit sind u. a.: Grundkurs Statistik f ü r Politologen (Gehring/Weins 1998), Mit Rot-Gr ü n ins Schwarze getroffen: Prognosemodell besteht Feuertaufe (Norpoth/Gschwend 2005), Multivariate Analysemethoden (Backhaus et al. 2006), History and Primary: The Obama Reelection (Norpoth/Bednarczuk 2012). Nachdem theoretische Vorüberlegungen dargelegt und Hypothese sowie Variablen in Abschnitt 3 vorgestellt wurden, erfolgt in Abschnitt 4 eine theoretische Auseinandersetzung mit der Regressionsanalyse sowie eine Beschreibung der Vorgehensweise im Rahmen dieser Arbeit. Anschließend werden die Ergebnisse ausgewertet und präsentiert. Das Ende der Arbeit markiert ein Fazit, die Prognosen sowie weitere kritische Überlegungen.

2. Theoretische Vorüberlegungen

Die vorliegende Untersuchung basiert auf der theoretischen Vorüberlegung, dass Wahlergebnisse als abhängige Variablen mit Hilfe theoretisch sinnvoll begründeter unabhängiger Variablen prognostiziert werden können. Als Vorbild dafür werden hier insbesondere zwei Studien herangezogen, deren grundsätzliche Vorgehensweise in Teilen repliziert werden soll. Bei der ersten handelt es sich um die in der Politikwissenschaft sehr renommierte Studie von Helmut Norpoth und Thomas Gschwend, in der das Ergebnis der Bundestagswahl 2002 für die spätere Regierungskoalition Rot-Grün mithilfe einer multivariaten Regressionsanalyse mit sehr hoher Genauigkeit schon relativ lange vor der Wahl prognostiziert wurde (Norpoth/Gschwend 2005).

An der zweiten Studie ist Helmut Norpoth ebenfalls beteiligt, der viel zum Thema Wahlprognosen arbeitet. Diese Studie ist darüber hinaus thematisch enger mit dem Gegenstand dieser Arbeit verbunden. In der Studie History and Primary: The Obama Reelection geht es ebenfalls um einen Zusammenhang zwischen Ergebnissen bei Präsidentschaftswahlen und Vorwahl-Erfolgen, wobei hier vor allem New Hampshire als eine besonders wichtige unabhängige Variable herangezogen wird (Norpoth/Bednarczuk 2012, 614). Neben New Hampshire wird auch die Bedeutung von Iowa analysiert, wobei die Autoren zu dem Ergebnis gelangen, dass kein anderer Bundesstaat eine derart gute Vorhersagekraft wie New Hampshire hat und die Hinzunahme weiterer Staaten, in diesem Fall Iowa, die Vorhersagekraft des Modells sogar reduziert (Norpoth/Bednarczuk 2012, 615).

Darüber hinaus gibt es weitere Studien, die einen Zusammenhang zwischen Vorwahlen und der General Election herstellen: Primary Success as a Measure of Presidential Election Victory: A Research Note (Weinberg/Crowley 1970), Primaries, General Elections, and Voter Turnout (Nownes 1992), The Primary End Game and General Election outcomes: Are they Connected? (Norrander/Wendland 2012),

3. Modelle, Variablen, Hypothese

Doch auch wenn andere Staaten neben New Hampshire Norpoth und Bednarczuk zufolge weit weniger zur Vorhersage des Präsidentschaftswahl-Ergebnisses geeignet sind, sollen neben New Hampshire hier dennoch weitere unabhängige Variablen in das Modell eingebunden werden. Eine Begründung dafür ist, dass dieser Arbeit ein ganz anderer Analysezeitraum (1972-2016) zugrunde liegt, als das bei Norpoth und Bednarczuk der Fall ist. Die weitere Begründung, auch für die Auswahl des Analysezeitraums, folgt in den nächsten beiden Abschnitten.

Nachfolgend zunächst eine übersichtliche Darstellung der Variablen, die in der hiesigen Regressionsanalyse Verwendung finden:

Abhängige Variable: Ergebnis des Präsidentschaftskandidaten

Unabhängige Variable 1: Vorwahl-Ergebnisse in Iowa

Unabhängige Variable 2: Vorwahl-Ergebnisse in New Hampshire

Unabhängige Variable 3: Ergebnisse beim Supertuesday

Unabhängige Variable 4: Amtszeit der eigenen Partei zum Zeitpunkt der Wahl

Es geht bei jeder Variable für die Fälle von 1972-2012 jeweils um die Person der jeweiligen Partei, die im entsprechenden Wahljahr tatsächlich der Präsidentschaftskandidat war - anders als im aktuellen Fall 2016, in dem noch nicht feststeht, wer die beiden Kandidaten sein werden. Diese fünf Variablen sind für jedes Modell identisch sind.

Da hier aber mehrere verschiedene Modelle durchgespielt werden, kommen in einigen Modellen zwei weitere unabhängige Variablen hinzu:

Unabhängige Variable 5: Dummy-Variable für Iowa

Unabhängige Variable 6: Dummy-Variable für New Hampshire

Wie bereits in der Einleitung vorausgeschickt, alle Modelle und damit auch alle Variablen werden jeweils für die zwei Spitzenkandidaten der Republikanischen und Demokratischen Partei angewendet, namentlich Hillary Clinton und Bernie Sanders (Demokraten) sowie Donald Trump und Ted Cruz (Republikaner).

Die zentrale Hypothese, die mittels der Regressionsgleichung getestet werden soll, leitet sich bereits aus dem Titel ab. Sie lautet: Wenn die Ergebnisse von Iowa, New Hampshire und Supertuesday das Ergebnis für die Präsidentschaftswahl gut prognostizieren können, dann besteht ein Zusammenhang zwischen Vorwahl-Erfolg und dem Ergebnis der Präsidentschaftswahl.

Insgesamt wurden für diese Arbeit 25 verschiedene Modelle durchgespielt. Im Grunde lassen sich die Modelle in zwei Oberkategorien unterteilen, unter die jeweils zwölf verschiedene Modelle fallen, wobei ein weiteres separat hinzukommt. Die beiden Oberkategorien sind Electoral Vote (EV) und Popular Vote (PV). Ursprünglich war geplant, die Regressionsmodelle lediglich auf den Electoral Vote als abhängige Variable zu beziehen. Denn der sogenannte Electoral Vote ist das Ergebnis, das über den Gewinner bei einer Präsidentschaftswahl in den USA entscheidet. Der Popular Vote dagegen ist „lediglich“ die absolute Stimmenzahl von allen Wählern. Da der US-Präsident aber nicht direkt vom Volk gewählt wird, sondern vom Electoral College, also Wahlmännern, die je nach Bundesstaat in ihrer Anzahl variieren und das Ergebnis des EV so bestimmen (National Archives and Record Administration 2016), ist der PV eigentlich nur eine Randnotiz.

Diese „Randnotiz“ kann mitunter aber sehr pikant sein. So führte das US-Wahlsystem etwa im Jahr 2000 dazu, dass George W. Bush, gemäß dem EV, zum neuen US-Präsidenten gewählt wurde, obwohl Gegenkandidat Al Gore beim PV mehr Stimmen als Bush auf sich vereinen konnte. De facto hat das Volk also einen Präsidenten bekommen, das es gar nicht wollte. Der Präsident, der eigentlich vom Volk gewählt wurde, kam aufgrund der Stimmengewichtung nach der Größe der Bundesstaaten nicht auf genügend Wahlmänner (Williams 2005, 637). Das System des Electoral College ist daher also sehr kontrovers (Posner 2000).

Doch wenn der Electoral Vote der entscheidende Gradmesser für das Ergebnis ist, warum dann Modelle auf Grundlage der Daten des Popular Vote entwerfen? Die Antwort ist relativ simpel: Der Electoral Vote bringt oftmals sehr stark abweichende Ergebnisse hervor, während der Popular Vote in der Regel recht nahe beieinanderliegt. Das führt dazu, dass es beim EV statistisch gesehen ziemliche Ausreißer nach oben und nach unten gibt, die das Modell ziemlich verzerren oder in seiner Güte abschwächen können. Als Beispiel: Im Jahr 1980 wurde der republikanische Kandidat Ronald Reagan im EV mit 90,9% gegenüber dem Demokraten Jimmy Carter (9,1%) zum Präsidenten gewählt, obwohl der PV mit 50,7% zu 41,0% wesentlich enger ausgefallen war (The American Presidency Project 2016).

Neben dieser grundlegenden Unterscheidung zwischen EV und PV lassen sich die jeweiligen Oberkategorien in zwölf weitere Modelle unterteilen, wobei es jeweils drei Unterkategorien gibt. Die Unterkategorien sind: (1) ein Modell mit fehlenden Daten, (2) ein Modell, in dem fehlende Daten imputiert sind sowie (3) ein Modell, in dem auch alle 100%-Ergebnisse (also wenn ein Kandidat in Iowa oder New Hampshire konkurrenzlos gewonnen hat) imputiert wurden. Diese drei Modelle wurden dann jeweils auf Grundlage der Daten aller vier Kandidaten vorgenommen. So ergeben sich in der Summe 24 verschiedene Modelle. Zusätzlich gibt es noch ein weiteres Modell, das allerdings nur am Rande eine weitere Annahme testen soll. In diesem zusätzlichen Modell wird beispielhaft das Ergebnis der Demokraten auf Grundlage der Werte von Hillary Clinton getestet, allerdings unter Auslassung des Wahljahres 2008. Hintergrund dafür ist, das Wahljahr 2008 verzerrt die Ergebnisse auf demokratischer Seite aufgrund der Tatsache, dass es sich hier um einen äußerst ungewöhnlichen Fall handelt (Atkeson/Maestas 2009, 62-63), der bei den Demokraten in allen Modellen als extremer Ausreißer in Erscheinung tritt.

Ansonsten sei angemerkt, dass in allen Modellen, außer in denen, die zur Unterkategorie (3) fallen, sogenannte Dummy-Variablen zum Einsatz kommen, um Verzerrungen durch 100%- Ergebnisse auszugleichen, die in den Variablen Iowa und New Hampshire auftauchen. Hier kam es des Öfteren dazu, dass ein Kandidat 100% der Delegiertenstimmen bekommen hat, da er keinen Gegenkandidaten hatte. Diese Dummy-Variablen sind mit 0 (= Kandidat war konkurrenzlos) und 1 (= Kandidat war nicht konkurrenzlos) kodiert. In den Modellen der Unterkategorie (3) entfallen diese Dummy-Variablen aufgrund der Regressionsimputation.

Angesichts der Vielzahl der Modelle werden in der Auswertung nur zwei Modelle detailliert betrachtet, während die Ergebnisse aller anderen Modelle lediglich am Rande behandelt werden. Die zwei Modelle, die hier primär vorgestellt werden, haben sich im Vergleich zu allen anderen als die besten Prognosemodelle herausgestellt. Es handelt sich dabei um die Oberkategorie Popular Vote und dort um die Unterkategorie (1), also die Modelle ohne Imputation bzw. mit teilweise fehlenden Werten. Letztendlich bringen diese Modelle die besten Regressionsgleichungen hervor, wie im weiteren Verlauf der Arbeit gezeigt wird.

Im nächsten Schritt wird die Auswahl der Variablen näher beleuchtet, mit Ausnahme der vierten unabhängigen Variable. Die Überlegung zu dieser resultiert in erster Linie aus der Studie von Norpoth und Gschwend, die eine ähnliche Variable mit dem Namen Regierungsverschlei ß eingesetzt haben (Norpoth/Gschwend 2005, 377-378). Aufgrund dessen liegt die Vermutung nahe, dass die bisherige Amtszeit der eigenen Partei auch bei der Präsidentschaftswahl in den USA einen Einfluss auf das Ergebnis haben könnte.

3.1. Der Analysezeitraum und die besondere Rolle von Iowa und New Hampshire

Als Analysezeitraum liegen dieser Arbeit die Wahljahre von 1972-2016 zugrunde, wobei 2016 prognostiziert wird, weshalb es sich im Endeffekt um elf Fälle (1972-2012) handelt. 1972 bietet sich deshalb als Beginn der Analyse an, weil die unabhängigen Variablen für die Zeiträume vor 1972 keinen Sinn machen würden. In Iowa werden die Vorwahl- Veranstaltungen (Caucuses) erst seit 1972 regulär durchgeführt (Norpoth/Bednarczuk 2012, 615). In New Hampshire gab es die Vorwahlen auch vorher schon (hier Primaries), doch erst seit 1972 existieren diese in der heute bekannten Form, nachdem es 1968 zu Reformen des Vorwahlsystems kam (Atkeson/Maestas 2009, 59; Adkins/Dowdle 2001, 432). Grundsätzlich gelten Iowa und New Hampshire als die mit Abstand wichtigsten Vorwahltermine (Horst 2009, 264-265; Adkins/Dowdle 2001, 432). Dies hat vor allem sehr viel mit dem sogenannten frontloading (Ridout/Rottinghaus 2008) zu tun bzw. mit der Tatsache, dass Iowa und New Hampshire traditionell die ersten Termine für die Vorwahlen sind (Putnam 2015). Gerade die mediale Aufmerksamkeit, die den Kandidaten bei diesen ersten Terminen zukommt, spielt eine wichtige Rolle (Steger et al. 2004, 380). Außerdem liegt diesem Umstand die Tatsache zugrunde, dass es finanziell gesehen in New Hampshire am leichtesten ist, sich als Kandidat zu positionieren (Norpoth/Bednarczuk 2012, 615).

Bezüglich des frontloading geht die Argumentation vor allem in die Richtung, dass die Staaten, die ihre Vorwahlveranstaltungen früher haben, einen erheblichen Vorteil gegenüber anderen Staaten haben (Frederick 2012, 51). Deshalb gibt es immer wieder Diskussionen über neue Reformen des Vorwahlsystems und darüber, dass die Stimmen mancher Staaten einfach relativ bedeutungslos für das Ergebnis des Vorwahl-Prozesses sind (Atkeson/Maestas 2009, 59-60; Frederick 2012, 54). Es gibt einen regelrechten Konkurrenzkampf zwischen den Staaten, möglichst früh auf dem Kalender zu erscheinen, um noch ein Wörtchen mitreden zu können (Frederick 2012, 52). Genau dieser Umstand führt letztendlich zum Supertuesday sowie dazu, dass der Supertuesday tendenziell immer größer wird und es oftmals solche gibt, an denen eine sehr große Zahl an Staaten ihre Vorwahl-Veranstaltung am gleichen Tag abhält. Speziell für 2008, als die bisher größte Zahl an Staaten am Supertuesday beteiligt war, wurde der Begriff sogar durch den Tsunami Tuesday ersetzt, was diesen Effekt nochmals eindrücklich vor Augen führt (Atkeson/Maestas 2009, 62).

Zur weiteren Untermauerung der Wichtigkeit dieser beiden Staaten bietet sich ein Blick auf die nachfolgende Tabelle an:

Abbildung 1 - Rot-Markierung: Kandidat war konkurrenzlos; Fett-Markierung: Kandidat hat entweder in Iowa, NH oder in beiden Staaten gewonnen

Diese Tabelle bietet einige aufschlussreiche Informationen. Darunter eine Bestätigung der These von Norpoth und Bednarczuk, dass New Hampshire im Vergleich wesentlich wichtiger ist als Iowa. Die Wahrscheinlichkeit, dass jemand zum Präsidentschaftskandidaten gewählt wird, ist sowohl für Demokraten als auch für Republikaner wesentlich höher, wenn man in New Hampshire gewinnt, als wenn man in Iowa gewinnt (ca. 20 Prozentpunkte Unterschied). Auch durch weitere Recherchen zu dieser Thematik wird die These untermauert, dass New Hampshire wichtiger ist als Iowa. Es finden sich einige Publikationen, die New Hampshire als besonders wichtigen Vorwahlstaat betrachten, während es derartige Arbeiten zu Iowa eher weniger gibt. Als Beispiele seien folgende Publikationen genannt: Break Out the Mint Juleps? Is New Hampshire the „ Primary “ Culprit Limiting Presidential Nomination Forecasts? (Adkins/Dowdle 2000), How Important are Iowa and New Hampshire to Winning Post-Reform Presidential Nominations? (Adkins/Dowdle 2001), The New Hampshire Effect in Presidential Nominations (Steger et al. 2004). In der Studie von Adkins und Dowdle von 2001 werden zwar Iowa und New Hampshire beide als wichtig dargestellt, jedoch verweisen die Autoren dort auf ihre eigene Studie von 2000, in der man wiederum zu dem Schluss kommt, dass New Hampshire relevanter ist als Iowa.

Die theoretische Überlegung ist nun die, dass Iowa und New Hampshire sehr gut dafür geeignet sein müssten, als unabhängige Variable Ergebnisse von Präsidentschaftswahlen zu prognostizieren. Denn wenn diese beiden die aussagekräftigsten Vorwahl-Staaten sind und es einen Zusammenhang zwischen Vorwahl- und Präsidentschaftswahl-Ergebnissen gibt, dann müssten diese beiden gute Prädiktoren (= unabhängige Variablen) sein. Ob New Hampshire dann tatsächlich relevanter ist als Iowa und welche Rolle der Supertuesday sowie die Amtszeit spielen, wird sich in der späteren Auswertung zeigen.

3.2. Die Rolle des „Supertuesday“

In mehreren Arbeiten wird also deutlich, dass neben Iowa und New Hampshire auch dem Supertuesday für den Vorwahl-Erfolg eine besondere Rolle zugesprochen wird (Nownes 1992, 213; Horst 2009, 260-261). Auch wenn keine einheitliche Definition existiert und manche Quellen den Beginn auf frühestens 1980 festlegen (Montanaro 2016), soll in dieser Arbeit auch der Fall 1976 mit einbezogen werden. Lediglich 1972 muss entfallen, da die zugrunde gelegte Definition für dieses Wahljahr keinen Sinn macht. Damit die anderen Variablen-Werte für 1972 in der Regression nicht wegfallen, wird dieses Problem mithilfe eines paarweisen Fallausschlusses gelöst. Dies trifft auch auf andere fehlende Werte zu, etwa beim fehlenden Wert für die Vorwahl in Iowa auf Seiten der Republikaner, da es hier noch keine Vorwahl gab. Dieses Problem wird im Statistikprogramm SPSS durch den paarweisen Fallausschluss berücksichtigt, der nicht ganze Fälle ausschließt, nur weil ein einzelner Wert fehlt, wie es etwa der standardmäßig eingestellte fallweise/ listenweise Fallausschluss tut (Baltes-Götz 2013, 26).

Als Definition wird die unabhängige Variable Supertuesday in dieser Arbeit so behandelt, dass es um den Termin auf dem Vorwahlkalender geht, an dem die meisten Staaten am gleichen Tag gleichzeitig abgestimmt haben, wobei jene Staaten mit einbezogen werden, in denen nur Demokraten oder nur Republikaner abgestimmt haben. Solange das am gleichen Tag geschehen ist, ist die Voraussetzung für diese Variable erfüllt. Für das Regressionsmodell wird sie schließlich dahingehend operationalisiert, dass für jeden Kandidaten ein Prozentsatz aller kumulierten Stimmen in allen Staaten, in denen an diesem Tag abgestimmt wurde, gebildet wird.

Abschließend sei nochmals darauf verwiesen, dass sich der Supertuesday grundsätzlich deshalb als relevante Variable für die hier behandelte Thematik anbietet, da die Ergebnisse des Supertuesday das gesamte Vorwahl-Rennen maßgeblich beeinflussen können:

“Super Tuesday's impact on the race depends on how many candidates are still in it by that point. Often, it can reinforce that the leading candidates won’t be beaten, and many a candidate has clinched their respective party's nomination after a strong showing on Super Tuesday.” (Washington Post 2016)

4. Multivariate lineare Regression

Der Grundgedanke der Regressionsanalyse ist es, dass auf Grundlage vorhandener Daten Vorhersagen getroffen werden sollen. Dies soll nicht nur dahingehend geschehen, dass geprüft wird, wie groß der Zusammenhang zwischen Variablen ist, sondern auch, um wie viel sich die abhängige Variable verändert (Gehring/Weins 1998, 151).

Grundsätzlich wird dabei zwischen einfacher und multipler bzw. multivariater Regression unterschieden. Letztere, die hier angewendet wird, weist im Gegensatz zur einfachen Regressionsanalyse mehr als eine unabhängige Variable auf. Dabei sollten abhängige und unabhängige Variable nicht darüber hinwegtäuschen, dass es sich bei der unterstellten Kausalbeziehung zunächst nur um eine Vermutung des Untersuchers handelt, wobei diese mittels außerstatistischer Überlegungen auf ihre Plausibilität hin geprüft werden muss (Backhaus et al. 2006, 47).

Eine immer wiederkehrende wichtige Einschränkung ist der Hinweis darauf, dass sich mit Regressionsanalysen Kausalitäten keinesfalls ohne Zweifel nachweisen lassen, da es hier in erster Linie um Korrelationen geht (Backhaus 2006, 48; Gehring/Weins 1998, 152). Eine grundlegende Differenzierung der Regressionsanalyse ist die in Zeitreihenanalyse, Ursachenanalyse und Wirkungsanalyse. Diese Arbeit verfolgt den Ansatz der letzteren, indem geprüft werden soll, welche Auswirkungen Änderungen in den unabhängigen Variablen auf die abhängige Variable haben (Backhaus et al. 2006, 49).

Bezüglich der Vorgehensweise geht es zunächst darum, eine Regressionsfunktion auf Basis der empirischen Daten zu sch ä tzen. Im Anschluss daran wird diese Funktion auf ihre Güte hin überprüft, was durch verschiedene Tests und Indikatoren geschieht (Backhaus et al. 2006, 51).

Diese Funktion hat bei der multiplen Regression grundsätzlich folgende Form:

Abbildung in dieser leseprobe nicht enthalten

Bestimmt wird sie durch die KQ-Methode, also auf Grundlage der Summe der Abweichungsquadrate. B0 steht für den Koeffizienten des konstanten Glieds, b1 und mögliche weitere b-Werte stehen für die Koeffizienten auf Grundlage der vorhandenen Daten der zugehörigen unabhängigen Variable, während X1 ff für die jeweilige unabhängige Variable selbst bzw. deren empirisch beobachteten Wert stehen (Backhaus et al. 2006, 60). Das Kriterium der KQ-Methode besagt, dass die Gerade so durch den Punkteschwarm gelegt werden soll, dass die Summe der abweichenden Quadrate minimal ist (Diekmann 2012, 699). Das Y repräsentiert die abhängige Variable, also den Wert, den man mit der Funktion schätzen will (Backhaus et al. 2006, 60).

Angewandt auf diese Arbeit würde die Funktion dann zum Beispiel so aussehen:

Ergebnis der Präsidentschaftswahl = b0 + b1 * Ergebnisse Iowa + b2 * Ergebnisse New Hampshire + b3 * Ergebnisse Supertuesday + b4 * Amtszeit der eigenen Partei + b5 * Dummy Iowa + b6 * Dummy New Hampshire

Das Ergebnis dieser Gleichung ist also das Ergebnis, das für jedes Wahljahr von 1972-2016 geschätzt wird.

„Die Regressionskoeffizienten besitzen eine wichtige inhaltliche Bedeutung, da sie den marginalen Effekt der Änderung einer unabhängigen Variablen auf die abhängige Variable Y angeben.“ (Backhaus 2006 et al., 61). Inhaltlich können die Regressionskoeffizienten so interpretiert werden: Ändert sich die unabhängige Variable um eine Einheit, dann ändert sich die abhängige um den Faktor der Regressionskoeffizienten. Die Regressions konstante dagegen ist der Wert, den die abhängige Variable hat, wenn die entsprechende unabhängige Variable den Wert 0 annimmt (Gehring/Weins 1998, 157).

4.1. Datengrundlage

Auch wenn der Gegenstand dieser Arbeit in einem Bereich angesiedelt ist, der ziemlich gut erforscht ist, wie bereits ein kurzer Blick ins Quellenverzeichnis offenbart, so muss doch festgehalten werden, dass sich die Suche nach den hier relevanten Daten relativ schwierig gestaltet hat. Gerade ältere Daten zu den Vorwahlen sind nur äußerst aufwendig zu finden und in vielen Fällen sind die Daten mit einigen Lücken behaftet oder man muss ernsthaft die Seriosität der Quellen infrage stellen. Im Endeffekt hat diese Situation für diese Arbeit dazu geführt, dass viele Daten aus mehreren verschiedenen Quellen zusammengestellt werden mussten. Dies war besonders hinsichtlich des Supertuesday ein Problem.

Trotz des hohen Aufwands konnten am Ende die meisten Daten gefunden werden, jedoch blieben einige Lücken bestehen - und so reiht sich auch diese Arbeit in das altbekannte Problem ein, dass sozialwissenschaftliche Untersuchungen oft mit unvollständigen Datensätzen arbeiten müssen (Backhaus/Blechschmidt 2009, 265-266). Besonders hervorgehoben sei an dieser Stelle, dass Daten zur Präsidentschaftswahl in allen möglichen Variationen und vielen verschiedenen Quellen zu finden sind, während das für die Vorwahlen nur in sehr beschränktem Maße gilt. Hier zeigt sich im Endeffekt, dass den Vorwahlen bisher wohl doch keine allzu große Bedeutung beigemessen wird, oder zumindest eine wesentlich geringere als der Präsidentschaftswahl selbst. Problematisch ist ferner, dass es keine einheitliche Methode gibt, wie einzelne Staaten Daten zu ihrem Bundesstaat erheben oder zur Verfügung stellen. Während mancher Staat hier sehr gute und professionelle Dokumente zur Verfügung stellt, fehlen diese bei anderen gänzlich.

Die Quellen für die Daten finden sich ausführlich aufgelistet im Quellenverzeichnis, wobei jeweils angegeben ist, für welche Variable und welchen Fall die angegebene Quelle Datengrundlage war.

An dieser Stelle muss außerdem angemerkt werden, dass bezüglich der Supertuesdays nicht in jedem Staat bei einer Primary oder einer Caucus 100% der Ergebnisse vorliegen. Dies dürfte aber nicht besonders signifikant für die Ergebnisse sein. Denn wenn keine 100% vorlagen, waren es trotzdem zumindest meist 99%, selten 98%.

Im nächsten Abschnitt wird das Problem der fehlenden Daten eingehender behandelt.

4.2. Probleme bei der Datenerhebung

4.2.1. Fehlende Werte

Für die Thematik dieser Arbeit haben Dummy-Variablen deshalb eine Relevanz, weil es sowohl bei Demokraten als auch bei Republikanern jeweils mehrere Fälle gibt, in denen ein Präsidentschaftskandidat ohne Gegenkonkurrenten angetreten ist und deshalb 100% der Delegiertenstimmen bekommen hat (siehe Abbildung 1). Um dieser Verzerrung entgegenzuwirken, wurden einerseits Modelle mit Dummy-Variablen konzipiert, sowie andererseits solche, in denen diese weggelassen wurden und die 100%-Fälle stattdessen wie fehlende Daten behandelt und somit imputiert wurden.

Da die Imputation von Daten aber problematisch sein kann (Backhaus/Blechschmidt 2009, 266)), wurde diese lediglich deshalb durchgeführt, um einen Vergleich mit den Modellen mit fehlenden Daten sowie mit der Dummy-Variablen-Technik zu ziehen.

Um dem Problem fehlender Werte zu begegnen, bietet sich also die sogenannte Regressionsimputation an. Bei dieser werden fehlende Werte in einem Merkmal mithilfe der Schätzungen aus einem Regressionsmodell ersetzt. Es wird also eine eigene Regression für die fehlenden Werte durchgeführt (Joenssen 2014, 54). Man könnte sagen, es handele sich um eine Regression in der Regression. Die Imputationswerte werden letztendlich also von einer zusätzlichen Regressionsgleichung bestimmt, indem man die vorliegenden vollständigen Fälle der Stichprobe und ihre korrelativen Informationen derart nutzt, eine zusätzliche Regressionsfunktion zu schätzen. So werden fehlende Werte für die entsprechende unabhängige Variable geschätzt, indem sie in der Imputationsgleichung wie eine abhängige Variable behandelt werden (Backhaus/Blechschmidt 2009, 271). Es wird also eine zusätzliche Hilfsregression eingeführt (Toutenburg/Heumann 2006, 285).

Ziel ist dabei nicht die Vorhersage von „wahren“ fehlenden Werten, sondern dass man mit einer Analysemethode eine Schätzung so vornimmt, dass sie unabhängig von der Existenz fehlender Werte möglichst unverzerrt ist. Wichtig dabei ist, dass die Imputation immer im Kontext eines konkreten Anwendungsverfahrens beurteilt werden sollte. Backhaus und Blechschmidt verweisen in diesem Kontext auch auf das Thema der Datenqualität. Demnach liege eine hohe Datenqualität vor, wenn das Imputationsverfahren zu einer adäquaten und unverzerrten Schätzung führt.

Kritisiert wird in diesem Kontext auch der Einsatz des fallweisen Ausschlusses fehlender Werte (Backhaus/Blechschmidt 2009, 266). Denn wenn Fälle mit nur vereinzelten fehlenden Werten komplett eliminiert werden, kann aus einer eigentlich guten Stichprobe ein zu kleiner Datensatz werden, in dessen Konsequenz sich Verzerrungen weiter erhöhen können (Backhaus/Blechschmidt 2009, 268). Das ist der Grund, weshalb in dieser Arbeit mit einem paarweisen Fallausschluss gearbeitet wurde. Backhaus und Blechschmidt halten den praktischen Umgang mit dem fallweisen Ausschluss nur für bedingt geeignet, da eben zu viele verfügbare Informationen unnötigerweise verworfen werden (Backhaus/Blechschmidt 2009, 283).

Grundsätzlich warnen die Autoren hinsichtlich der Regressionsimputation jedenfalls vor einem möglicherweise ungeeigneten Verfahren, da unvollständige Datensätze so nachhaltig beeinflusst werden können. Außerdem sollte gerade im Rahmen dieser Arbeit beachtet werden, dass die Regressionsimputation umso sinnvoller ist, je mehr Fälle sie beinhaltet (Backhaus/Blechschmidt 2009, 266). Die Fallzahl hier ist mit nur elf also für eine Regressionsimputation relativ gering.

Inwiefern dies auf die Modelle in dieser Arbeit zutrifft und auch, wie die Datenqualität infolge der Imputation zu bewerten ist, wird in Abschnitt 5 erörtert.

Wichtig in diesem Kontext ist darüber hinaus die Unterscheidung nach Rubin zwischen MCAR (Missing Completely at Random) und MNAR (Missing not at Random) (Backhaus/Blechschmidt 2009, 268). MCAR liegt vor, wenn das Fehlen von Werten unabhängig von anderen Elementen des Datensatzes ist. Mit anderen Worten, bei MCAR beeinflussen sich die unabhängigen Variablen nicht untereinander, das Fehlen von Werten resultiert aus Werten und Eigenschaften anderer Variablen (Backhaus/Blechschmidt 2009, 269). Für die hier angewendete Regressionsimputation wird von einem MCAR-Fall ausgegangen.

Letztlich bietet die Möglichkeit der Regressionsimputation Vor- und Nachteile. Vorteile sind, dass für die fehlenden Werte eigene Werte imputiert werden und Abhängigkeiten zwischen den Variablen ausgenutzt werden können, um so einen vollständigen Datensatz zur Verfügung zu haben. Die Nachteile sind jedoch nicht zu unterschätzen. So wird oftmals die Beziehung zwischen der abhängigen und den unabhängigen Variablen überschätzt und im MCAR-Fall ist wegen der angenommenen Unabhängigkeit der unabhängigen Variablen untereinander eine weitere Verzerrung zu erwarten (Backhaus/Blechschmidt 2009, 271). Dieser letzte Fall ist zwar in den hier behandelten Modellen mit Regressionsimputation nicht eingetreten, jedoch zeigt die Auflistung von Backhaus und Blechschmidt, dass die Nachteile unter Umständen überwiegen können und das Imputationsverfahren deshalb gut überlegt angewandt werden sollte.

Eine Anwendung des Imputationsverfahrens ist aber grundsätzlich deshalb immer eine Überlegung wert, da fehlende Daten zunächst zu einem Informationsverlust führen (Toutenburg/Heumann 2006, 263).

4.2.2. Dummy-Variablen

Eine Dummy-Variable ist eine künstliche Variable, die eine Eigenschaft mit zwei oder mehr Kategorien repräsentiert. Sie wird erzeugt, um den Regressionsalgorithmus dahingehend zu täuschen, dass er kategoriale Variablen korrekt analysiert (Skrivanek 2009, 1). Grundsätzlich ist eine wichtige Voraussetzung für die Regressionsanalyse, dass alle Variablen metrisches Skalenniveau haben. Durch Anwendung der sogenannten Dummy-Variablen- Technik lässt sich dies aber umgehen, indem kategoriale Variablen durch eine binäre 0-1- Kodierung in metrische Variablen übersetzt werden (Backhaus 2006, 50). Diese Kodierung beinhaltet die nominalen Aussagen über „wahr“ und „falsch“ bzw. „liegt vor“ und „liegt nicht vor“. Im Fall der hier verwendeten Dummy-Variablen geht es um die Frage, ob ein Kandidat konkurrenzlos war (kodiert mit 1) oder nicht konkurrenzlos (kodiert mit 0). Technisch betrachtet steht hinter den Dummy-Variablen, dass ein Koeffizient aus der Gleichung eliminiert wird, wenn ein entsprechender Fall einer Dummy-Variable mit 0 kodiert wird (Garvaglia/Scharma 2016, 1). Dadurch kann also im Fall der konkurrenzlosen Kandidaten der Effekt der 100%-Ergebnisse ausgeglichen werden.

Normalerweise soll eine Dummy-Variable dazu führen, dass das R² sich gegenüber Modellen ohne Dummy verbessert (Garvaglia/Scharma 2016, 3). Im Fall der Modelle für den Popular Vote trifft dies auch im hier konstruierten Modell zu, allerdings sinkt das korrigierte R². Grundsätzlich wird der Einsatz von Dummy-Variablen als sehr positiv und als Gewinn betrachtet, da sie sehr flexibel einsetzbar sind und Modelle dadurch besser werden (Garvaglia/Scharma 2016, 10).

In diesem Rahmen verweisen Stein et al. darauf, dass die Verwendung standardisierter Regressionskoeffizienten für Dummy-Variablen unzulässig ist. An dieser Stelle sei erwähnt, dass hier unter anderem deshalb bei allen Modellen mit den unstandardisierten Koeffizienten gearbeitet wurde (Stein et al. 2016, 23).

4.3. Prüfung der Regressionsfunktionen und Modellprämissen

Die grundlegende Unterscheidung besteht hier zwischen den Globalen G ü tema ß en und den Maßen zur Prüfung der Regressionskoeffizienten, wobei zu den Globalen G ü tema ß en das Bestimmtheitsmaß R², die F-Statistik sowie der Standardfehler gehören. Mit diesen prüft man die gesamte Funktion und die Frage, wie gut die abhängige Variable durch das Modell erklärt wird. Die Prüfung der Koeffizienten erfolgt mithilfe des t-Werts und des Beta-Werts. Mit diesen wird geprüft, wie gut einzelne Variablen zur Erklärung der abhängigen Variable geeignet sind (Backhaus 2006, 63).

Die Grundlage für das Bestimmtheitsmaß bilden die Residualgrößen. Residuen beschreiben die Abweichung der Beobachtungswerte von den geschätzten Werten. In einer Gleichung lässt sich dies folgendermaßen ausdrücken: Gesamtabweichung = Erklärte Abweichung + Residuum. Das Residuum ist in diesem Fall die nicht erklärte Abweichung (Backhaus 2006, 64-65). Das R² bzw. Bestimmtheitsmaß ist letztendlich das Verhältnis von erklärter Streuung und der gesamten Streuung der empirischen Beobachtungspunkte um die Regressionsgerade. Wichtig dabei ist, dass das R² eine fest bestimmte Größe ist, die immer zwischen 0 und 1 liegt. Je näher es an der 1 liegt, desto höher ist der Anteil der erklärten Streuung, je näher an der 0, desto niedriger der Anteil der erklärten Streuung (Backhaus 2006, 66). Doch was sagt uns die nicht erklärte Streuung? Die nicht erklärte Streuung ist der Anteil der Streuung, der durch andere Einflüsse hervorgerufen wird, die nicht in das Regressionsmodell einbezogen wurden (Backhaus et al. 2006, 67). Da das R² mit jeder zusätzlichen unabhängigen Variable steigt, bedarf es eines korrigierten R², das diesem Umstand Rechnung trägt. Das einfache Bestimmtheitsmaß wird umso stärker vermindert, je größer die Zahl der unabhängigen Variablen ist (Backhaus et al. 2006, 68).

Allgemein gilt, dass die Güte der Regressionsgeraden daran festgemacht werden kann, dass alle Punkte der Verteilung den kleinstmöglichen Abstand zur Geraden haben (Gehring/Weins 1998, 154). Um die Güte der Annäherung der Verteilung an die Gerade - und somit nach Gehring und Weins auch die Prognosequalität - bestimmen zu können, zieht man also das R² heran, das angibt, welcher Anteil der Varianz der abhängigen Variable durch die unabhängigen erklärt wird. Nach Gehring und Weins ist die Bedeutung der unabhängigen Variablen gering, wenn die Varianz hoch bzw. das R² niedrig ist (Gehring/Weins 1998, 158). Das Maß heißt R², weil die Abweichungen quadriert werden müssen, um somit zu vermeiden, dass sich positive und negative Abweichungen gegenseitig aufheben. Dennoch weisen Gehring und Weins bereits darauf hin, dass das R² bei sozialwissenschaftlichen Untersuchungen in der Regel keine hohen Werte annehme. Ein R² von 0,2 sei demnach schon eines, über das man sich freuen könne. Gleichwohl weisen die Autoren darauf hin, dass dies nicht zwangsläufig ein Indikator dafür sein muss, dass keine starken Zusammenhänge vorhanden wären (Gehring/Weins 1998, 161). Einen Wert von 0,73 beispielsweise charakterisieren sie für Sozialwissenschaften als sehr hohen Wert, der in der Praxis nur selten erreicht werde. Im Endeffekt jedenfalls lässt sich aus dem Wert des R² auch ein Prozentwert

[...]

Details

Seiten
39
Jahr
2016
ISBN (eBook)
9783668767461
ISBN (Buch)
9783668767478
Dateigröße
1.6 MB
Sprache
Deutsch
Katalognummer
v436401
Institution / Hochschule
Technische Universität Darmstadt – Institut für Politikwissenschaft
Note
1,0
Schlagworte
Trump US-Wahl Präsidentschaftswahl Lineare Regression Multivariate Regression Regression Vorwahl Wahlen Wahl Donald Trump Hillary Clinton Clinton USA

Autor

Teilen

Zurück

Titel: Auf der Suche nach dem nächsten US-Präsidenten. Besteht ein Zusammenhang zwischen Vorwahl-Erfolg und dem Ergebnis bei der Präsidentschaftswahl?