Lade Inhalt...

Die Bundestagswahl 2017. Welchen Einfluss hatten Strukturdaten auf die Wahlkreisergebnisse der Parteien?

von Christian Ramspeck (Autor) Fabian Haggerty (Autor) Tom Hartl (Autor)

Projektarbeit 2018 62 Seiten

Politik - Grundlagen und Allgemeines

Leseprobe

Inhaltsverzeichnis

I. Einleitung

II. Daten
II.1 Wahldaten
II.2 Strukturdaten

III. Methode
III.1 Das Lasso
III.2 Lambda-Parameter
III.3 Kolmogorov-Smirnov-Test für Normalverteilung
III.4 Kollinearität und „Heavy Tails“
III.5 Cross-Validation
III.6 Lasso mit skalierten Werten ohne Cross Validation

IV. Ergebnisse
IV.1 Qualität des Modells und der Vorhersagen
IV.1.1 Pseudo-R²-Wert
IV.1.2 Absolute Errors
IV.2 Diagnoseplots
IV.3 Exkurs: Cleavage-Theorie und Ergebnisse der Regression

V. Fazit

VI. Abbildungsverzeichnis

VII. Bibliographie

VIII. Anhang:

Abstract

In der vorliegenden Arbeit untersuchen wir den Zusammenhang zwischen den sozioökonomischen Strukturen der Wahlkreise und den unterschiedlichen Wahlergebnissen der Parteien in diesen Wahlkreisen. Dabei erklären wir die Zusammenhänge zwischen den Strukturvariablen und den Wahlkreisergebnissen anhand einer Lasso-Regression mit Cross-Validation. Die Ergebnisse zeigen, dass Strukturdaten zu einem hohen Grad die unterschiedlichen Wahlergebnisse erklären können. Zudem deutet das Modell daraufhin, dass einige der klassischen Konfliktlinien der Cleavage-Theorie nach Lipset/Rokkan sich in den Strukturvariablen mit dem größten Einfluss wiederfinden. Die Modelle für die einzelnen Parteien bestätigen zudem Erkenntnisse der bisherigen Wahlforschung.

I. Einleitung

Am 24. September 2017 fand die Wahl zum 19. Deutschen Bundestag statt.

Soziodemographische Faktoren stellen wichtige Variablen für die Bestimmung und Analyse von eben solchen Wahlergebnissen dar.

In dieser Arbeit untersuchen wir, welchen Einfluss Strukturdaten, insbesondere sozio- demographische und (sozio-)ökonomische Variablen auf die unterschiedlichen Wahlergebnisse der Wahlkreise bei der Bundestagswahl 2017 hatten. Wir halten dieses Thema für höchst relevant, sowohl in der Politik als auch in der Wissenschaft: Jede politische Partei strebt bei einer Wahl nach maximalen Erfolg durch Erhalt von Stimmen. Durch Erläuterung der womöglich wichtigsten abhängigen Variablen für die unterschiedlichen Wahlergebnisse kann ermittelt werden, welche Wählergruppen mehrheitlich für welche Parteien gestimmt haben und in welchen Wahlkreisen die Ergebnisse besonders stark von den Erwartungen abweichen, möglicherweise aufgrund von Wahlkreiskandidaten, lokaler Wahlkampfstrategien etc.

Die Forschungsfrage soll außerdem aufwerfen, inwiefern anhand von Strukturdaten sich die unterschiedlichen Wahlkreisergebnisse der Parteien erklären lassen. Dafür werden am Beispiel der CSU die stärksten Einflussvariablen untersucht. Zusätzlich schauen wir uns an, welche Cleavages sich nach der Cleavage-Theorie (Lipset/Rokkan)1 in diesen wiederspiegeln.

In diesem Zusammenhang wird im folgenden Methodenteil die Anwendung der Methode beschrieben, sowie die Beschaffung jener strukturellen Daten erläutert. Ferner wird etwas spezifischer auf die Lasso-Regression eingegangen, insbesondere auf deren Wirkungsweise und Vorteil im Zusammenhang mit der Datenanalyse. Im darauffolgenden Abschnitt werden die Ergebnisse unserer Analyse beschrieben, inklusive Untersuchung der Analyse- und Ergebnisplots.

Schließlich werden im Fazit unsere Methode und Ergebnisse zusammengefasst und deren Bedeutung für die Cleavage-Theorie und zukünftige Forschung.

II. Daten

Im Folgenden soll zuerst beschrieben werden, wie die benötigten Daten für diese Analyse entstanden sind, beschafft und bearbeitet wurden.

Hierfür haben wir genau zwei Datensätze verwendet, einer mit den Wahlergebnissen und ein Datensatz mit Strukturdaten.

II.1 Wahldaten

Das (endgültige) Wahlergebnis der Bundestagswahl verkündet der Bundeswahlleiter. Dazu ermitteln die einzelnen Kreiswahlausschüsse auf Basis der Wahlbezirksergebnisse die Erst- und Zweitstimmenergebnisse in ihren jeweiligen Wahlkreisen. Diese werden an die entsprechenden Landeswahlausschüsse weitergeleitet. Diese wiederum ermitteln dann das jeweilige Zweitstimmenergebnis in ihrem Bundesland und stellen dieses fest. Nach Weitergabe der Ergebnisse an den Bundeswahlausschuss (unter dem Vorsitz des Bundeswahlleiters) stellt dieser das Gesamtergebnis der Landeslistenwahl fest. Der Bundeswahlleiter gibt dann das endgültige Wahlergebnis im bundesweiten Wahlgebiet öffentlich bekannt (die Ergebnisse auf Landes- und Wahlkreisebene geben die entsprechenden Wahlausschüsse bekannt). Dies geschieht alles sehr bald nach Schließung der Wahllokale und ist meist am nächsten Tag am frühen Morgen abgeschlossen.2 Damit steht dann das vorläufige Endergebnis fest.

Einige Wochen nach der Wahl und nach genauer Überprüfung stellt dann der Bundeswahlausschuss das endgültige Wahlergebnis fest, welches der Bundeswahlleiter öffentlich bekannt gibt.

Dieses System hat den Vorteil, dass sehr schnell alle wichtigen Wahldaten zentral beim Bundeswahlleiter gesammelt werden können. Relativ zeitnah nach der Verkündung des endgültigen Wahlergebnisses (in diesem Fall Oktober 2017) veröffentlicht daher der Bundeswahlleiter auch einen ausführlichen Datensatz mit dem endgültigen Ergebnis. Dieser ist sowohl als Schriftsatz, als auch als CSV-Datei kostenlos auf der Homepage des Bundeswahlleiters herunterzuladen.3 Zum Zeitpunkt unsere Analyse bestand der erhältliche Datensatz aus den einzelnen Ergebnissen der Wahlkreise (nicht der Wahlbezirke). Dieser CSV-Datensatz wurde von uns noch um die Variable Wahlbeteiligung ergänzt. Dazu haben wir die im Datensatz angegebene jeweilige Zahl der Wahlberechtigten durch die jeweils angegebene Anzahl der abgegebenen Stimmen geteilt und somit eine prozentuale Angabe der Wahlbeteiligung hinzugefügt.

II.2 Strukturdaten

Zusätzlich zu den Wahlergebnissen veröffentlicht der Bundeswahlleiter bereits vor der Bundestagswahl einen ausführlichen Datensatz für Strukturdaten, welcher für jeden Wahlkreis jeweils 48 verschiedene (sozio-)ökonomische und demographische Variablen angibt. Dieser ist wiederum als Schriftstück und als CSV-Datei kostenlos auf dessen Homepage herunterzuladen.4 Die Daten stammen überwiegend aus Veröffentlichungen der statistischen Ämter des Bundes und der Länder. Weitere Quellen für diesen Strukturdatensatz waren die Bundesagentur für Arbeit und der Zensus 2011. Der Stichtag der meisten Daten war der 31.12.2016, jedoch nie vor 2011. Die genaue Zusammensetzung des Strukturdatensatzes und die jeweiligen Quellen lassen sich in der entsprechenden Publikation des Bundeswahlleiters und im Anhang nachlesen.5 Zu beachten ist allerdings, dass bei manchen Städten, welche in mehrere Wahlkreise unterteilt sind, für einige Variablen keine gesonderten Daten für die einzelnen Wahlkreise vorlagen, weshalb die stadtweiten Zahlen gleichermaßen auf alle innerstädtischen Wahlkreise angewandt wurden. Insbesondere für Berlin ist dies zu beachten, welches in zwölf Wahlkreise unterteilt ist, bei dem jedoch für überdurchschnittlich viele Variablen jeweils nur landesweite Zahlen für jeden Wahlkreis angegeben werden konnten.

Auch diesen Datensatz haben wir für unsere Analyse um weitere Variablen ergänzt. Zum einen haben wir ein paar Variablen aufgrund ihrer optisch sichtbaren “heavy-tail” Verteilung logarithmiert und den Datensatz um die entsprechenden log-Variablen ergänzt. Des Weiteren haben wir eine Ost-West-Variable eingefügt, welche angibt, ob ein Wahlkreis im Gebiet der ehemaligen DDR liegt. Die Wahlkreise des Landes Berlin haben wir jeweils per Hand dem Ost- oder Westteil zugeteilt, je nachdem, ob der größere Teil der Fläche des Wahlkreises auf ehemaligen Ost- oder Westberliner Gebiet liegt.6

III. Methode

Im folgenden Teil erläutern wir unsere Datenanalysemethode. Wir bedienen uns hierfür der Lasso-Methode. Um Overfitting auszuschließen, führen wir zudem eine K-Fold Cross-Validation durch. Außerdem untersuchen wir die Variablen auf Normalverteilung, Log-Normalverteilung und Kollinearität.

III.1 Das Lasso

Um den Zusammenhang zwischen den unabhängigen Strukturvariablen und den Zweitstimmenanteilen der Parteien zu analysieren, bedienen wir uns der Lasso-Methode. Diese wurde erstmals 1996 von Tibshirani entwickelt und veröffentlicht. Das Lasso ist eine Lineare Shrinkage Regressionsmethode und hat gewisse Vorteile gegenüber der Ordinary Least Square Regression (OLS).

Multiple OLS-Regression versucht den Einfluss von p Predictor-Variablen auf eine abhängige Variable zu messen. β0 ist in der folgenden Funktion der Intercept während β0 bis βp die Koeffizienten der Variablen 1 bis p sind.

Abbildung in dieser Leseprobe nicht enthalten

Das Modell wird dabei auf die Daten gefittet, in dem man den Least Square-Wert (RSS) minimiert.

Daher ergibt sich für die OLS folgende Kostenfunktion7:

Abbildung in dieser Leseprobe nicht enthalten

yi ist der echte Wert der Beobachtung, während yi^ der vorhergesagte Wert des Modells ist. Allerdings ist OLS bei einem Modell mit vielen unabhängigen Variablen nicht mehr zweckmäßig, da es nur sehr schlecht mit Kollinearität umgehen kann und zu „Overfitting“ tendiert.

Das Lasso dagegen führt einen Bestrafungsparameter bei der Kostenfunktion ein, der dafür sorgt, dass Variablen die keinen Einfluss auf die unabhängige Variable haben, auf null geschrumpft werden. Das hat zum einen den Vorteil, dass verhindert wird, ein Modell zu bekommen, das deutlich einfacher zu interpretieren ist, da es weniger Variablen beinhaltet. Zudem macht Lasso meist deutlich besser Vorhersagen.

Für das Lasso ergibt sich dann folgende Kostenfunktion:

Abbildung in dieser Leseprobe nicht enthalten

λ ist hier der Tuning-Parameter. Desto größer λ ist, desto kleiner werden die Koeffizienten. Lambda reguliert also den Bestrafungsfaktor. Der optimale Wert für λ ist entscheidend für das Modell und wird über Cross-Validation bestimmt. Der Bestrafungsfaktor des Lassos ist die L1-Penality und hat gegenüber der Ridge-Regression den Vorteil, dass Variablen tatsächlich auf null geschrumpft werden. Anders als beim Lasso werden bei der Ridge-Regression die Koeffizienten quadriert (statt in Betragsstrichen).

III.2 Lambda-Parameter

Wir haben die Lasso-Regression über das glmnet-Package in R durchgeführt, das mit „cv.glmnet“ eine Funktion liefert, mit der man direkt den besten Lambda-Wert ermitteln kann. Die Funktion liefert dabei zwei Werte für Lambda, einmal den Wert für das beste Modell, also bei der die Kostenfunktion den kleinsten Wert annimmt, und einmal den Wert für das größte Lambda, bei dem der Wert für die Kostenfunktion noch innerhalb eines Standardfehlers liegt. Wir benutzen für unsere Lasso-Regression den zweiten Lambda-Wert, da wir sehr viele Variablen haben, und dadurch ein paar Variablen mehr auf null geschrumpft werden, was die Interpretierbarkeit des Modells erleichtert. Wir nehmen dafür in Kauf, dass unsere Vorhersagen ein klein wenig schlechter sein werden, doch der Unterschied ist marginal.

III.3 Kolmogorov-Smirnov-Test für Normalverteilung

Zudem haben wir unser Modell noch auf Kollinearität der Variablen und auf Normalverteilung untersucht.

Um die Variablen auf Normalverteilung zu untersuchen, haben wir einen zweiseitigen Kolmogorov-Smirnov-Test auf den Variablen durchgeführt.8

Der Test untersucht die Wahrscheinlichkeit, dass die Nullhypothese, in diesem Fall, dass unsere Variable normalverteilt ist, wahr ist.

Der Test hat für jede Variable zwei Outputs. Einmal den statistic-Wert, der die Distanz zwischen der empirischen Verteilungskurve und in diesem Fall der Normalverteilungskurve beschreibt. Der Wert, der für unser Modell aber von Bedeutung ist, ist der p-Wert. Er beschreibt die Wahrscheinlichkeit, dass die Nullhypothese, in diesem Fall, dass die Variable normalverteilt ist, wahr ist.

Das Ergebnis des Kolmogorov-Smirnov-Tests ist, dass der P-Wert für alle Variablen null ist, was bedeutet, dass keine der Variablen normalverteilt sind.

III.4 Kollinearität und „Heavy Tails“

Daraufhin haben wir über die „pairs.panels“-Funktion aus dem „readr“-Package eine Grafik erzeugt, die die Verteilungen der Variablen und die Kollinearität zwischen ihnen darstellt.

Da die Grafik sehr hoch aufgelöst ist, um lesbar zu sein, ist es nicht möglich, sie in dieser Arbeit erkennbar darzustellen, sie kann jedoch über den R-Code jederzeit selbst erzeugt werden:

Dabei ist aufgefallen, dass die Variablen Gemeinden, Fläche, Einwohner/km[2], Beschäftigte Landwirtschaft und BIP sogenannte „Heavy Tails“ in der Verteilung aufweisen. Ihre Verteilung lies den Schluss zu, dass diese Variablen auch Log-Normalverteilt sein könnten, weshalb wir uns dazu entschieden haben, diese Variablen zusätzlich als Log-Variablen ins Modell einzubauen.

Was die Kollinearität angeht, so fiel auf, dass einige Variablen sehr hohe Kollinearität aufwiesen.

Das Lasso kann zwar mit Kollinearität umgehen, indem es eine der beiden Variablen auf null schrumpft und somit aus dem Modell entfernt. Allerdings gilt zu beachten, dass statt einer Variable auch zufällig eine andere Variable hätte ausgewählt werden können. Je größer die Kollinearität, desto wahrscheinlicher und austauschbarer sind die Variablen gegeneinander.

In der Grafik lassen sich folgende Kollinearitäten herauslesen:

Bei den Variable “Ohne -” und “Mit Migrationshintergrund” haben wir eine negative Kollinearität von -1, was nicht erstaunlich ist, da sie genau gegensätzliche Werte darstellen. Hier wählt das Lasso-Modell, sofern es eine der Variablen auswählt, zufällig eine der beiden aus. Außerdem haben beide Variablen eine Kollinearität von 0,88 bzw. -0,88 zur Variable “AusländerAnteil”.

Außerdem haben wir eine Kollinearität von 0,91 zwischen den Variablen “Beschäftigte” und “BIP” und eine Kollinearität von 0,89 zwischen den Variablen “Autos” und “Eigentümerquote.”

Die Variablen “Alter60-75” und “Alterab75” haben eine Kollinearität von 0,90 und sind beide mit einem Wert von -0,89 kollinear zu “Geburtensaldo”.

Die größte Kollinearität besteht aber zwischen den Variablen zu Arbeitslosigkeit und Sozialempfängern mit Ausnahme der “ausländischen-” und der “nicht-erwerbsfähigen Arbeitslosen”. Dabei beträgt die Kollinearität zwischen “Arbeitslose”, “Arbeitslose- Männern” und “Arbeitslose-Frauen” zwischen 0,98 und 1,00, was bedeutet, dass diese Variablen ziemlich gut austauschbar sind. Die drei Variablen haben zusätzlich Kollinearitäten von 0,93-0,94 mit der Variable “Sozialempfänger” und Kollinearitäten zwischen 0,81 und 0,95 mit den Variablen der “Arbeitslosen15-19Jährigen” und der “Arbeitslosen55- 64Jährigen”.

Diese Kollinearitäten gilt es bei der Interpretation der Koeffizienten zu beachten.

III.5 Cross-Validation

Da auch beim Lasso-Modell Overfitting nicht ausgeschlossen werden kann, haben wir eine 12-fold-Cross-Validation erstellt. Das heißt, wir teilen den Datensatz, also die Wahlkreise in zwölf gleichgroße „Folds“ auf und bauen das Modell dann auf Grundlage von elf Folds, um mit dem Modell den zwölften Fold vorherzusagen. Das machen wir zwölf Mal, nehmen die Ergebnisse und haben dann eine Prediction, bei der Overfitting ausgeschlossen werden kann, da das Ergebnis eines Wahlkreises nicht in das Modell einfließt, das ihn vorhersagt. Aus den Ergebnissen der Cross-Validation, ergibt sich ein Pseudo-R[2]-Wert, die vorhergesagten Wahlergebnisse einer Partei, ein summary über die Absolute Errors, also wie weit unsere vorhergesagten Ergebnisse von den echten Wahlergebnissen entfernt waren, und der MSE.

Zusätzlich haben wir einen Seed für das Modell festgelegt, um die Ergebnisse reproduzierbar zu machen (Seed = 1). Außerdem haben bei elf Wahlkreisen Strukturdaten gefehlt, weshalb wir diese elf Wahlkreise aus dem Modell entfernen mussten, da das Lasso mit fehlenden Daten nicht umgehen kann.

III.6 Lasso mit skalierten Werten ohne Cross Validation

Zusätzlich zum Lasso mit Cross-Validation haben wir ein Lasso ohne Cross-Validation durchgeführt, um einheitliche Koeffizienten für jede Partei zu bekommen. Das Problem bei Lasso mit Cross-Validation ist, dass man zwölf verschiedene Lambda-Werte und zwölf verschiedene Modelle mit jeweils unterschiedlichen Koeffizienten bekommt. Daher stammen die endgültigen Koeffizienten unserer Modelle und die meisten Plots aus dem Lasso ohne Cross-Validation. Wenn man die R[2]-Werte und die Summarys der Absolute Errors aus dem Lasso mit und ohne Cross-Validation vergleicht, so sind diese nie weit auseinander. Daher kann man das leichte Overfitting aus dem Modell ohne Cross-Validation vernachlässigen und die Koeffizienten des Modells ohne Cross-Validation als zuverlässig betrachten.

Um die Effektstärke der Variablen besser vergleichen zu können, haben wir zusätzlich die unabhängigen Variablen skaliert (mean = 0; standard deviation = 1).

Was allerdings auffällt, ist, dass bei verschiedenen Parteien unterschiedliche und vor allem unterschiedlich viele Variablen am Ende im Modell enthalten sind.

IV. Ergebnisse

IV.1 Qualität des Modells und der Vorhersagen

IV.1.1 Pseudo-R²-Wert

Der (Pseudo-)R[2]-Wert stellt dar, wie viel Prozent der Varianz in der abhängigen Variable unser Modell erklären kann. Er nimmt also einen Wert zwischen 0 und 1 an, 0 für 0% und 1 für 100%. Das perfekte Modell würde daher einen R[2] -Wert von 1 annehmen. Generell lässt sich nicht immer sagen, ab welchem R[2]-Wert ein Modell gut oder schlecht ist. So kann ein Wert von 0,5 für ein Modell in einem Kontext ein sehr guter Wert sein, während er in einem anderen Zusammenhang für ein schlechtes Modell stehen kann.

In unserem Fall zeigt der R[2]-Wert, wie viel Prozent der Wahlergebnisse man nur anhand von unseren sozioökonomischen Strukturvariablen erklären kann.

Dabei kamen bei uns für die „großen Parteien“ Werte zwischen 0,720 bei der FDP und 0,917 bei der Linkspartei raus, was erstaunlich hohe Werte für ein Modell darstellen, dass nur auf Strukturvariablen beruht. Das heißt, dass die sozioökonomischen Strukturen der Wahlkreise, die in unser Modell einfließen bis zu 92% der Unterschiede zwischen den Wahlkreisen erklären können. Man erkennt auch beim Vergleich der R[2] -Werte des Modells mit und ohne Cross-Validation, wie oben bereits erwähnt, dass die R[2] -Werte sehr ähnlich sind und, dass daher Overfitting im Modell ohne Cross-Validation vernachlässigt werden kann.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: R[2]-Werte mit und ohne Cross-Validation

IV.1.2 Absolute Errors

Die Absolute Errors sagen uns, um wie viel die Vorhersage des Wahlergebnisses neben dem echten Ergebnis liegt. Ihre Verteilung lässt sich auch aus dem „Cumulative Distribution“-Plot herauslesen.

Hier das Summary der Absolute Errors der vorhergesagten SPD-Ergebnisse beim Modell mit Cross-Validation…

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Summary Absolute Errors SPD mit Cross Validation

und ohne Cross-Validation:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Summary Absolute Errors SPD ohne Cross Validation

Auch hier wieder das gleiche Bild, die Ergebnisse mit und ohne Cross-Validation ähneln sich, sodass man Overfitting im Modell ohne Cross-Validation vernachlässigen kann.

Aus dem Summary kann man herauslesen, dass die Hälfte der vorhergesagten Ergebnisse der SPD weniger als 2% vom echten Ergebnis entfernt liegen. Im Durchschnitt liegen die Ergebnisse um 2,176% daneben (ohne Cross-Validation 2,095%), was kein schlechter Wert ist, dafür, dass das Modell Vorhersagen nur anhand der Strukturvariablen trifft. Bei dem Wahlkreis, der am schlechtesten vorhergesagt wurde, lag die Vorhersage um 10,38% (10,754%) daneben. Bei diesem Wahlkreis handelt es sich um einen der Ausreißer, die man in den Plots in 3.2 erkennen kann.

Bei der AfD sehen die Ergebnisse ähnlich aus:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4: Summary Absolute Errors AfD mit Cross Validation

...und ohne Cross-Validation:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5: Summary Absolute Errors AfD ohne Cross-Validation

Der „PredErg vs. Erg“-Plot stellt dar, wie weit die vorhergesagten Ergebnisse aus der Cross Validation von den echten Ergebnissen entfernt liegen. Je näher die Punkte an der Linie liegen und je gleichmäßiger sie um sie verteilt sind, desto besser ist die Vorhersage bzw. das Modell. Hier sieht man für die SPD, dass sich die vorhergesagten Ergebnisse alle recht nah und gleichmäßig um die Gerade verteilen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 6: Plot - SPD Predicted vs. Fitted

Beim „Cumulative Distribution“-Plot sieht man die Verteilung der Residuals, also die Abweichung der Vorhersagen von den echten Ergebnissen.

Im „Cumulative Distribution“-Plot für die SPD (links) kann man erkennen, dass über die Hälfte der Wahlkreise mit einer Genauigkeit besser als +/- zwei Prozent vorhergesagt wurden und 90% der Wahlkreise mit einer Genauigkeit besser als +/- vier Prozent.

Die Ergebnisse bedeuten auch, dass Faktoren wie lokale Wahlkampfstrategien zumindest in Wahlkreisen, die gut vorhergesagt wurden, eine eher untergeordnete Rolle spielen. Ausnahmen können hier besonders Ausreißer sein. Das heißt nicht, dass der Bundeswahlkampf insgesamt bedeutungslos war. Der Intercept beispielsweise kann stark von Spitzenkandidaten, Themenorientierung und Bundeswahlkampf beeinflusst werden, wirkt sich dann aber auf alle Bundesländer insgesamt aus. Unser Modell erklärt hier nur die unterschiedlichen Ergebnisse der verschiedenen Wahlkreise. Die Ergebnisse sollten hier also nicht zu dem Schluss führen, dass sozioökonomische Variablen allgemein Wahlergebnisse so stark determinieren, wie in unserem Modell.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 7: Plot - SPD Cumulative Distribution

IV.2 Diagnoseplots

Die folgenden Plots dienen vor allem der Einschätzung, wie gut das Lasso-Modell an sich ist und wie gut es die Zusammenhänge zwischen den unabhängigen und der abhängigen Variable erklären kann. Die hier abgebildeten, sind alle dem Lasso-Modell der SPD entnommen. Die folgenden Plots ergeben sich alle aus den Ergebnissen der Lasso-Regression mit allen skalierten Variablen ohne Cross-Validation.

Der „Mean Squared Error (MSE) vs. Lambda“-Plot zeigt, bei welchem λ die Kostenfunktion des Lassos welchen Wert annimmt. Zudem sind die zwei λ-Werte (gestrichelte Linie) eingezeichnet, die die Cross-Validation zurückgibt. In dem Plot sieht man, dass das Modell mit dem größeren λ kaum schlechter ist.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 8: Plot - SPD MSE vs Lambda

Der „MSE vs. Lambda/LogLambda“-Plot visualisiert, wie bei zunehmendem Lambda immer mehr Koeffizienten auf null geschrumpft werden. Dabei ist die gelbe Linie das Lambda für den kleinsten Wert der Kostenfunktion und die grüne Linie das Lambda, das wir für das Modell gewählt haben. Hier sieht man beispielsweise beim Plot für die SPD, dass mit dem besten Lambda-Wert das Modell deutlich mehr Variablen beinhalten würde und damit viel schwerer zu interpretieren wäre. Das stützt nochmal unsere Entscheidung, das größere Lambda zu nehmen, um das Modell zu vereinfachen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 9: Plot - SPD Koeffizienten vs. Lambda

Am „Residuals vs. Fitted“-Plot kann man erkennen, wie gut ein Modell ist. Bei einem guten Modell sollten die Punkte wie eine gleichmäßige Wolke um die graue und rote Linie verteilt sein. Im Optimalfall sollte die rote Linie einigermaßen gerade verlaufen. Das ist bei einigen der Plots nicht der Fall, was zeigt, dass man das Modell vermutlich durch nichtlineare Erweiterungen noch verbessern könnte. Aber an sich zeigen alle Plots recht „normalverteilte Wolken“, was aufzeigt, dass das Lasso-Modell schon relativ gut funktioniert.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 10: Plot - SPD Residuals vs. Fitted

Auch die „Residual QQ“-Plots visualisieren, ob ein Modell gut oder schlecht die Daten vorhersagen kann. Hier sollten die Punkte möglichst auf der grauen senkrechten Linie liegen. Auch hier zeigen die Plots, dass die meisten Modelle gut bis sehr gut sind. Ausnahme sind hier vielleicht noch die Plots von CSU und DIE LINKE. Das kann bei der CSU daran liegen, dass wir weniger Wahlkreise und damit weniger Beobachtungen haben, was dazu führt, dass das Modell nicht so gut wird. Bei der Linkspartei zeigt der QQ-Plot, dass vor allem die Vorhersagen in den Hohen Quantilen schlechter sind, was darauf hinweisen kann, dass nichtlineare Zusammenhänge bestehen, die das Lasso mit seinen linearen Annahmen nicht erklären kann. Trotzdem bleibt das Modell der Linkspartei das mit dem höchsten R[2]-Wert und den besten Vorhersagen, weshalb wir insbesondere bei der Linkspartei der Schwäche im „Residual QQ“-Plot keine zu große Bedeutung zumessen würden. Und auch das Modell der CSU trifft ziemlich gute Vorhersagen, bessere als beispielsweise das Modell der CDU, weshalb man auch hier davon ausgehen kann, dass das Modell der CSU zuverlässige Vorhersagen machen kann.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 11: Plots - SPD Residuals vs. Normal Quantiles

In den letzten beiden Plots sind jeweils die Ausreißer rot markiert, mit dazugehöriger Wahlkreisnummer. Bei diesen könnte es sich lohnen, diese Wahlkreise einzeln zu untersuchen, um herauszufinden, womit diese Ausreißer zu erklären sind.

Bei den Plots für die SPD erkennt man auch hier wieder, dass das Modell recht gut funktioniert: Die Punkte im „Residuals vs. Fitted“- Plot sind „wolkenförmig“ verteilt und befinden sich im „Residual QQ“-Plot, mit Ausnahme von drei Ausreißern, alle sehr dicht an der grauen Linie.

Alles in allem stützen sowohl die Plots als auch die Ergebnisse R[2]-Werte und die Absolute Errors, dass das Lasso-Modell mit seiner Annahme eines linearen Zusammenhangs zwischen sozioökonomischen Strukturvariablen und den Wahlergebnissen ziemlich stabile Vorhersagen macht und daher auch geeignet ist, um die Zusammenhänge zwischen den sozioökonomischen Variablen und den Wahlergebnissen der Parteien zu erklären.

Zudem zeigt es, dass Strukturvariablen sehr wichtige und starke Faktoren sind, um unterschiedliche Wahlergebnisse zu dekodieren.

IV.3 Exkurs: Cleavage-Theorie und Ergebnisse der Regression

Bei Betrachtung des Einflusses von Strukturdaten-Variablen auf Wahlergebnisse ist nicht nur interessant, dass diese Variablen das Wahlergebnis zu einem überraschend großen Teil erklären können, sondern auch, wie die jeweiligen Werte der Variablen nach der Lasso-Regression je nach Partei unterschiedlich ausfallen.9 Daher wollen wir kurz einen Exkurs zu diesen Ergebnissen bringen.

Bei Betrachtung der einzelnen Werte fällt auf, dass die stärksten Variablen zu einem beträchtlichen Teil den klassischen Konfliktlinien der Cleavage-Theorie entsprechen. Diese auf dem Aufsatz „Cleavage Structures, Party Systems, and Voter Alignments: An Introduction“ von Lipset und Rokkan (1967) basierende Theorie besagt, dass in den westlichen Gesellschaften klassischerweise vier große Spaltungslinien, sogenannte Cleavages, existieren. Die von Konflikten über diese tiefgreifenden Gegensätze betroffenen soziale Großgruppen (wie z.B. Arbeiter) lassen sich durch eine Art informelles Bündnis von jeweils einer politischen Partei auf der politischen Arena vertreten, während dafür die Mitglieder dieser sozialen Großgruppen relativ geschlossen bei Wahlen ‚ihre‘ jeweilige ‚Bündnispartei wählen.‘10

Diese vier klassischen Cleavages sind die zwischen Zentrum-Peripherie (Nationale Mehrheit gegen nationale Minderheiten), Kirche und Staat (Konflikte um Werte und Moralvorstellungen), Stadt und Land (ökonomische und kulturelle Konflikte) und Kapital und Arbeit (Kapitaleigner gegenüber abhängig Beschäftigten).

Man kann beispielsweise einige Erwartungen gut in den Ergebnissen der Lasso-Regression für die CSU wiederfinden.11 Den größten positiven Einfluss auf das Wahlergebnis der CSU hat laut unserer Regression die Anzahl der zugelassenen Autos (skalierter Wert von 0,00628), gefolgt vom Anteil der katholischen Bevölkerung (0,00178) und dem Anteil der Handwerksunternehmen (0,00077). Die einzigen negativen Einflussvariablen sind die Einwohner pro km² (logarithmierte Variable: -0,02472) und Anteil der Sozialhilfeempfänger (-0,00089). Aus der wissenschaftlichen Literatur über die CSU ist bekannt, dass diese bisher einen großen Teil ihrer Wählerschaft im altbairisch bzw. katholisch geprägten Milieu fand, auch wenn dieser Teil mittlerweile immer mehr schwindet12 und bisher auch stark vom hohen ländlichen-kleinstädtischen Bevölkerungsanteil in Bayern profitierte.13 Auch wurde festgestellt, dass sie unter Gewerkschaftsmitgliedern vergleichsweise schwache Werte erzielt, wobei aufgrund von cross-pressure Effekten die SPD meist keine starken Vorteile daraus ziehen konnte.14 Auch wenn man die geschichtliche Entstehung der CSU (oder auch der CDU) als interkonfessionelle christliche (Volks-)partei, welche dabei aber von Anfang an stärker im katholischen Milieu verankert ist, betrachtet, kann man zum Schluss kommen, dass für die CSU (bzw. die gesamte Union) die religiösen und kulturellen Cleavages Staat-Kirche und Stadt-Land ihren bisherigen Erfolg stark prägte, indem sie sich auf christliche (katholische) Wertvorstellungen bezog und bezieht. Gleichzeitig schwächte sie bisher der Cleavage zwischen Arbeit und Kapital, da sie in der Vergangenheit nicht als ‚natürlicher Bündnispartner‘ der Arbeiter erschienen ist (ebd.).

Die Ergebnisse unserer Datenanalyse zur CSU decken sich zum großen Teil mit den Erwartungen der Cleavage-Theorie. Die positive Auswirkung des katholischen Bevölkerungsanteils spricht für die Bedeutung des auf (religiöse) Wert- und Moralvorstellung basierenden Cleavage Staat-Kirche. Auch die positive Auswirkung durch eine höhere Anzahl von zugelassenen Kraftfahrzeugen geht damit einher, da diese Variable indirekt ländliche Gebiete kennzeichnet (in ländlicheren Regionen ist der Anteil der zugelassenen Fahrzeuge höher als in städtischen), was sowohl mit dem traditionelleren, stärker christlichen Bevölkerung korreliert aber zugleich auf den Stadt-Land Cleavage hinweist. Gleiches, nur in umgekehrter Weise, gilt für die Variable Einwohner pro km², denn je höher diese ist, desto städtischer ist der Wahlkreis geprägt. Zuletzt deutet der positive Einfluss der Variable Handwerksunternehmen und gleichzeitig der negative Einfluss des Anteils der Sozialhilfeempfänger darauf hin, dass der Cleavage Kapital-Arbeit auch bei der CSU immer noch von Bedeutung ist, denn die Union insgesamt gilt gemeinhin tendenziell eher als Vertreter der Arbeitgeber als der Arbeitnehmer. Jedoch muss man bei den letzten beiden Variablen vorsichtiger sein, da diese auch die am schwächsten ausgeprägten bei der CSU waren. Der wichtigste Befund ist jedoch, dass die Variable “Einwohner pro km² mit Abstand den stärksten Effekt von allen Variablen hat, was darauf hindeutet, dass das Stadt-Land Cleavage noch immer das am stärksten ausgeprägte in der CSU-Wählerschaft ist.

Da aufgrund der zunehmenden Pluralisierung und Säkularisierung der deutschen Gesellschaft die Frage durchaus berechtigt ist, inwieweit die Cleavage-Theorie für das heutige deutsche Parteiensystem noch von Bedeutung ist, so ist es doch auffallend, dass viele unserer Ergebnisse bei den jeweiligen Parteien die Annahmen der Cleavage-Theorie stützen oder zumindest nicht widersprechen (siehe auch beispielsweise den Einfluss der Protestanten, Sozialhilfeempfänger und Arbeitslosen (positiv) sowie der Anzahl der Unternehmen (negativ) auf die SPD, den positiven Einfluss der konfessionell nicht gebundenen auf das Ergebnis der Linken, den des Ausländeranteils und der Einwohner pro km² (positiv) sowie die Anzahl der Unternehmen (negativ) auf die Grünen. Dies entspricht jeweils den klassischen Erwartungen zu den Parteien (abgeleitet aus ihren Programmatiken).15

Jedoch wollen wir hier auch klar betonen, dass unsere Ergebnisse kein hinreichender Beweis sind, dass oder inwieweit die Cleavage-Theorie für das heutige deutsche Parteiensystem noch an Erklärungskraft besitzt. Denn wie Schoen richtigerweise bemerkt, „dürfen Cleavages nicht auf Regelmäßigkeiten im Wahlverhalten reduziert werden. Sie stellen lediglich einen Aspekt einer politisierten sozialen Spannungslinie dar, weshalb aus einem bestimmten Stimmmuster einer sozialen Gruppe noch lange nicht auf ein Cleavage geschlossen werden kann; erst wenn zusätzlich ein sozialstrukturell verankerter, kulturell überformter und institutionalisierter Interessengegensatz nachgewiesen werden kann, ist sinnvollerweise von einem Cleavage zu sprechen. Daher kann beispielsweise aus der Stabilität traditioneller Wahlverhaltensmuster nicht zwingend auf den Fortbestand eines Cleavages geschlossen werden.“16 Zudem sind die Wahlkreise selbst keineswegs homogen, sondern in der Regel sehr heterogen bezüglich Altersstrukturen, Stadt und Land, Konfessionen, Arbeitslosigkeit, Unternehmensdichte, etc., wodurch die Messung des Einflusses einzelner Variablen erschwert ist. Des Weiteren kann unsere Analyse nicht belegen, dass der überwiegende Teil der ländliche Bevölkerung CSU wählt, während der große Teil der städtischen Bevölkerung andere Parteien bei der Wahl bevorzugt. Dies wäre aber notwendig, um einen Beweis für die Cleavage-Theorie zu erbringen.

Um die Frage der heutigen Erklärungskraft der Cleavage-Theorie seriös zu beantworten, bedarf es also weiterer und tiefgehender Forschung, die aber den Rahmen dieser Arbeit sprengen würde.

Allerdings denken wir, dass unsere Ergebnisse jedoch ein starkes Indiz dafür sind, dass einige der klassischen Konfliktlinien der Cleavage-Theorie gegenwärtige Unterschiede in den Wahlkreis- ergebnissen erklären können. Darüber hinaus ist es unserer Einschätzung nach durchaus gerechtfertigt unsere Ergebnisse als klare Bestätigung des weniger anspruchsvollen alignment -Konzepts zu werten, welches mehr in der amerikanischen Literatur verwendet wird. Dieses bezieht sich „allein auf die Verteilung von Parteipräferenzen oder -bindungen auf verschiedene Bevölkerungssegmente“17

V. Fazit

Zusammenfassend kann man sagen, dass sich Strukturdaten mitunter sehr gut dazu eignen, um die unterschiedlichen Wahlergebnisse der Parteien in den verschiedenen Wahlkreisen zu erklären. Mit unserem Lasso-Modell konnten wir über die Hälfte der Wahlkreisergebnisse mit einer Genauigkeit von besser als +/- 1,5 Prozent vorhersagen. Auch die Diagnoseplots zeigen, dass das vorliegende Modell durchaus stabil ist und sich dazu eignet, den Zusammenhang zwischen Strukturdaten und Wahlergebnissen zu erklären.

Wenn man die Variablen vergleicht, die für die jeweiligen Parteien den größten Einfluss auf die Wahlergebnisse haben, so fällt auf, dass meistens unterschiedliche Variablen für die verschiedenen Parteien ausschlaggebend sind.

Die Gewichtung der Variablen durch das Modell zeigt, dass einige der Cleavages aus der Theorie von Rokkan und Lipset eine Rolle spielen. So lässt sich beispielsweise im Modell der CSU das Stadt-Land-Cleavage erkennen. Die Variable “Einwohner pro km[2]” ist die mit Abstand stärkste Variable im Modell. Andererseits geht es auch um kulturell bedingte Konfliktlinien, die sich nicht in den Strukturdaten widerspiegeln. So lässt sich zusammenfassend sagen, dass die klassischen Konfliktlinien zwar noch eine wichtige Rolle spielen, allerdings reichen sie nicht aus um die Wahlergebnisse umfassend zu erklären. Vielmehr muss man den Fokus auf deutlich mehr Faktoren erweitern. Bei der Analyse von Wahlergebnisse ist daher ein spezifischer Blick auf das jeweilige Modell und seine Variablen zu richten, um statistisch korrekte Aussagen machen zu können.

Für die jeweiligen Parteien dagegen lohnt sich gerade der Fokus auf etwaige Outlier, wie unter 2.3.2. Hier kann eine genauere Analyse dessen lohnen, warum sie gerade dort ein deutlich besseres oder schlechteres Ergebnis erzielten, als von den Strukturdaten zu erwarten wäre.

Darüber hinaus ist eine weitergehende Forschung zu diesem Thema sicherlich lohnenswert, gerade wenn dabei ein Fokus auf Zeitreihenanalysen gelegt würde.

[...]


1 Falter, J. et al. (2014). Handbuch Wahlforschung. (S.181ff.).

2 vgl. für den gesamten Prozess der Wahlergebnisfeststellung: Bundeswahlleiter. Bundestagswahl: Termine und Fristen. (Internetseite). Aufgerufen am 27.02.18 von https://www.bundeswahlleiter.de/bundestagswahlen/2017/termine.html

3 Bundeswahlleiter. Bundestagswahl 2017 Ergebnisse. (Internetseite). Aufgerufen am 27.02.18 von https://www.bundeswahlleiter.de/bundestagswahlen/2017/ergebnisse.html

4 Bundeswahlleiter. Bundestagswahl 2017 - Strukturdaten für die Wahlkreise. (Internetseite). Aufgerufen am 27.02.18 von https://www.bundeswahlleiter.de/bundestagswahlen/2017/strukturdaten.html

5 Bundeswahlleiter. Wahl zum 19. Deutschen Bundestag am 24. September 2017. (Internetseite). Aufgerufen am 27.02.18 von https://www.bundeswahlleiter.de/dam/jcr/045af0c9-209a-4292-82fd- f0a97559ef3d/btw17_heft1.pdf, sowie im Anhang.

6 Auch dieser Schritt und die genaue Einteilung für die Ost-West-Variable lässt sich im R-Code transparent nachvollziehen

7 Gareth, J. et. al. (2013). Introduction to Statistical Learning,

8 Lilliefors, Hubert W. "On the Kolmogorov-Smirnov test for normality with mean and variance unknown."Journal of the American statistical Association 62.318 (1967): 399-402.

9 Die genauen Ergebnisse der Lasso-Regression für alle im Deutschen Bundestag vertretenen Parteien sind in Anhang 1 nachzulesen.

10 Schoen, H. (2014). Soziologische Ansätze in der empirischen Wahlforschung. In: Falter, J. et al. (Hrsg.): Handbuch Wahlforschung (pp. 169-239). Springer VS, Wiesbaden.

11 Dieser Fall ist auch deswegen interessant, da die Regression hier nur relativ wenige Variablen als signifikant ausgibt, welche dabei auch in sich ein sehr stimmiges Bild geben.

12 Sebaldt, M. (2018). Christlich-Soziale Union in Bayern e.V. (CSU). In: Handbuch der deutschen Parteien (pp. 264-276). Springer VS, Wiesbaden.

13 Kießling, A. (2013). Die CSU: Machterhalt und Machterneuerung. Springer-Verlag, Wiesbaden.

14 Ebd.

15 Siehe zu den einzelnen Programmatiken und Wählerschaften auch Decker/Neu (Hrsg.): 2017. Handbuch der deutschen Parteien.

16 Schoen, H. (2014). Soziologische Ansätze in der empirischen Wahlforschung. In: Falter, J. et al. (Hrsg.): Handbuch Wahlforschung (pp. 169-239). Springer VS, Wiesbaden.

17 Schoen, H. (2014). Soziologische Ansätze in der empirischen Wahlforschung. In: Falter, J. et al. (Hrsg.): Handbuch Wahlforschung (pp. 169-239). Springer VS, Wiesbaden.

Details

Seiten
62
Jahr
2018
ISBN (eBook)
9783668951174
ISBN (Buch)
9783668951181
Sprache
Deutsch
Katalognummer
v470782
Institution / Hochschule
Hochschule für Politik München – Hochschule für Politik München
Note
1,0
Schlagworte
BTW 2017 Bundestagswahl 2017 Strukturdaten Wahlergebnis Berechnung R Political Data Science

Autoren

Teilen

Zurück

Titel: Die Bundestagswahl 2017. Welchen Einfluss hatten Strukturdaten auf die Wahlkreisergebnisse der Parteien?