Bei der Betrachtung der gemessenen Corona-Fallzahlen in Deutschland aus dem Jahr 2020 wird deutlich, dass die Fallzahlen in der kälteren Jahreszeit gestiegen und in der wärmeren Jahreszeit trotz weniger Restriktionen niedrig geblieben sind. Ausgehend von der vermutlichen Relevanz der Jahreszeiten wirft sich an dieser Stelle die Frage auf, inwiefern das Klima den Fallzahlenverlauf beeinflusst.
Die Beantwortung dieser Frage erfolgt in dieser Projektarbeit durch die Durchführung der Sekundärforschung, wobei die Datenbestände vom Datenportal der EU sowie der New York Times entnommen wurden. Die Datenbestände werden durch die Anwendung des Vorgehensmodells zur Datenbereinigung nach Apel bereinigt und durch das Sisense BI-Tool ausgewertet. Die Themenbehandlung erfolgt unter Berücksichtigung von praktischen und wissenschaftlichen Erkenntnissen sowie Methoden wie die Quellenanalyse.
Die tägliche Berichterstattung über die Anzahl der Neu-Infektionen sowie die täglichen Todeszahlen durch Corona stehen für Gegebenheiten, die in den heutigen Medien zu beobachten sind. Die weltweit unterschiedliche Zu- und Abnahme der Corona-Fallzahlen und die damit verbundenen Maßnahmen zugunsten der Nachverfolgung des Virus hat die Notwendigkeit der Ermittlung von weiteren Einflussfaktoren auf die Fallzahlenentwicklung stark an Bedeutung gewinnen lassen.
I. Inhaltsverzeichnis
I. Inhaltsverzeichnis
II. Abbildungsverzeichnis
III. AbkürzungsverzeichniS
1. Einleitung
2. Einführung in das Projekt
2.1 Begriffsbestimmungen von „Business Intelligence“ und „Covid-19“
2.2 Einführung in das Sisense BI-Tool
2.3 Grundlegende Planung und Arbeitsweise
2.4 Vorstellung der Corona-Datenbestände
3. Auswertung von Corona-Datenbeständen mithilfe des Sisense BI-Tools
3.1 Angewandtes Vorgehensmodell zur Datenbereinigung
3.2 Durchführung der Datenbereinigung
3.3 Vorgehensweise bei der Datenauswertung mit dem Sisense BI-Tool
3.4 Zwischenergebnisse der Datenauswertung
3.4.1 Polare & Subpolare Zone
3.4.2 Gemäßigte Zone
3.4.3 Subtropische Zone
3.4.4 Tropische Zone
3.5 Ergebnisse der Datenauswertung
4. Kritische Betrachtung der Ergebnisse
5. Fazit und Ausblick
6. Literaturverzeichnis
II. Abbildungsverzeichnis
Abbildung 1 - Projektstrukturplan
Abbildung 2 - Vorgehensmodell zur Datenbereinigung nach Apel (2015)
Abbildung 3 - Sicherungskopie der Datenbestände in Microsoft Teams
Abbildung 4 - Anforderungen an die Datenqualität
Abbildung 5 - Standardisierung der Datumsangaben im Corona-Datenbestand
Abbildung 6 - Auftrennung des ursprünglichen Datenbestands in vier Tabellen
Abbildung 7 - Ergänzung fehlender Daten
Abbildung 8 - Korrektur des Corona-Datenbestands der USA
Abbildung 9 - Berechnung des täglichen Fallzahlenverlaufs pro Klimazone
Abbildung 10 - Schritte zur Datenauswertung mit dem Sisense BI-Tool
Abbildung 11- Fallzahlenverlauf in der polaren & subpolaren Zone
Abbildung 12 - Fallzahlenverlauf in der gemäßigten Zone
Abbildung 13 - Fallzahlenverlauf in der subtropischen Zone
Abbildung 14 - Fallzahlenverlauf in der tropischen Zone
Abbildung 15 - Ergebnisse der Datenauswertung
Abbildung 16 - Gesamtergebnis der Datenauswertung
III. Abkürzungsverzeichnis
BI Business Intelligence
PC Personal Computer
1. Einleitung
Die tägliche Berichterstattung über die Anzahl der Neu-Infektionen sowie die täglichen Todeszahlen durch Corona stehen für Gegebenheiten, die in den heutigen Medien zu beobachten sind. Die weltweit unterschiedliche Zu- und Abnahme der Corona-Fallzahlen und die damit verbundenen Maßnahmen zugunsten der Nachverfolgung des Virus hat die Notwendigkeit der Ermittlung von weiteren Einflussfaktoren auf die Fallzahlenentwicklung stark an Bedeutung gewinnen lassen. Bei der Betrachtung der gemessenen Fallzahlen in Deutschland aus dem Jahr 2020 wird deutlich, dass die Fallzahlen in der kälteren Jahreszeit gestiegen und in der wärmeren Jahreszeit trotz weniger Restriktionen niedrig geblieben sind.1 Aufgrund dieses logischen Bruchs behandelt die vorliegende Projektarbeit eine Auswertung von Corona-Datenbeständen mithilfe eines BI-Tools (BI = Business Intelligence) von Sisense. Das Thema dieser Projektarbeit wird in dem Modul „Business Intelligence“ verfasst, weshalb die Themenbehandlung mit Hilfe spezialisierter BI-Software erfolgt und verschiedene Erkenntnisse aus dem Fachgebiet der Statistik angewendet werden.
Ausgehend von der vermutlichen Relevanz der Jahreszeiten wirft sich an dieser Stelle die Frage auf, inwiefern das Klima den Fallzahlenverlauf beeinflusst. Die Beantwortung dieser Frage erfolgt in dieser Projektarbeit durch die Durchführung der Sekundärforschung, wobei die Datenbestände vom Datenportal der EU2 sowie der New York Times3 entnommen wurden. Die Datenbestände werden durch die Anwendung des Vorgehensmodells zur Datenbereinigung nach Apel bereinigt und durch das Sisense BI-Tool ausgewertet. Die Themenbehandlung erfolgt unter Berücksichtigung von praktischen und wissenschaftlichen Erkenntnissen sowie Methoden wie die Quellenanalyse. Für diese Projektarbeit ergeben sich somit folgende Zusammenhangshypothesen:
Hypothese 1: Je größer die Bevölkerung, desto höher die positive Testrate?
Hypothese 2: Je höher die Testanzahl, desto höher der Fallzahlen?
Hypothese 3: Je kälter der Temperaturverlauf, desto höher der Fallzahlen?
Für das Erzielen des erstrebten Forschungsergebnisses wird zunächst die theoretische Ebene des Projekts erläutert. Hierbei werden Begriffsbestimmungen wie Business Intelligence und Covid-19 sowie die Grundlagen des Sisense BI-Tools dargelegt, wobei auch die Projektplanung und -arbeitsweise sowie eine Vorstellung der Corona-Datenbestände behandelt wird. Nach einer einführenden Vorstellung des Vorgehensmodells zur Datenbereinigung nach Apel werden die Vorgehensweise sowie die Ergebnisse der Datenauswertung mit dem Sisense BI-Tools dargelegt. Die aufgezeigten Ergebnisse werden in einer anschließenden Diskussion hinsichtlich der Erfüllung der Gütekriterien Validität, Reliabilität und Objektivität kritisch reflektiert. Das Fazit wird den Abschluss dieser Ausarbeitung darstellen und das Gesamtergebnis aufzeigen.
2. Einführung in das Projekt
2.1 Begriffsbestimmungen von „Business Intelligence“ und „Covid-19“
Für ein besseres Verständnis über die Zusammenhänge der Auswertung von Corona-Datenbeständen bedürfen die Begriffe „Business Intelligence“ und „Covid-19“einer Definition. Der Begriff „Business Intelligence“ bezeichnet in der Wirtschaftsinformatik grundsätzlich Verfahren und Prozesse zur systematischen Analyse des eigenen Unternehmens.4 Die angewendeten Verfahren umfassen die Sammlung, Auswertung und Darstellung von Daten in elektronischer Form. Das Ziel von Business Intelligence besteht darin, Erkenntnisse aus den vorhandenen Daten im Unternehmen zur Unterstützung von Managemententscheidungen zu erlangen. Die Datenauswertung erfolgt mit Hilfe analytischer Konzepte sowie durch den Einsatz von IT-Systemen und spezialisierter Software. Der Erkenntnisgewinn gibt dem Unternehmen die Möglichkeit, die gesamte Wertschöpfungskette und die damit verbundenen Geschäftsabläufe zu optimieren.
Covid-19 ist eine erstmals im Dezember 2019 in Wuhan aufgetretene eine Infektionskrankheit, zu der es infolge einer Infektion mit dem neuartigen Coronavirus SARS-CoV-2 kommen kann.5 Das Virus gelangt über die Atemwege in den menschlichen Körper, weshalb es in den Atemwegen nachgewiesen werden kann.
2.2 Einführung in das Sisense BI-Tool
Das Sisense BI-Tool ist eine spezialisierte Software zur Auswertung und Visualisierung von komplexen und großen Datenmengen eines Unternehmens mit dem Ziel, die betriebliche Entscheidungsfindung zu unterstützen.6 Die schnelle Auswertung großer Datenmengen erfolgt bei dem Sisense BI-Tool durch die Verwendung des sogenannten ElastiCube-Modells. Das ElastiCube-Modell ist ein speziell entwickeltes Datenmodell, welches als leistungsstarke Analysedatenbank die schnelle Ausführung von umfangreichen Abfragen ermöglicht.7 Bei der Erstellung eines ElastiCube werden die Daten aus verschiedenen Quellen in diesen importiert. Der ElastiCube fungiert als Datenbank, dessen Daten im Dashboard dargestellt werden können. Für die Durchführung des Projekts wird das Sisense BI-Tool verwendet, da das Softwareunternehmen Sisense dem Anwender eine zwei-wöchige kostenlose Testphase anbietet, sodass das BI-Tool genutzt werden kann.
2.3 Grundlegende Planung und Arbeitsweise
Das Projekt „Auswertung von Corona-Datenbeständen mithilfe eines BI-Tools“ wird im Zeitraum vom 01.09.2020 bis zum 28.02.2021 durchgeführt und prüft die Leitfrage, ob ein Zusammenhang zwischen dem Klima und dem Fallzahlenverlauf besteht. Die am Projekt beteiligten Personen xxx und xxx liefern die Ergebnisse an den Auftraggeber xxx.
Die in Abbildung 1 definierten Arbeitspakete werden im Rahmen des Projekts gemeinsam von den Projektverantwortlichen durchgeführt, um mittels des vier-Augen-Prinzips eine optimale Aufgabenerledigung zu erzielen. Der Projektverlauf gliedert sich in 4 Phasen; die Initialisierung, Planung, Durchführung und der Projektabschluss. Für die Projektinitialisierung werden Gruppen gebildet, in denen zur Themenfindung das Thema sowie Leitfragen und Hypothesen formuliert werden. Das hieraus entstandene Projekt „Auswertung von Corona-Datenbeständen mittels eines BI-Tools“ wird mit dem Auftraggeber abgestimmt und als Prüfungsleistung angemeldet. Die Planungsphase dient zur Recherche von geeignetem Datenmaterial und Literatur sowie der Auswahl eines BI-Tools, mit dem die Datenbestände ausgewertet werden. In der Durchführungsphase werden die Länder in Klimazonen eingeteilt und der Corona-Datenbestand aufbereitet. Der zugrunde gelegte Datenbestand umfasst die Fallzahlen im Zeitraum vom 31.12.2019 bis zum 14.11.2020. Anschließend erfolgt die Datenauswertung mithilfe des Sisense BI-Tools. Anhand der Auswertungsergebnisse werden die gebildeten Hypothesen auf Richtigkeit überprüft und letztlich die Projektarbeit verfasst. Den Projektabschluss bildet die Beantwortung der anfangs gestellten Leitfragen und Hypothesen. Nach dem Korrekturlesen wird die Projektarbeit eingereicht und dem Auftraggeber übermittelt.
Abbildung 1 - Projektstrukturplan 8
Abbildung in dieser Leseprobe nicht enthalten
2.4 Vorstellung der Corona-Datenbestände
Die Corona-Datenbestände stammen von dem Datenportal der EU sowie der New York Times. Das Datenportal der EU stellt Corona-Datenbestände in verschiedenen Dateiformaten zum Download zur Verfügung, die den weltweiten Fallzahlenverlauf aller gemeldeten Fälle abdecken.9 Die Datensätze enthalten u.a. Datenfelder über die Anzahl der Neuinfektionen und Testeinheiten sowie die Bevölkerungsgröße, die im Projekt untersucht werden. Der Datenbestand vom Datenportal der EU umfasst 56.753 Datensätze, die nach dem Vorgehensmodell von Apel bereinigt werden. Der zweite Datenbestand umfasst den Fallzahlenverlauf der US-Bundesstaaten und werden von der New York Times auf der Website Github bereitgestellt.10 Dieser Datenbestand enthält ebenfalls Informationen über die Anzahl der Neuinfektionen und Testeinheiten sowie die Bevölkerungsgröße in den einzelnen US-Bundesstaaten. Der Corona-Datenbestand über den Fallzahlenverlauf in den einzelnen US-Bundesstaaten ist für die korrekte Einteilung der US-Bundesstaaten in die entsprechende Klimazone notwendig, da verschiedene Teile der USA in unterschiedlichen Klimazonen liegen. Der Datenbestand von der New York Times umfasst 18.550 Datensätze, die nach dem Vorgehensmodell von Apel bereinigt werden.
3. Auswertung von Corona-Datenbeständen mithilfe des Sisense BI-Tools
3.1 Angewandtes Vorgehensmodell zur Datenbereinigung
Der in diesem Projekt durchgeführte Prozess zur Datenbereinigung erfolgt nach dem Vorgehensmodell von Apel und gliedert sich in fünf Schritte (siehe Abb. 2):
Abbildung 2 - Vorgehensmodell zur Datenbereinigung nach Apel (2015) 11
Abbildung in dieser Leseprobe nicht enthalten
Der erste Schritt ist die Erstellung einer Sicherungskopie der Datei auf einem Speichermedium, um im Falle eines Datenverlusts die Daten zurückkopieren zu können.12 Der zweite Schritt ist die Definition von Anforderungen an die Daten mit dem Ziel, eine hohe Datenqualität zu gewährleisten. Eine hohe Datenqualität wird beispielsweise durch die Vollständigkeit, Konsistenz und Aktualität der Daten erreicht. Anschließend werden die Daten hinsichtlich der Erfüllung der Anforderungen analysiert und im Rahmen der Standardisierung vereinheitlicht. Die Datensätze werden standardisiert, indem beispielsweise alle Datensätze die gleichen Attribute aufweisen, die einer bestimmten Normierung unterliegen. Die Normierung legt u.a. fest, dass ein Datum in ein einheitliches Format wie TT.MM.JJJJ oder JJJJ-MM-TT gebracht wird. Nach der Standardisierung werden die bei der Analyse als fehlerhaft erkannten Daten mittels sechs Methoden bereinigt: Eine Methode ist das Entfernen von fehlerhaften Daten die zum Einsatz kommt, wenn keine Korrektur der Daten möglich ist. Beispielsweise werden Daten wie Artikel-Stammdatensätze ohne Artikelnummer und -bezeichnung herausgefiltert und nicht weiterverarbeitet. Eine weitere Methode ist das Ersetzen von fehlerhaften Daten durch andere Daten aus anderen Systemen, indem beispielsweise eine fehlende Kundennummer durch den Zugriff auf den Kundennamen aus der Kunden-Stammtabelle bestimmt und eingefügt wird. Die dritte Methode ist das Ableiten korrekter Daten aus anderen Daten, indem beispielsweise der fehlende Gesamtpreis aus den Einzelpreisen und der Bestellmenge berechnet und korrigiert wird. Die vierte Methode umfasst die Verwendung von Default-Werten, welche situationsbedingt eingesetzt werden kann. Wenn das Einstellungsdatum eines Mitarbeiters nicht bekannt ist, kann dieses durch ein Default-Datum (erster Tag des aktuellen Monats) ersetzt werden. Die fünfte Methode ist das Entfernen von Duplikaten , indem redundante Daten identifiziert, die nicht-redundanten Daten aus den Dubletten konsolidiert und daraus ein einziger Datensatz gebildet wird. Beispielsweise wird für die Konsolidierung aus dem einem Datensatz der korrekte Name, aus dem zweiten die korrekte Anschrift und aus dem dritten die korrekte Telefonnummer übernommen. Die sechste und damit letzte Methode ist die Auftrennung von fehlerhaft zusammengefassten Daten. Ein Datensatz, der Daten (Adresse von Kunde A und Telefonnummer von Kunde B) von zwei unterschiedlichen Kunden zusammengefasst hat, wird bei dieser Methode wieder in zwei getrennte Datensätze mit der richtigen Zuordnung der Daten zum Namen aufgespalten: Ein Datensatz mit Name und Adresse von Kunde A und ein Datensatz mit Name und Telefonnummer von Kunde B.
Das Vorgehensmodell nach Apel zur Datenbereinigung wird in diesem Projekt angewendet, da ebenfalls eine Datenbereinigung erforderlich ist und das Vorgehensmodell dem aktuellen Forschungsstand entspricht.
3.2 Durchführung der Datenbereinigung
Die Durchführung der Datenbereinigung orientiert sich an dem Vorgehensmodell von Apel und besteht daher aus fünf Schritten, dessen Anwendung im Folgenden dargelegt wird. Zu Beginn der Datenbereinigung werden die Corona-Datenbestände nach der Beschaffung sowohl auf der Cloud von Microsoft Teams als auch auf den lokalen PC’s (Personal Computer) beider Projektteilnehmer gesichert (siehe Abb. 3). Hierdurch kann im Falle des Datenverlusts auf die Sicherungskopien zugegriffen werden, sodass das Projekt fortgeführt werden kann.
Abbildung 3 - Sicherungskopie der Datenbestände in Microsoft Teams 13
Abbildung in dieser Leseprobe nicht enthalten
Im zweiten Schritt werden folgende Anforderungen an die Datenqualität festgelegt: Konsistenz, Korrektheit, Redundanzfreiheit und Einheitlichkeit. Die zwei verwendeten Corona-Datenbestände werden in der Analysephase hinsichtlich der Erfüllung dieser Anforderungen überprüft und Bedingungen definiert, die bei der Datenbereinigung für eine hohe Datenqualität umgesetzt werden. In Abbildung 4 sind die definierten Anforderungen sowie die aus der Analysephase resultierenden Bedingungen zusammengefasst, die zur Erreichung einer hohen Datenqualität erfüllt werden müssen.
Abbildung 4 - Anforderungen an die Datenqualität 14
Abbildung in dieser Leseprobe nicht enthalten
In der Standardisierungsphase wird eine Normierung metrischer und kategorialer Merkmale durchgeführt. Die Normierung metrischer Merkmale umfasst die Definition einheitlicher Regeln für Datumsangaben. Hierbei wird für die einheitliche Datumsangabe das Format JJJJ-MM-TT verwendet (siehe Abb. 5). Die in diesem Projekt zu normierenden kategorialen Merkmale beziehen sich auf Spaltennamen. Die Spaltennamen bestehen mit Ausnahme des Datums aus jeweils zwei Wörtern, die durch einen Tiefstrich „_“ getrennt sind. Das Einfügen eines Tiefstrichs führt dazu, dass der Leser erkennen kann, ob es sich bei den jeweiligen Spalten um kumulierte (z.B. total_cases) oder am Tag neu dazugekommene Werte (z.B. new_cases) handelt.
Abbildung 5 - Standardisierung der Datumsangaben im Corona-Datenbestand 15
Abbildung in dieser Leseprobe nicht enthalten
Im fünften Schritt der Datenbereinigung werden für eine korrekte Datenbasis alle als fehlerhaft erkannten Daten nach den sechs Methoden von Apel bereinigt. Für die Einordnung der Länder in die entsprechenden Klimazonen wird die Methode „Zusammenfassungen auftrennen“ verwendet. Dabei wird der ursprüngliche Corona-Datenbestand, in dem alle Länder der Welt mit den dazugehörigen Fallzahlenverlauf nacheinander aufgelistet werden, anhand der thermischen Klimazonen im Diercke Weltatlas16 aus dem Jahr 2015 in die zugehörigen Klimazonen zugeordnet. Hierdurch wird der ursprüngliche Datenbestand in vier Tabellen aufgetrennt, sodass eine Tabelle die Daten der Länder aus einer Klimazone repräsentiert; die Tropen mit Temperaturen17 über 24°C, Subtropen mit Temperaturen von 12°C bis 24°C, Mittelbreiten mit Temperaturen von 0°C bis zu 12°C und die subpolare und polare Zone mit Temperaturen unter -10°C bis zu 0°C.18 Für die Gewährleistung von redundanzfreien Datensätzen werden die Länder nach der Methode „Duplikate entfernen“ auf Dubletten überprüft und im Falle einer Dopplung gelöscht. In der unteren Abbildung 6 ist die Auftrennung der zusammengefassten Datensätze in vier Tabellen (gelbe Markierung) dargestellt.
[...]
1 Vgl. Robert Koch-Institut, 2021, o. S.
2 Vgl. data.europa.eu, 2020, o. S.
3 Vgl. New York Times, 2020, o. S.
4 Vgl. hierzu und zum Folgenden Abts, D., Mülder, W., 2017, S. 258 ff.; Mehler-Bicher, A. et al., 2019, S. 141 ff.
5 Vgl. hierzu und zum Folgenden Kolenchuk, 2020, S. 56 ff.
6 Vgl. hierzu und zum Folgenden Sisense.com, 2020a, o. S.
7 Vgl. hierzu und zum Folgenden Sisense.com, 2020b, o. S.
8 Eigene Darstellung.
9 Vgl. hierzu und zum Folgenden data.europa.eu, 2020, o. S.
10 Vgl. Hierzu und zum Folgenden New York Times, 2020, o. S.
11 Eigene Darstellung in Anlehnung an Apel, D., 2015, S. 157 ff.
12 Vgl. hierzu und zum Folgenden Apel, D., 2015, S. 157 ff.
13 Eigene Darstellung.
14 Eigene Darstellung.
15 Eigene Darstellung.
16 Vgl. o.V., 2015, S. 244 f.
17 Anmerkung: Es handelt sich hierbei um Temperaturwerte im Jahresmittel.
18 Vgl. o.V., 2015, S. 244 f.