Corona Datenanalyse: Daten herunterladen

Die Corona Pandemie nimmt derzeit fast die gesamte Tagesschau ein und auch Tageszeitungen kennen kaum ein anderes Thema. Im Internet sind Falschmeldungen unter den sich überschlagenden Neuigkeiten zum Teil nur schwer zu erkennen.

Wichtig sind deshalb Daten, um die es hier auch gehen soll.
Dafür möchte ich diesen Blog nutzen, der lange brach gelegen ist.

An wen sich dieser und die folgenden Beiträge richten

Es geht mir darum, Methoden bereit zu stellen, mit denen Sie sich selbst einen Überblick verschaffen können. Manche mögen derzeit auch im Homeoffice sitzen und aufgrund der Lage mehr Zeit haben als ihnen lieb ist. Dann kann dieser Blog auch einen Einstieg in die Grundlagen der Datenanalyse darstellen. Denn die hier verwendeten Methoden lassen sich auch auf andere Daten anwenden.

Datenvisualisierung „vom feinsten“

Was die der Corona Pandemie zugrunde liegenden Daten angeht ist die interaktive Karte der John Hopkins Universität weithin bekannt. Beachtlich ist auch das Dashboard der Tableau Community.

Werkzeuge, die wir für die Analyse verwenden werden

Nahezu universell genutzt wird Microsoft Excel. Das Tableau Dashboard lässt sich zum Großteil auch in Power-BI nachbauen, ein Software-Paket von Microsoft, zu dem die Grundversion frei verfügbar ist. Wer sich damit auskennt ist gut bedient. Zu Power-BI gibt es im Internet zudem zahlreiche Tutorials. Wir werden Power-BI hier allerdings nicht verwenden.

Wir beginnen zunächst mit Excel. Sobald es an statistische Analysen geht („sehe ich hier ein Signal oder eine Fata Morgana?“), stoßen wir damit jedoch schnell an Grenzen. Deshalb verwenden wir Minitab, ein Standard in vielen Unternehmen. Eine Lizenz für 30 Tage ist frei verfügbar und sollte ausreichen, um diesem Blog zu folgen.

Auch mit Minitab werden wir an Grenzen stoßen, wenn es zum Beispiel darum geht, über verschiedene Länder hinweg Analysen zu fahren und automatisiert zu vergleichen. Es ist zudem etwas lästig, Daten tagesaktuell neu zu laden und die Analysen zu aktualisieren. Wer sich mit Minitab-Makros auskennt wird hier viel „zaubern“ können. Wenn wir Untersuchungen automatisieren, dann verwenden wir hier die Programmiersprache R und RStudio.

COVID-19 Datenquellen

Ich habe zunächst bei der World Health Organization nach Daten gesucht. Trotz aller Sorgfalt scheint es immer wieder zu Fehlern in den Daten zu kommen, die von der Organisation „Our World in Data“ korrigiert werden. Allerdings werden dort (Stand 15. März) nicht die Zahlen der Geheilten veröffentlicht.

Ich verwende seit einigen Tagen Daten, die auf Kaggle liegen. Die lassen sich einfach als csv-Datei herunterladen. Allerdings sind die nicht immer ganz taufrisch. Sie scheinen auch aus mehreren Quellen zusammenkopiert zu werden und müssen erst einmal bereinigt werden. Wir verwenden deshalb hier die Daten, die dem Tableau-Dashboard zugrunde liegen – in der Hoffnung, dass diese ebenfalls gut geprüft sind.

Diese Daten liegen auf Google Docs.

Wie lädt man die jedoch herunter? Kopieren-Einfügen geht nicht. In Excel unter „Daten -> Daten abrufen -> aus anderen Quellen -> aus dem Web“ verlangt bei meinem Computer, dass ich im Internet Explorer gewisse Häkchen setze, die schon gesetzt sind. Es klappt nicht.

Lektion Eins: 
Daten zu beschaffen verlangt gewisse Fähigkeiten und vor allem Zeit.

Es soll hier nicht um „Tricks & Tipps“ geben, wie man bei welchem Rechner und welchem Browser an diese Daten kommt. Deshalb folgende

Möglichkeiten, um an die Daten zu kommen:

  1. Die Daten von Kaggle verwenden. Augen zu und durch. Man muss sich bei diesen Daten die Anzahl der Kranken berechnen über „Confirmed“ minus „Deaths“ minus „Recovered“.
  2. Die Daten von „Our World in Data“ verwenden. Da fehlt dann (Stand 15. März) allerdings leider die Information über die Geheilten.
  3. Eine eigene Lösung finden, um an die Daten auf Google Doc zu kommen.
  4. Mein R-Script verwenden, um diese Daten herunterzuladen.

Wer sich für Datenanalyse „im Jahr 2020“ ernsthaft interessiert sollte sich mit R zumindest auseinandersetzen. Warum also nicht heute damit anfangen? Wie man R installiert und die ersten Schritte damit geht findet sich im Internet. Die Daten herunterzuladen ist dann ein Dreizeiler:

url <- "https://...."
t <- gsheet2tbl(url)
write.csv2(t, file = "covid.csv")

Erste einfache graphische Analysen

Die Daten von Google Doc sehen in Excel wie folgt aus:

Für heute erstellen wir eine Pivottabelle mit „Date“ als Zeilen und „Case_Type“ als Spalten und summieren die „Cases“ auf. Wir prüfen sodann, dass der Case_Type „Active“ der Differenz von „Confirmed“ minus „Recovered“ minus „Deaths“ entspricht. „Active“ heißt also, wie viele Kranke es zu einem bestimmten Zeitpunkt gegeben hat. Über Einfügen -> 2D-Säule lässt sich dann folgende Graphik erzeugen, wenn man den Datenreihentyp für „Confirmed“ von „gestapelter Säule“ auf Linie verändert.

Wir sehen, dass bis zum 2. und 3. März weltweit die Anzahl der Kranken („Active“, dargestellt in blau) gesunken ist und seither ansteigt. Die Daten mit dieser Auswertung sind über diesen Link abrufbar: COVID_Daten_20200315.

Lektion Zwei:
Pivottabellen sowie Säulen- und Liniengraphiken gehören zum Grundhandwerk der Datenanalyse.

 

„Hausaufgabe“ für heute

  1. Falls Sie noch nicht mit Pivottabellen und dem Einfügen von Graphiken in Excel vertraut sind, dann sollten Sie zu diesen Themen nach Kurztutorials suchen. Es ist eine wichtige Fähigkeit, in der Sie schnell Fingerfertigkeit entwickeln sollten.
  2. Bauen Sie sich in die Pivottabelle einen Filter ein und filtern Sie nach Ländern. So können Sie sehr bequem länderspezifische Darstellungen der oben gezeigten Entwicklung erzeugen.
  3. Versuchen Sie aus den Daten zu verstehen, warum die Anzahl der Kranken („Active“ in der Datei) zunächst abfällt und dann wieder steigt.
  4. Meine Empfehlung ist, R und RStudio zu installieren und auch hier ein Grundlagenvideo zu suchen, um dann die Daten mit obigem Dreizeiler herunterzuladen.

Hier ist noch ein Video (auf Englisch und mit deutschen Untertiteln), das die Zusammenhänge und Hintergründe erklärt (der Dank geht an Ricarda, die dieses Video empfohlen hat):