Der Weg des Virus

Je mehr sich die Pandemie ausbreitet, um so mehr sind auch nicht mehr allein die bestätigten Fälle relevant sondern die „aktiven“ und die mit fatalem Ausgang. Menschen werden auch wieder gesund, sodass Krankenhäuser sich um neu Erkrankte kümmern können – und die Pandemie lässt Tod und Trauer zurück.

Ich bin inzwischen wieder bei Kaggle gelandet, die „confirmed“, „recovered“ und „deaths“ berichten, sodass wir uns die Anzahl der Erkrankten ausrechnen können: Je Datum sind das die bestätigte Fälle minus Gesundete minus Todesfälle. Von Kanada fehlen in diesen Daten jedoch die „recovered“ Zahlen, sodass dort der tatsächliche Krankenstand hoffentlich geringer ausfällt als hier dargestellt. Der Vorteil der Kaggle-Daten besteht auch darin, dass GPS-Koordinaten mit angegeben sind.

Mit diesen Daten lässt sich der Weg des Virus darstellen:

In schwarz sehen wir die zeitliche Entwicklung des „Schwerpunktes“ der weltweit Erkrankten (laut verfügbaren Daten). Derzeit bewegt er sich Tag für Tag nach Westen  – in den letzten Tagen etwas langsamer. In rot dargestellt ist die Anzahl der Erkrankten („active“ in den Daten) mit Stand gestern, 30. März. Die Größe eines Punktes ist somit ein Maß für die aktuelle Belastung, die das Gesundheitssystem zu bewältigen hat – oder hätte, so es denn voll funktionsfähig ist. Man erkennt die Herausforderungen, die in Europa derzeit bewältigt werden müssen.

Für alle, die diese in R erstellte Graphik nachbauen möchten (mit PowerBI sollte es ebenfalls gehen): Wir importieren die von Kaggle heruntergeladenen Zeitreihendaten. Die GPS-Koordinaten für jeden Eintrag werden sodann in kartesische xyz-Koordinaten umgerechnet. So lässt sich der Schwerpunkt der Daten berechnen und wieder auf die Erdoberfläche projizieren, was hier dargestellt ist. Eine gewichtete Mittelung über die Werte für Längen- und Breitengrad würde zu falschen Ergebnissen führen.

Um die Pandemie verfolgen zu können, braucht man stabile Datenquellen, in denen sich zum Beispiel die Spaltennamen nicht im Laufe der Zeit ändern. Es ist unhandlich, die Daten wie von Kaggle als Zip herunterladen und entpacken zu müssen. Man möchte die Datei per Programmcode direkt abholen, so wie es zum Beispiel bei Our World in Data möglich ist. Dort finden sich dann allerdings lediglich die Daten der bestätigten Fälle und Todesfälle und es fehlen die Genesungen. Die GPS-Daten gleich mitzuliefern ist ebenfalls eine gute Sache: die Namen von Ländern und Regionen sind eine komplizierte Sache, denn es fehlen Standards, und mit einem einfachen „S-Verweis / V-lookup“ ist es deshalb leider nicht getan.

So ergibt sich folgende Wunschliste an die Daten:

  • Tag für Tag die Gesamtzahlen aller bestätigten Fälle, Genesungen, Todesfälle und als Plausibilitätscheck am besten auch den jeweiligen Krankenstand
  • Die Unterschiede von Tag zu Tag sind nicht so wichtig – die können wir uns ausrechnen; aber auch sie sind für Plausibilitätsbetrachtungen hilfreich
  • GPS-Koordinaten der zu diesen Zahlen gehörigen Orte
  • Eine weitere Spalte mit dem jeweiligen Land oder der Region, sodass sich die Werte auch aggregieren lassen
  • Und bitte die Spaltennamen nicht ständig ändern, sodass man seinen Programmcode ständig anpassen muss
  • Wichtiger ist es, Namen und Text fehlerfrei zu halten, also nicht „Chicago, IL“ und etwas weiter „Chicago, IL – also einmal mit und einmal ohne Ausführungszeichen.

Für Hinweise auf solch eine Datenquelle bin ich sehr dankbar.

Corona Datenanalyse: wie liest man die logarithmischen Graphen?

Heute eine Anfrage aus Brasilien: was kommt da auf uns zu?

Wir haben die folgende Graphik besprochen:

  1. In Brasilien ist die Lage auch nicht anders als in den meisten anderen Ländern:
    über etwa eine Woche verzehnfacht sich die Anzahl der registrierten Fälle. Zweifellos gibt es in Brasilien und anderswo darüber hinaus noch eine Dunkelziffer.
  2. Brasilien ist etwa 10-12 Tage hinter Deutschland, Frankreich und Spanien. Wenn man die Lage vor Ort in 10-12 Tagen verstehen will, dann muss man jetzt Deutschland, Frankreich und Spanien anschauen. Auch wenn es schwer vermittelbar ist, ergreift man am besten jetzt schon die gleichen Maßnahmen.

Die Anfrage kam aus dem Gesundheitswesen, nicht von der Regierung.
Gegebenenfalls müssen lokale Gesundheitsämter und Präfekten im Alleingang vorpreschen. Von Deutschland aus kann man leider nur die Daumen drücken…

 

Corona Datenanalyse: sind wir nicht alle belogen worden?

Heute möchte ich auf einige Fragen eingehen.

Schauen sich „die Politiker“ überhaupt die Zahlen an?

Selbstverständlich tun sie das. Gestern war ein Interview mit Herrn Tobias Hans, Ministerpräsident des Saarlandes, im Fernsehen. Er hat mit Zahlen argumentiert und auch Erwartungen für die nächsten Tage genannt, die eindeutig auf einem exponentiellen Wachstumsmodell basieren. Mit diesen Zahlen hat Herr Hans nicht zuletzt die drastischen Maßnahmen erklärt, die im Saarland und andernorts dieser Tage ergriffen werden, um die Ausbreitung des Corona-Virus zu verlangsamen. Den entsprechenden Beitrag finde ich leider nicht in den Mediatheken der Rundfunkanstalten und bin für Hinweise dankbar.

Frau Ursula von der Leyen, Präsidentin der Europäischen Kommission, betont gleichzeitig: „Wir alle, die wir keine Experten sind, haben das Virus unterschätzt„. Nicht nur die Politik, auch die Gesellschaft muss derzeit eine sehr steile Lernkurve hinlegen.

Warum veröffentlicht sonst keiner solche Statistiken?

Das ist nicht richtig. Es gibt sehr viele statistische Untersuchungen, die weit über das herausgehen, was auf diesem Blog diskutiert wird. Und es gab diese Untersuchungen auch schon sehr viel früher.

Zunächst einmal haben in Zeiten von „Big Data“ zumindest größere Zeitungen selbstverständlich Statistiker und Statistikerinnen und „Datenjournalismus“ ist eine eigen Disziplin geworden.

Ein Beispiel dazu sei hier genannt zu einer der wichtigen Fragen derzeit: können wir überhaupt den offiziellen Zahlen trauen? Denn COVID-19 erreicht auch Länder, die entweder nicht in der Lage oder nicht willens sind, diese Zahlen systematisch zu erheben beziehungsweise zu veröffentlichen.

Im Economist vom 7. März wird in der Rubrik „Graphic Detail“ eine (leider nicht frei zugängliche) Studie veröffentlicht, die auf Grundlage von Tourismus-Zahlen untersucht, welche Länder das Problem entweder unterberichten oder unterschätzen. Es besteht zu hoffen, dass Vertreter dieser Länder die Studie lesen und ernst nehmen.

Wenn Frau von der Leyen sagt, wir wären alle keine Experten, dann liegt das auch daran, dass Politik und Gesellschaft – und ich glaube in der Reihenfolge – erst nach und nach verstanden haben, welche Experten jetzt gefragt sind. Inzwischen ist klar, dass Statistiker auf jeden Fall mit an Bord sein müssen. Statistik ist übrigens auch ein wichtiges Fach der Virologie.

Genannt sei hier ebenfalls eine Studie aus Harvard, die schon am 4. Februar (!) die Ausbreitung von Corona mit internationaler Reisetätigkeit in Verbindung gebracht hat. Die Figur 1 des Artikels ist auf diesem nicht-kommerziellen Blog dargestellt und kann auf Wunsch der Eigentümer dieses intellektuellen Eigentums oder deren Rechtsvertreter entfernt werden. Für deren entsprechenden Hinweis bin ich dankbar.

De Salazar PM, Niehus R, Taylor A, Buckee C, Lipsitch M, „Using predicted imports of 2019-nCoV cases to determine locations that may not be identifying all
imported cases“, https://doi.org/10.1101/2020.02.04.20020495.

Lektion 4: Lernen Sie, Statistiken zu lesen und bringen Sie auch Kindern und Jugendlichen diese Fähigkeiten bei. Statistik ist nicht „für die Uni“ sondern Bestandteil aufgeklärten Staatsbürgertums. 

Eine neue Art, Statistik zu vermitteln, ist freilich überfällig.

Warum hat man all diese Maßnahmen nicht schon viel früher ergriffen?

Diese Frage ist wichtig – und geht über diesen Blog hinaus. An einer Antwort möchte ich mich dennoch versuchen. Wir erleben Zeiten außergewöhnlicher Veränderung und außergewöhnlich schneller Veränderung. Von einigen Ländern ausgesprochene Reisebeschränkungen für chinesische Staatsbürger haben vor wenigen Wochen noch für Empörung gesorgt, ebenso die am 12. März von den USA gegen Reisende aus der EU verhängten Maßnahmen. Inzwischen haben wir uns damit abgefunden, in Deutschland in einem Risikogebiet zu leben, von dem andere Länder sich abzuschotten versuchen.

Diese und andere notwendigen Maßnahmen greifen tief in Freiheiten ein, die wir hier und heute vielleicht für selbstverständlich empfinden, für die Menschen früherer Generationen aber ein Leben lang gekämpft haben und die auch heute noch keineswegs selbstverständlich sind, so wie die Reise- und die Versammlungsfreiheit. Die zu erwartenden Opfer sind also auch mit Blick auf bürgerliche Freiheiten erheblich.

Veränderung und Einschränkungen müssen kommunizierbar sein und sie setzen ein geteiltes Verständnis der Dringlichkeit voraus, sonst funktioniert deren Umsetzung nicht. Es besteht deshalb zu hoffen, dass dieses Verständnis zumindest jetzt von allen geteilt und in verantwortliches Handeln übersetzt wird.

Corona Datenanalyse: Länder im Vergleich

Datenquelle

Zunächst einmal: die zuvor zitierte Datenquelle auf Google Docs wird offensichtlich nicht mehr gepflegt. Dafür sind Daten hier verfügbar – dankenswerterweise über einen einfachen Download-Klick. Den Datensätzen für Taiwan fehlt allerdings das Anführungszeichen vor dem Wort „Taiwan“ (es steht also nur Taiwan“ in der Datei). Das Problem beheben wir wieder manuell und lesen die Datei mit R ein, indem wir das Anführungszeichen durch einen * ersetzen, so wie unten beschrieben.

Länder im Vergleich

Wir wollen heute Länder im Vergleich betrachten. Ausgewählt sind hier China, Deutschland, Italien, Singapur, Spanien und die Vereinigten Staaten. In logarithmischer Auftragung haben kleine Unterschiede eine große Bedeutung. Spanien, Deutschland und die USA bilden nahezu eine Gruppe, die Italien im Abstand von etwa einer Woche folgen.

Um es deutlich zu sagen: wenn wir in Deutschland wissen wollen, was in einer Woche bei uns los ist, dann müssen wir weiterhin nach Italien gucken.

Bei genauerer Betrachtung fällt auf, dass die Kurven für die USA und Spanien in etwa die selbe Steigung aufweisen, wohingegen die für Deutschland und Italien etwas abgeflacht erscheinen. Ich habe nicht geprüft, ob das statistisch signifikant ist. Wir sehen auf alle Fälle in all diesen vier Ländern den typischen „Weckruf“ in den Daten, den plötzlichen „Sprung“ zu einem bestimmten Zeitpunkt, ab dem Daten systematisch erfasst wurden und die bestätigten Fälle scheinbar sprunghaft ansteigen.

Spezialfall Singapur

Völlig überraschend ist hingegen die Kurve für Singapur: man hat offensichtlich schon sehr früh, also bei wenigen bestätigten Corona-Fällen, ein gutes Messsystem eingeführt, denn es fehlt der „Weckruf“. Zudem verläuft die Kurve deutlich flacher. Das macht Hoffnung, denn die Maßnahmen, die Singapur schon sehr früh eingeführt hat, sind inzwischen auch in Europa größtenteils umgesetzt. Allerdings ist die Schlacht auch in Singapur alles andere als gewonnen, wie wir bei einer Detailbetrachtung sehen:

Wir erkennen einen Wendepunkt Mitte Februar (grün hervorgehoben) – aber dann ein erneutes Aufflammen Anfang März (rot). Eine Regressionsanalyse zeigt, dass für die Zeit zwischen diesen beiden Zeitpunkten die Rate der „Confirmed Cases“ sich über etwa 30 Tage verdoppelt hätte (bei R^2 = 96%), wohingegen inzwischen wieder mit einer Verdopplung über 10 Tage gerechnet werden muss. Es besteht zu hoffen, dass sich die Rate für Deutschland diesen Werten schnell annähert, wo wir weiterhin mit einer Verdopplung alle 2,5 Tage zu kämpfen habe (R^2 = 99%).

„Hausaufgaben“ für heute

Sehen wir auch für Italien solch einen „Knick“ wie für Singapur? Ist der signifikant?
Wählen Sie eigene Länder für einen Vergleich aus und erzeugen Sie die obige Graphik.

Corona Datenanalyse: Wer hat den Wendepunkt erreicht?

Ein Prozess zur Datenanalyse

Wir haben gestern die Daten und eine erste Analyse geteilt. Ohne groß Aufhebens darum zu machen haben wir sehr schnell (und zu nachlässig) wichtige Schritte professioneller Datenanalyse durchlaufen.  Ein Modell für den zugrunde liegenden Prozess ist OSEMN, was man wohl wie „awesome“ (engl. für genial) aussprechen sollte:

OBTAIN: Daten aufzutreiben ist oft schon das erste ernst-zunehmende Problem. Wir haben mehrere Datenquellen betrachtet und uns dann für eine Google-Tabelle entschieden. Die herunterzuladen war dank R einfach. Auch in Unternehmen liegen Daten „auf SAP“ – doch dann muss  eine Abfrage geschrieben werden, was nur wenige können. Oder es gibt einfach keine Daten zur Durchlaufzeit eines bestimmten Prozesses und ein Messsystem muss erst aufgebaut werden.

SCRUB: Als nächstes müssen Daten „gesäubert“ werden. Wer die Corona-Daten von Kaggle verwenden möchte muss die Jahreszahlen für das Datum vereinheitlichen und sich mit Regionen wie „Chicago, IL“ herumschlagen, die wegen des zusätzlichen Kommas das Einlesen der csv-Datei erschweren. Häufig fehlen auch Daten und man muss überlegen, wie man mit diesen Datensätzen umgeht. Oder ein Kundenname ist als „Audi“, „audi“ und „AUDI“ hinterlegt – und, und, und…

EXPLORE: Man schaut sich die Daten von allen Seiten her an: wie sieht die Wachstumskurve für Deutschland, Frankreich, China usw. aus? Wo sind die Hauptinfektionsherde? Dieses „Herumspielen“ ist vor allem wichtig, um neue Fragen aufzuwerfen. Ich hoffe, das haben Sie getan und dabei einige interessanten Aspekte gefunden, wie zum Beispiel: die Wachstumsrate ist für Singapur von Anfang an deutlich geringer als bei uns in Deutschland; Deutschland ist bei ähnlicher Infektionsrate 7-8 Tage hinter Italien, dicht gefolgt von den USA. Falls Sie es noch nicht getan haben, dann versuchen Sie sich daran: Sie sollten dafür die „Confirmed“ Fälle logarithmisch über die Zeit auftragen.

MODEL: Schließlich erstellt man Modelle – mit dem Ziel, Vorhersagen zu treffen. Das wollen wir heute tun, um der Frage aller Fragen nachzugehen: gibt es schon Licht am Ende des Tunnels? Zeichnet sich irgendwo ein Wendepunkt ab (der „inflection point“ aus dem gestern geteilten Video)?

iNTERPRET: Welche Belastung kommt auf das Gesundheitssystem voraussichtlich zu? Wie lange hat es bei anderen Ländern gedauert, um an den Wendepunkt zu kommen? Welche Maßnahmen waren dafür erforderlich? Was können wir lernen? – Usw. Das Ziel der Datenanalyse ist nicht die Analyse. Das Ziel sind die daraus abgeleiteten Maßnahmen.

Das Modell der logistischen Kurve

Wie so häufig in der Datenanalyse müssen wir uns auch hier in ein Modell einarbeiten, das vielen nicht geläufig sein wird. Das Modell wurde in dem Video gestern vorgestellt.

Für manche mögen diese Formeln zunächst erschreckender aussehen als sie es sind – und was ich zur Beruhigung vorzubringen habe mag auch nicht allen helfen: in den Augen eines Statistikers handelt es sich hier um ein leicht handhabbares Modell. Diese Aussage muss natürlich erklärt werden.

Zunächst einmal: was bedeuten die Symbole?
dN: Wachstumsrate; also die Anzahl der Neuinfektionen pro Tag
N: die Infektionen insgesamt – in unseren Daten die Spalte „Confirmed“
t: die Zeit gemessen in Tagen.
Bei K, k und A handelt es sich um Faktoren, die es zu bestimmen gilt.

Sehen wir uns die Gleichungen einmal genauer an: solange A*exp(-kt) >> 1 ergibt sich eine Exponentialfunktion – die Gleichung beschreibt dann exponentielles Wachstum – wie in dem Video beschrieben. Interessant ist auch, wie die erste Gleichung sich umformen lässt: dN/N = k – N*k/K. Man erwartet also, dass die Anzahl der neuen Infektionen dN, geteilt durch alle bestätigten Infektionen N linear mit N zusammenhängt. Das heißt, wir müssen in den Daten lediglich eine Spalte dN/N hinzufügen und dann eine Regressionsanalyse dieser Spalte gegen N fahren. Dabei ergeben sich zwei mögliche Situationen:

  • dN/N hängt von N ab:
    In diesem Fall zeigen die Daten den Effekt eines Wendepunktes und wir sind nicht mehr im Bereich des rein exponentiellen Wachstums.
  • dN/N hängt nicht von N ab:
    Wir sind noch im Bereich exponentiellen Wachstums und es gilt dieses zu bestimmen und z.B. Kapazitäten im Gesundheitssystem entsprechend (massiv) vorzuhalten.

Deutschland im Vergleich zu China

In der Datei COVID_Daten_20200316_ChinaVsDtld stelle ich die Daten für Deutschland und China bereit. Diese Daten sind aus der gestrigen Datei berechnet:

Wir betrachten hier zunächst in linearer Auftragung die Anzahl der Infektionen für Deutschland und China – und erkennen das Problem dieser Darstellung: man unterschätzt die Gefahr in Deutschland völlig. Der Fehlschluss ist: „Wir haben alles im Griff“.

Die Dramatik wird in dieser Graphik deutlich, der die gleichen Daten zugrunde liegen: über mehrere Tage hinweg gab es knapp über 10 registrierte Fälle in Deutschland (der Log10 von 10 ist 1, von 100 ist er 2 usw.). Wie in dem nun schon oft zitierten Video gezeigt ist die Welt jedoch vernetzt. Am Tag 35 (dem 25. Februar) setzte man in Deutschland ein Messsystem auf und erkannte, was los war. Der Anstieg ist seither exponentiell (logarithmisch aufgetragen ergibt sich eine Gerade). In nur 8 Tagen, vom Tag 39 bis zum Tag 47 hat sich die Anzahl der Infektionen verzehnfacht – und ein Ende der Verzehnfachung alle 8 Tage ist vorerst nicht abzusehen – denn wir sehen keinen Hinweis auf einen Wendepunkt.

Lektion 3: Visualisierung ist alles. 

Hier sehen wir nun links, dass 60% der Änderung in dN/N für China zusammenhängen mit einer Änderung in N – und dies bei einem P-Wert (hier nicht gezeigt) von 0%. In anderen Worten: wir sind uns 100% sicher, dass der Zusammenhang, den wir hier sehen, echt ist (für Profis: dass er zumindest eine starke Korrelation darstellt). Für Deutschland ist die scheinbare Steigung statistisch nicht signifikant – und würde auch nur <2% der beobachteten Variation in den Werten erklären.

An dieser Stelle ein mir wichtiger Hinweis: es geht hier in erster Linie um Datenanalysen. Die Anzahl der Neuinfektionen ist in China inzwischen tatsächlich deutlich zurückgegangen. Das heißt jedoch nicht, dass die Gefahr gebannt wäre. Solange in anderen Gegenden der Welt die Pandemie andauert, besteht die sehr reale Möglichkeit eines erneuten Ausbruchs auch in China. Es bleibt abzuwarten, wie China mit dieser Situation umgehen wird.

Zurück zur Datenanalyse. Wer das Programm verwendet hat gesehen, dass ich hier Minitab eingesetzt habe. Diese Graphiken und auch die statistischen Analysen lassen sich auch mit Excel über Daten -> Werkzeuge für Datenanalyse erstellen. Gegebenenfalls müssen Sie diese Werkzeuge über Datei -> Optionen -> Add Ins noch aktivieren.

Ziel: alle Länder nach dem Stand der Dinge durchsuchen

Was wir nun für ein Land gemacht haben kann und sollte man auch für alle Länder durchführen. Ich gehe davon aus, dass eine globale Organisation wie die Weltgesundheitsorganisation diese Untersuchung täglich aktualisiert:

  • Welche Länder zeigen inzwischen einen Wendepunkt?
  • In welcher Phasen befindet sich jedes Land?
  • Wie viele Neuinfektionen müssen deshalb je Land erwartet werden?

Es ist offensichtlich, dass es sich hierbei um eine Untersuchung handelt, die nicht mehr händisch sondern automatisiert durchgeführt werden muss. Das soll für die nächsten Tage auf dem Programm stehen und ist meine Hausaufgabe.

Ihre „Hausaufgaben“ für heute:

  • Wählen Sie zwei Länder aus (z.B. Deutschland und Singapur)
  • Tragen Sie die kumulierte Anzahl der Infektionen logarithmisch auf und vergleichen Sie graphisch und numerisch die Infektionsrate („Confirmed“) in den Daten
  • Finden Sie andere Länder als China, in denen wir zumindest Anzeichen eines Wendepunktes sehen? Wie sieht die Lage in Singapur aus?

 

Corona Datenanalyse: Daten herunterladen

Die Corona Pandemie nimmt derzeit fast die gesamte Tagesschau ein und auch Tageszeitungen kennen kaum ein anderes Thema. Im Internet sind Falschmeldungen unter den sich überschlagenden Neuigkeiten zum Teil nur schwer zu erkennen.

Wichtig sind deshalb Daten, um die es hier auch gehen soll.
Dafür möchte ich diesen Blog nutzen, der lange brach gelegen ist.

An wen sich dieser und die folgenden Beiträge richten

Es geht mir darum, Methoden bereit zu stellen, mit denen Sie sich selbst einen Überblick verschaffen können. Manche mögen derzeit auch im Homeoffice sitzen und aufgrund der Lage mehr Zeit haben als ihnen lieb ist. Dann kann dieser Blog auch einen Einstieg in die Grundlagen der Datenanalyse darstellen. Denn die hier verwendeten Methoden lassen sich auch auf andere Daten anwenden.

Datenvisualisierung „vom feinsten“

Was die der Corona Pandemie zugrunde liegenden Daten angeht ist die interaktive Karte der John Hopkins Universität weithin bekannt. Beachtlich ist auch das Dashboard der Tableau Community.

Werkzeuge, die wir für die Analyse verwenden werden

Nahezu universell genutzt wird Microsoft Excel. Das Tableau Dashboard lässt sich zum Großteil auch in Power-BI nachbauen, ein Software-Paket von Microsoft, zu dem die Grundversion frei verfügbar ist. Wer sich damit auskennt ist gut bedient. Zu Power-BI gibt es im Internet zudem zahlreiche Tutorials. Wir werden Power-BI hier allerdings nicht verwenden.

Wir beginnen zunächst mit Excel. Sobald es an statistische Analysen geht („sehe ich hier ein Signal oder eine Fata Morgana?“), stoßen wir damit jedoch schnell an Grenzen. Deshalb verwenden wir Minitab, ein Standard in vielen Unternehmen. Eine Lizenz für 30 Tage ist frei verfügbar und sollte ausreichen, um diesem Blog zu folgen.

Auch mit Minitab werden wir an Grenzen stoßen, wenn es zum Beispiel darum geht, über verschiedene Länder hinweg Analysen zu fahren und automatisiert zu vergleichen. Es ist zudem etwas lästig, Daten tagesaktuell neu zu laden und die Analysen zu aktualisieren. Wer sich mit Minitab-Makros auskennt wird hier viel „zaubern“ können. Wenn wir Untersuchungen automatisieren, dann verwenden wir hier die Programmiersprache R und RStudio.

COVID-19 Datenquellen

Ich habe zunächst bei der World Health Organization nach Daten gesucht. Trotz aller Sorgfalt scheint es immer wieder zu Fehlern in den Daten zu kommen, die von der Organisation „Our World in Data“ korrigiert werden. Allerdings werden dort (Stand 15. März) nicht die Zahlen der Geheilten veröffentlicht.

Ich verwende seit einigen Tagen Daten, die auf Kaggle liegen. Die lassen sich einfach als csv-Datei herunterladen. Allerdings sind die nicht immer ganz taufrisch. Sie scheinen auch aus mehreren Quellen zusammenkopiert zu werden und müssen erst einmal bereinigt werden. Wir verwenden deshalb hier die Daten, die dem Tableau-Dashboard zugrunde liegen – in der Hoffnung, dass diese ebenfalls gut geprüft sind.

Diese Daten liegen auf Google Docs.

Wie lädt man die jedoch herunter? Kopieren-Einfügen geht nicht. In Excel unter „Daten -> Daten abrufen -> aus anderen Quellen -> aus dem Web“ verlangt bei meinem Computer, dass ich im Internet Explorer gewisse Häkchen setze, die schon gesetzt sind. Es klappt nicht.

Lektion Eins: 
Daten zu beschaffen verlangt gewisse Fähigkeiten und vor allem Zeit.

Es soll hier nicht um „Tricks & Tipps“ geben, wie man bei welchem Rechner und welchem Browser an diese Daten kommt. Deshalb folgende

Möglichkeiten, um an die Daten zu kommen:

  1. Die Daten von Kaggle verwenden. Augen zu und durch. Man muss sich bei diesen Daten die Anzahl der Kranken berechnen über „Confirmed“ minus „Deaths“ minus „Recovered“.
  2. Die Daten von „Our World in Data“ verwenden. Da fehlt dann (Stand 15. März) allerdings leider die Information über die Geheilten.
  3. Eine eigene Lösung finden, um an die Daten auf Google Doc zu kommen.
  4. Mein R-Script verwenden, um diese Daten herunterzuladen.

Wer sich für Datenanalyse „im Jahr 2020“ ernsthaft interessiert sollte sich mit R zumindest auseinandersetzen. Warum also nicht heute damit anfangen? Wie man R installiert und die ersten Schritte damit geht findet sich im Internet. Die Daten herunterzuladen ist dann ein Dreizeiler:

url <- "https://...."
t <- gsheet2tbl(url)
write.csv2(t, file = "covid.csv")

Erste einfache graphische Analysen

Die Daten von Google Doc sehen in Excel wie folgt aus:

Für heute erstellen wir eine Pivottabelle mit „Date“ als Zeilen und „Case_Type“ als Spalten und summieren die „Cases“ auf. Wir prüfen sodann, dass der Case_Type „Active“ der Differenz von „Confirmed“ minus „Recovered“ minus „Deaths“ entspricht. „Active“ heißt also, wie viele Kranke es zu einem bestimmten Zeitpunkt gegeben hat. Über Einfügen -> 2D-Säule lässt sich dann folgende Graphik erzeugen, wenn man den Datenreihentyp für „Confirmed“ von „gestapelter Säule“ auf Linie verändert.

Wir sehen, dass bis zum 2. und 3. März weltweit die Anzahl der Kranken („Active“, dargestellt in blau) gesunken ist und seither ansteigt. Die Daten mit dieser Auswertung sind über diesen Link abrufbar: COVID_Daten_20200315.

Lektion Zwei:
Pivottabellen sowie Säulen- und Liniengraphiken gehören zum Grundhandwerk der Datenanalyse.

 

„Hausaufgabe“ für heute

  1. Falls Sie noch nicht mit Pivottabellen und dem Einfügen von Graphiken in Excel vertraut sind, dann sollten Sie zu diesen Themen nach Kurztutorials suchen. Es ist eine wichtige Fähigkeit, in der Sie schnell Fingerfertigkeit entwickeln sollten.
  2. Bauen Sie sich in die Pivottabelle einen Filter ein und filtern Sie nach Ländern. So können Sie sehr bequem länderspezifische Darstellungen der oben gezeigten Entwicklung erzeugen.
  3. Versuchen Sie aus den Daten zu verstehen, warum die Anzahl der Kranken („Active“ in der Datei) zunächst abfällt und dann wieder steigt.
  4. Meine Empfehlung ist, R und RStudio zu installieren und auch hier ein Grundlagenvideo zu suchen, um dann die Daten mit obigem Dreizeiler herunterzuladen.

Hier ist noch ein Video (auf Englisch und mit deutschen Untertiteln), das die Zusammenhänge und Hintergründe erklärt (der Dank geht an Ricarda, die dieses Video empfohlen hat):