Der Weg des Virus

Je mehr sich die Pandemie ausbreitet, um so mehr sind auch nicht mehr allein die bestätigten Fälle relevant sondern die „aktiven“ und die mit fatalem Ausgang. Menschen werden auch wieder gesund, sodass Krankenhäuser sich um neu Erkrankte kümmern können – und die Pandemie lässt Tod und Trauer zurück.

Ich bin inzwischen wieder bei Kaggle gelandet, die „confirmed“, „recovered“ und „deaths“ berichten, sodass wir uns die Anzahl der Erkrankten ausrechnen können: Je Datum sind das die bestätigte Fälle minus Gesundete minus Todesfälle. Von Kanada fehlen in diesen Daten jedoch die „recovered“ Zahlen, sodass dort der tatsächliche Krankenstand hoffentlich geringer ausfällt als hier dargestellt. Der Vorteil der Kaggle-Daten besteht auch darin, dass GPS-Koordinaten mit angegeben sind.

Mit diesen Daten lässt sich der Weg des Virus darstellen:

In schwarz sehen wir die zeitliche Entwicklung des „Schwerpunktes“ der weltweit Erkrankten (laut verfügbaren Daten). Derzeit bewegt er sich Tag für Tag nach Westen  – in den letzten Tagen etwas langsamer. In rot dargestellt ist die Anzahl der Erkrankten („active“ in den Daten) mit Stand gestern, 30. März. Die Größe eines Punktes ist somit ein Maß für die aktuelle Belastung, die das Gesundheitssystem zu bewältigen hat – oder hätte, so es denn voll funktionsfähig ist. Man erkennt die Herausforderungen, die in Europa derzeit bewältigt werden müssen.

Für alle, die diese in R erstellte Graphik nachbauen möchten (mit PowerBI sollte es ebenfalls gehen): Wir importieren die von Kaggle heruntergeladenen Zeitreihendaten. Die GPS-Koordinaten für jeden Eintrag werden sodann in kartesische xyz-Koordinaten umgerechnet. So lässt sich der Schwerpunkt der Daten berechnen und wieder auf die Erdoberfläche projizieren, was hier dargestellt ist. Eine gewichtete Mittelung über die Werte für Längen- und Breitengrad würde zu falschen Ergebnissen führen.

Um die Pandemie verfolgen zu können, braucht man stabile Datenquellen, in denen sich zum Beispiel die Spaltennamen nicht im Laufe der Zeit ändern. Es ist unhandlich, die Daten wie von Kaggle als Zip herunterladen und entpacken zu müssen. Man möchte die Datei per Programmcode direkt abholen, so wie es zum Beispiel bei Our World in Data möglich ist. Dort finden sich dann allerdings lediglich die Daten der bestätigten Fälle und Todesfälle und es fehlen die Genesungen. Die GPS-Daten gleich mitzuliefern ist ebenfalls eine gute Sache: die Namen von Ländern und Regionen sind eine komplizierte Sache, denn es fehlen Standards, und mit einem einfachen „S-Verweis / V-lookup“ ist es deshalb leider nicht getan.

So ergibt sich folgende Wunschliste an die Daten:

  • Tag für Tag die Gesamtzahlen aller bestätigten Fälle, Genesungen, Todesfälle und als Plausibilitätscheck am besten auch den jeweiligen Krankenstand
  • Die Unterschiede von Tag zu Tag sind nicht so wichtig – die können wir uns ausrechnen; aber auch sie sind für Plausibilitätsbetrachtungen hilfreich
  • GPS-Koordinaten der zu diesen Zahlen gehörigen Orte
  • Eine weitere Spalte mit dem jeweiligen Land oder der Region, sodass sich die Werte auch aggregieren lassen
  • Und bitte die Spaltennamen nicht ständig ändern, sodass man seinen Programmcode ständig anpassen muss
  • Wichtiger ist es, Namen und Text fehlerfrei zu halten, also nicht „Chicago, IL“ und etwas weiter „Chicago, IL – also einmal mit und einmal ohne Ausführungszeichen.

Für Hinweise auf solch eine Datenquelle bin ich sehr dankbar.

Corona Datenanalyse: wie liest man die logarithmischen Graphen?

Heute eine Anfrage aus Brasilien: was kommt da auf uns zu?

Wir haben die folgende Graphik besprochen:

  1. In Brasilien ist die Lage auch nicht anders als in den meisten anderen Ländern:
    über etwa eine Woche verzehnfacht sich die Anzahl der registrierten Fälle. Zweifellos gibt es in Brasilien und anderswo darüber hinaus noch eine Dunkelziffer.
  2. Brasilien ist etwa 10-12 Tage hinter Deutschland, Frankreich und Spanien. Wenn man die Lage vor Ort in 10-12 Tagen verstehen will, dann muss man jetzt Deutschland, Frankreich und Spanien anschauen. Auch wenn es schwer vermittelbar ist, ergreift man am besten jetzt schon die gleichen Maßnahmen.

Die Anfrage kam aus dem Gesundheitswesen, nicht von der Regierung.
Gegebenenfalls müssen lokale Gesundheitsämter und Präfekten im Alleingang vorpreschen. Von Deutschland aus kann man leider nur die Daumen drücken…

 

Corona Datenanalyse: sind wir nicht alle belogen worden?

Heute möchte ich auf einige Fragen eingehen.

Schauen sich „die Politiker“ überhaupt die Zahlen an?

Selbstverständlich tun sie das. Gestern war ein Interview mit Herrn Tobias Hans, Ministerpräsident des Saarlandes, im Fernsehen. Er hat mit Zahlen argumentiert und auch Erwartungen für die nächsten Tage genannt, die eindeutig auf einem exponentiellen Wachstumsmodell basieren. Mit diesen Zahlen hat Herr Hans nicht zuletzt die drastischen Maßnahmen erklärt, die im Saarland und andernorts dieser Tage ergriffen werden, um die Ausbreitung des Corona-Virus zu verlangsamen. Den entsprechenden Beitrag finde ich leider nicht in den Mediatheken der Rundfunkanstalten und bin für Hinweise dankbar.

Frau Ursula von der Leyen, Präsidentin der Europäischen Kommission, betont gleichzeitig: „Wir alle, die wir keine Experten sind, haben das Virus unterschätzt„. Nicht nur die Politik, auch die Gesellschaft muss derzeit eine sehr steile Lernkurve hinlegen.

Warum veröffentlicht sonst keiner solche Statistiken?

Das ist nicht richtig. Es gibt sehr viele statistische Untersuchungen, die weit über das herausgehen, was auf diesem Blog diskutiert wird. Und es gab diese Untersuchungen auch schon sehr viel früher.

Zunächst einmal haben in Zeiten von „Big Data“ zumindest größere Zeitungen selbstverständlich Statistiker und Statistikerinnen und „Datenjournalismus“ ist eine eigen Disziplin geworden.

Ein Beispiel dazu sei hier genannt zu einer der wichtigen Fragen derzeit: können wir überhaupt den offiziellen Zahlen trauen? Denn COVID-19 erreicht auch Länder, die entweder nicht in der Lage oder nicht willens sind, diese Zahlen systematisch zu erheben beziehungsweise zu veröffentlichen.

Im Economist vom 7. März wird in der Rubrik „Graphic Detail“ eine (leider nicht frei zugängliche) Studie veröffentlicht, die auf Grundlage von Tourismus-Zahlen untersucht, welche Länder das Problem entweder unterberichten oder unterschätzen. Es besteht zu hoffen, dass Vertreter dieser Länder die Studie lesen und ernst nehmen.

Wenn Frau von der Leyen sagt, wir wären alle keine Experten, dann liegt das auch daran, dass Politik und Gesellschaft – und ich glaube in der Reihenfolge – erst nach und nach verstanden haben, welche Experten jetzt gefragt sind. Inzwischen ist klar, dass Statistiker auf jeden Fall mit an Bord sein müssen. Statistik ist übrigens auch ein wichtiges Fach der Virologie.

Genannt sei hier ebenfalls eine Studie aus Harvard, die schon am 4. Februar (!) die Ausbreitung von Corona mit internationaler Reisetätigkeit in Verbindung gebracht hat. Die Figur 1 des Artikels ist auf diesem nicht-kommerziellen Blog dargestellt und kann auf Wunsch der Eigentümer dieses intellektuellen Eigentums oder deren Rechtsvertreter entfernt werden. Für deren entsprechenden Hinweis bin ich dankbar.

De Salazar PM, Niehus R, Taylor A, Buckee C, Lipsitch M, „Using predicted imports of 2019-nCoV cases to determine locations that may not be identifying all
imported cases“, https://doi.org/10.1101/2020.02.04.20020495.

Lektion 4: Lernen Sie, Statistiken zu lesen und bringen Sie auch Kindern und Jugendlichen diese Fähigkeiten bei. Statistik ist nicht „für die Uni“ sondern Bestandteil aufgeklärten Staatsbürgertums. 

Eine neue Art, Statistik zu vermitteln, ist freilich überfällig.

Warum hat man all diese Maßnahmen nicht schon viel früher ergriffen?

Diese Frage ist wichtig – und geht über diesen Blog hinaus. An einer Antwort möchte ich mich dennoch versuchen. Wir erleben Zeiten außergewöhnlicher Veränderung und außergewöhnlich schneller Veränderung. Von einigen Ländern ausgesprochene Reisebeschränkungen für chinesische Staatsbürger haben vor wenigen Wochen noch für Empörung gesorgt, ebenso die am 12. März von den USA gegen Reisende aus der EU verhängten Maßnahmen. Inzwischen haben wir uns damit abgefunden, in Deutschland in einem Risikogebiet zu leben, von dem andere Länder sich abzuschotten versuchen.

Diese und andere notwendigen Maßnahmen greifen tief in Freiheiten ein, die wir hier und heute vielleicht für selbstverständlich empfinden, für die Menschen früherer Generationen aber ein Leben lang gekämpft haben und die auch heute noch keineswegs selbstverständlich sind, so wie die Reise- und die Versammlungsfreiheit. Die zu erwartenden Opfer sind also auch mit Blick auf bürgerliche Freiheiten erheblich.

Veränderung und Einschränkungen müssen kommunizierbar sein und sie setzen ein geteiltes Verständnis der Dringlichkeit voraus, sonst funktioniert deren Umsetzung nicht. Es besteht deshalb zu hoffen, dass dieses Verständnis zumindest jetzt von allen geteilt und in verantwortliches Handeln übersetzt wird.

Corona Datenanalyse: Länder im Vergleich

Datenquelle

Zunächst einmal: die zuvor zitierte Datenquelle auf Google Docs wird offensichtlich nicht mehr gepflegt. Dafür sind Daten hier verfügbar – dankenswerterweise über einen einfachen Download-Klick. Den Datensätzen für Taiwan fehlt allerdings das Anführungszeichen vor dem Wort „Taiwan“ (es steht also nur Taiwan“ in der Datei). Das Problem beheben wir wieder manuell und lesen die Datei mit R ein, indem wir das Anführungszeichen durch einen * ersetzen, so wie unten beschrieben.

Länder im Vergleich

Wir wollen heute Länder im Vergleich betrachten. Ausgewählt sind hier China, Deutschland, Italien, Singapur, Spanien und die Vereinigten Staaten. In logarithmischer Auftragung haben kleine Unterschiede eine große Bedeutung. Spanien, Deutschland und die USA bilden nahezu eine Gruppe, die Italien im Abstand von etwa einer Woche folgen.

Um es deutlich zu sagen: wenn wir in Deutschland wissen wollen, was in einer Woche bei uns los ist, dann müssen wir weiterhin nach Italien gucken.

Bei genauerer Betrachtung fällt auf, dass die Kurven für die USA und Spanien in etwa die selbe Steigung aufweisen, wohingegen die für Deutschland und Italien etwas abgeflacht erscheinen. Ich habe nicht geprüft, ob das statistisch signifikant ist. Wir sehen auf alle Fälle in all diesen vier Ländern den typischen „Weckruf“ in den Daten, den plötzlichen „Sprung“ zu einem bestimmten Zeitpunkt, ab dem Daten systematisch erfasst wurden und die bestätigten Fälle scheinbar sprunghaft ansteigen.

Spezialfall Singapur

Völlig überraschend ist hingegen die Kurve für Singapur: man hat offensichtlich schon sehr früh, also bei wenigen bestätigten Corona-Fällen, ein gutes Messsystem eingeführt, denn es fehlt der „Weckruf“. Zudem verläuft die Kurve deutlich flacher. Das macht Hoffnung, denn die Maßnahmen, die Singapur schon sehr früh eingeführt hat, sind inzwischen auch in Europa größtenteils umgesetzt. Allerdings ist die Schlacht auch in Singapur alles andere als gewonnen, wie wir bei einer Detailbetrachtung sehen:

Wir erkennen einen Wendepunkt Mitte Februar (grün hervorgehoben) – aber dann ein erneutes Aufflammen Anfang März (rot). Eine Regressionsanalyse zeigt, dass für die Zeit zwischen diesen beiden Zeitpunkten die Rate der „Confirmed Cases“ sich über etwa 30 Tage verdoppelt hätte (bei R^2 = 96%), wohingegen inzwischen wieder mit einer Verdopplung über 10 Tage gerechnet werden muss. Es besteht zu hoffen, dass sich die Rate für Deutschland diesen Werten schnell annähert, wo wir weiterhin mit einer Verdopplung alle 2,5 Tage zu kämpfen habe (R^2 = 99%).

„Hausaufgaben“ für heute

Sehen wir auch für Italien solch einen „Knick“ wie für Singapur? Ist der signifikant?
Wählen Sie eigene Länder für einen Vergleich aus und erzeugen Sie die obige Graphik.

Corona Datenanalyse: Wer hat den Wendepunkt erreicht?

Ein Prozess zur Datenanalyse

Wir haben gestern die Daten und eine erste Analyse geteilt. Ohne groß Aufhebens darum zu machen haben wir sehr schnell (und zu nachlässig) wichtige Schritte professioneller Datenanalyse durchlaufen.  Ein Modell für den zugrunde liegenden Prozess ist OSEMN, was man wohl wie „awesome“ (engl. für genial) aussprechen sollte:

OBTAIN: Daten aufzutreiben ist oft schon das erste ernst-zunehmende Problem. Wir haben mehrere Datenquellen betrachtet und uns dann für eine Google-Tabelle entschieden. Die herunterzuladen war dank R einfach. Auch in Unternehmen liegen Daten „auf SAP“ – doch dann muss  eine Abfrage geschrieben werden, was nur wenige können. Oder es gibt einfach keine Daten zur Durchlaufzeit eines bestimmten Prozesses und ein Messsystem muss erst aufgebaut werden.

SCRUB: Als nächstes müssen Daten „gesäubert“ werden. Wer die Corona-Daten von Kaggle verwenden möchte muss die Jahreszahlen für das Datum vereinheitlichen und sich mit Regionen wie „Chicago, IL“ herumschlagen, die wegen des zusätzlichen Kommas das Einlesen der csv-Datei erschweren. Häufig fehlen auch Daten und man muss überlegen, wie man mit diesen Datensätzen umgeht. Oder ein Kundenname ist als „Audi“, „audi“ und „AUDI“ hinterlegt – und, und, und…

EXPLORE: Man schaut sich die Daten von allen Seiten her an: wie sieht die Wachstumskurve für Deutschland, Frankreich, China usw. aus? Wo sind die Hauptinfektionsherde? Dieses „Herumspielen“ ist vor allem wichtig, um neue Fragen aufzuwerfen. Ich hoffe, das haben Sie getan und dabei einige interessanten Aspekte gefunden, wie zum Beispiel: die Wachstumsrate ist für Singapur von Anfang an deutlich geringer als bei uns in Deutschland; Deutschland ist bei ähnlicher Infektionsrate 7-8 Tage hinter Italien, dicht gefolgt von den USA. Falls Sie es noch nicht getan haben, dann versuchen Sie sich daran: Sie sollten dafür die „Confirmed“ Fälle logarithmisch über die Zeit auftragen.

MODEL: Schließlich erstellt man Modelle – mit dem Ziel, Vorhersagen zu treffen. Das wollen wir heute tun, um der Frage aller Fragen nachzugehen: gibt es schon Licht am Ende des Tunnels? Zeichnet sich irgendwo ein Wendepunkt ab (der „inflection point“ aus dem gestern geteilten Video)?

iNTERPRET: Welche Belastung kommt auf das Gesundheitssystem voraussichtlich zu? Wie lange hat es bei anderen Ländern gedauert, um an den Wendepunkt zu kommen? Welche Maßnahmen waren dafür erforderlich? Was können wir lernen? – Usw. Das Ziel der Datenanalyse ist nicht die Analyse. Das Ziel sind die daraus abgeleiteten Maßnahmen.

Das Modell der logistischen Kurve

Wie so häufig in der Datenanalyse müssen wir uns auch hier in ein Modell einarbeiten, das vielen nicht geläufig sein wird. Das Modell wurde in dem Video gestern vorgestellt.

Für manche mögen diese Formeln zunächst erschreckender aussehen als sie es sind – und was ich zur Beruhigung vorzubringen habe mag auch nicht allen helfen: in den Augen eines Statistikers handelt es sich hier um ein leicht handhabbares Modell. Diese Aussage muss natürlich erklärt werden.

Zunächst einmal: was bedeuten die Symbole?
dN: Wachstumsrate; also die Anzahl der Neuinfektionen pro Tag
N: die Infektionen insgesamt – in unseren Daten die Spalte „Confirmed“
t: die Zeit gemessen in Tagen.
Bei K, k und A handelt es sich um Faktoren, die es zu bestimmen gilt.

Sehen wir uns die Gleichungen einmal genauer an: solange A*exp(-kt) >> 1 ergibt sich eine Exponentialfunktion – die Gleichung beschreibt dann exponentielles Wachstum – wie in dem Video beschrieben. Interessant ist auch, wie die erste Gleichung sich umformen lässt: dN/N = k – N*k/K. Man erwartet also, dass die Anzahl der neuen Infektionen dN, geteilt durch alle bestätigten Infektionen N linear mit N zusammenhängt. Das heißt, wir müssen in den Daten lediglich eine Spalte dN/N hinzufügen und dann eine Regressionsanalyse dieser Spalte gegen N fahren. Dabei ergeben sich zwei mögliche Situationen:

  • dN/N hängt von N ab:
    In diesem Fall zeigen die Daten den Effekt eines Wendepunktes und wir sind nicht mehr im Bereich des rein exponentiellen Wachstums.
  • dN/N hängt nicht von N ab:
    Wir sind noch im Bereich exponentiellen Wachstums und es gilt dieses zu bestimmen und z.B. Kapazitäten im Gesundheitssystem entsprechend (massiv) vorzuhalten.

Deutschland im Vergleich zu China

In der Datei COVID_Daten_20200316_ChinaVsDtld stelle ich die Daten für Deutschland und China bereit. Diese Daten sind aus der gestrigen Datei berechnet:

Wir betrachten hier zunächst in linearer Auftragung die Anzahl der Infektionen für Deutschland und China – und erkennen das Problem dieser Darstellung: man unterschätzt die Gefahr in Deutschland völlig. Der Fehlschluss ist: „Wir haben alles im Griff“.

Die Dramatik wird in dieser Graphik deutlich, der die gleichen Daten zugrunde liegen: über mehrere Tage hinweg gab es knapp über 10 registrierte Fälle in Deutschland (der Log10 von 10 ist 1, von 100 ist er 2 usw.). Wie in dem nun schon oft zitierten Video gezeigt ist die Welt jedoch vernetzt. Am Tag 35 (dem 25. Februar) setzte man in Deutschland ein Messsystem auf und erkannte, was los war. Der Anstieg ist seither exponentiell (logarithmisch aufgetragen ergibt sich eine Gerade). In nur 8 Tagen, vom Tag 39 bis zum Tag 47 hat sich die Anzahl der Infektionen verzehnfacht – und ein Ende der Verzehnfachung alle 8 Tage ist vorerst nicht abzusehen – denn wir sehen keinen Hinweis auf einen Wendepunkt.

Lektion 3: Visualisierung ist alles. 

Hier sehen wir nun links, dass 60% der Änderung in dN/N für China zusammenhängen mit einer Änderung in N – und dies bei einem P-Wert (hier nicht gezeigt) von 0%. In anderen Worten: wir sind uns 100% sicher, dass der Zusammenhang, den wir hier sehen, echt ist (für Profis: dass er zumindest eine starke Korrelation darstellt). Für Deutschland ist die scheinbare Steigung statistisch nicht signifikant – und würde auch nur <2% der beobachteten Variation in den Werten erklären.

An dieser Stelle ein mir wichtiger Hinweis: es geht hier in erster Linie um Datenanalysen. Die Anzahl der Neuinfektionen ist in China inzwischen tatsächlich deutlich zurückgegangen. Das heißt jedoch nicht, dass die Gefahr gebannt wäre. Solange in anderen Gegenden der Welt die Pandemie andauert, besteht die sehr reale Möglichkeit eines erneuten Ausbruchs auch in China. Es bleibt abzuwarten, wie China mit dieser Situation umgehen wird.

Zurück zur Datenanalyse. Wer das Programm verwendet hat gesehen, dass ich hier Minitab eingesetzt habe. Diese Graphiken und auch die statistischen Analysen lassen sich auch mit Excel über Daten -> Werkzeuge für Datenanalyse erstellen. Gegebenenfalls müssen Sie diese Werkzeuge über Datei -> Optionen -> Add Ins noch aktivieren.

Ziel: alle Länder nach dem Stand der Dinge durchsuchen

Was wir nun für ein Land gemacht haben kann und sollte man auch für alle Länder durchführen. Ich gehe davon aus, dass eine globale Organisation wie die Weltgesundheitsorganisation diese Untersuchung täglich aktualisiert:

  • Welche Länder zeigen inzwischen einen Wendepunkt?
  • In welcher Phasen befindet sich jedes Land?
  • Wie viele Neuinfektionen müssen deshalb je Land erwartet werden?

Es ist offensichtlich, dass es sich hierbei um eine Untersuchung handelt, die nicht mehr händisch sondern automatisiert durchgeführt werden muss. Das soll für die nächsten Tage auf dem Programm stehen und ist meine Hausaufgabe.

Ihre „Hausaufgaben“ für heute:

  • Wählen Sie zwei Länder aus (z.B. Deutschland und Singapur)
  • Tragen Sie die kumulierte Anzahl der Infektionen logarithmisch auf und vergleichen Sie graphisch und numerisch die Infektionsrate („Confirmed“) in den Daten
  • Finden Sie andere Länder als China, in denen wir zumindest Anzeichen eines Wendepunktes sehen? Wie sieht die Lage in Singapur aus?

 

Corona Datenanalyse: Daten herunterladen

Die Corona Pandemie nimmt derzeit fast die gesamte Tagesschau ein und auch Tageszeitungen kennen kaum ein anderes Thema. Im Internet sind Falschmeldungen unter den sich überschlagenden Neuigkeiten zum Teil nur schwer zu erkennen.

Wichtig sind deshalb Daten, um die es hier auch gehen soll.
Dafür möchte ich diesen Blog nutzen, der lange brach gelegen ist.

An wen sich dieser und die folgenden Beiträge richten

Es geht mir darum, Methoden bereit zu stellen, mit denen Sie sich selbst einen Überblick verschaffen können. Manche mögen derzeit auch im Homeoffice sitzen und aufgrund der Lage mehr Zeit haben als ihnen lieb ist. Dann kann dieser Blog auch einen Einstieg in die Grundlagen der Datenanalyse darstellen. Denn die hier verwendeten Methoden lassen sich auch auf andere Daten anwenden.

Datenvisualisierung „vom feinsten“

Was die der Corona Pandemie zugrunde liegenden Daten angeht ist die interaktive Karte der John Hopkins Universität weithin bekannt. Beachtlich ist auch das Dashboard der Tableau Community.

Werkzeuge, die wir für die Analyse verwenden werden

Nahezu universell genutzt wird Microsoft Excel. Das Tableau Dashboard lässt sich zum Großteil auch in Power-BI nachbauen, ein Software-Paket von Microsoft, zu dem die Grundversion frei verfügbar ist. Wer sich damit auskennt ist gut bedient. Zu Power-BI gibt es im Internet zudem zahlreiche Tutorials. Wir werden Power-BI hier allerdings nicht verwenden.

Wir beginnen zunächst mit Excel. Sobald es an statistische Analysen geht („sehe ich hier ein Signal oder eine Fata Morgana?“), stoßen wir damit jedoch schnell an Grenzen. Deshalb verwenden wir Minitab, ein Standard in vielen Unternehmen. Eine Lizenz für 30 Tage ist frei verfügbar und sollte ausreichen, um diesem Blog zu folgen.

Auch mit Minitab werden wir an Grenzen stoßen, wenn es zum Beispiel darum geht, über verschiedene Länder hinweg Analysen zu fahren und automatisiert zu vergleichen. Es ist zudem etwas lästig, Daten tagesaktuell neu zu laden und die Analysen zu aktualisieren. Wer sich mit Minitab-Makros auskennt wird hier viel „zaubern“ können. Wenn wir Untersuchungen automatisieren, dann verwenden wir hier die Programmiersprache R und RStudio.

COVID-19 Datenquellen

Ich habe zunächst bei der World Health Organization nach Daten gesucht. Trotz aller Sorgfalt scheint es immer wieder zu Fehlern in den Daten zu kommen, die von der Organisation „Our World in Data“ korrigiert werden. Allerdings werden dort (Stand 15. März) nicht die Zahlen der Geheilten veröffentlicht.

Ich verwende seit einigen Tagen Daten, die auf Kaggle liegen. Die lassen sich einfach als csv-Datei herunterladen. Allerdings sind die nicht immer ganz taufrisch. Sie scheinen auch aus mehreren Quellen zusammenkopiert zu werden und müssen erst einmal bereinigt werden. Wir verwenden deshalb hier die Daten, die dem Tableau-Dashboard zugrunde liegen – in der Hoffnung, dass diese ebenfalls gut geprüft sind.

Diese Daten liegen auf Google Docs.

Wie lädt man die jedoch herunter? Kopieren-Einfügen geht nicht. In Excel unter „Daten -> Daten abrufen -> aus anderen Quellen -> aus dem Web“ verlangt bei meinem Computer, dass ich im Internet Explorer gewisse Häkchen setze, die schon gesetzt sind. Es klappt nicht.

Lektion Eins: 
Daten zu beschaffen verlangt gewisse Fähigkeiten und vor allem Zeit.

Es soll hier nicht um „Tricks & Tipps“ geben, wie man bei welchem Rechner und welchem Browser an diese Daten kommt. Deshalb folgende

Möglichkeiten, um an die Daten zu kommen:

  1. Die Daten von Kaggle verwenden. Augen zu und durch. Man muss sich bei diesen Daten die Anzahl der Kranken berechnen über „Confirmed“ minus „Deaths“ minus „Recovered“.
  2. Die Daten von „Our World in Data“ verwenden. Da fehlt dann (Stand 15. März) allerdings leider die Information über die Geheilten.
  3. Eine eigene Lösung finden, um an die Daten auf Google Doc zu kommen.
  4. Mein R-Script verwenden, um diese Daten herunterzuladen.

Wer sich für Datenanalyse „im Jahr 2020“ ernsthaft interessiert sollte sich mit R zumindest auseinandersetzen. Warum also nicht heute damit anfangen? Wie man R installiert und die ersten Schritte damit geht findet sich im Internet. Die Daten herunterzuladen ist dann ein Dreizeiler:

url <- "https://...."
t <- gsheet2tbl(url)
write.csv2(t, file = "covid.csv")

Erste einfache graphische Analysen

Die Daten von Google Doc sehen in Excel wie folgt aus:

Für heute erstellen wir eine Pivottabelle mit „Date“ als Zeilen und „Case_Type“ als Spalten und summieren die „Cases“ auf. Wir prüfen sodann, dass der Case_Type „Active“ der Differenz von „Confirmed“ minus „Recovered“ minus „Deaths“ entspricht. „Active“ heißt also, wie viele Kranke es zu einem bestimmten Zeitpunkt gegeben hat. Über Einfügen -> 2D-Säule lässt sich dann folgende Graphik erzeugen, wenn man den Datenreihentyp für „Confirmed“ von „gestapelter Säule“ auf Linie verändert.

Wir sehen, dass bis zum 2. und 3. März weltweit die Anzahl der Kranken („Active“, dargestellt in blau) gesunken ist und seither ansteigt. Die Daten mit dieser Auswertung sind über diesen Link abrufbar: COVID_Daten_20200315.

Lektion Zwei:
Pivottabellen sowie Säulen- und Liniengraphiken gehören zum Grundhandwerk der Datenanalyse.

 

„Hausaufgabe“ für heute

  1. Falls Sie noch nicht mit Pivottabellen und dem Einfügen von Graphiken in Excel vertraut sind, dann sollten Sie zu diesen Themen nach Kurztutorials suchen. Es ist eine wichtige Fähigkeit, in der Sie schnell Fingerfertigkeit entwickeln sollten.
  2. Bauen Sie sich in die Pivottabelle einen Filter ein und filtern Sie nach Ländern. So können Sie sehr bequem länderspezifische Darstellungen der oben gezeigten Entwicklung erzeugen.
  3. Versuchen Sie aus den Daten zu verstehen, warum die Anzahl der Kranken („Active“ in der Datei) zunächst abfällt und dann wieder steigt.
  4. Meine Empfehlung ist, R und RStudio zu installieren und auch hier ein Grundlagenvideo zu suchen, um dann die Daten mit obigem Dreizeiler herunterzuladen.

Hier ist noch ein Video (auf Englisch und mit deutschen Untertiteln), das die Zusammenhänge und Hintergründe erklärt (der Dank geht an Ricarda, die dieses Video empfohlen hat):

 

 

Das Problem der „großen kleinen Veränderung“

Das Management hat die Notwendigkeit der Veränderung erkannt. Doch dann kommt „immer dieser Widerstand“ (so ein Artikel in ‚Beruf und Karriere‘ der Süddeutschen Zeitung vom 18./19. August 2012): Der Mensch ist eben das Problem. Der Mensch ist ja ein Gewohnheitstier. Deshalb all der Widerstand gegen Veränderung…

Wenn es um Innovationen geht ist das alles noch viel schlimmer: Googeln Sie einmal nach „corporate antibodies“. Das sind die, die sich sozusagen jeder Neuerung entgegenstellen. Innovation ist natürlich gut. Widerstand dagegen ist also schlecht.

Doch Moment mal.
Haben Sie Antikörper in Ihrem Körper? Möchten Sie die behalten? Warum eigentlich? – So betrachtet ist auch ein Unternehmen ein Organismus und Widerstand gegen Veränderung ist zunächst einmal die gesunde Reaktion eines gesunden Organismus. Ihr Unternehmen braucht „corporate antibodies“, genau wie auch Ihr Körper. Wenn dann einmal eine neue Leber eingepflanzt werden soll, dann müssen wir lernen, damit umzugehen, dürfen aber „das Kind nicht mit dem Bade ausschütten“.

Einer meiner Kunden, ein Zulieferer der Automobilindustrie, hat derzeit solch ein Problem: Die Welt draußen ändert sich massiv, Elektromobilität, autonomes Fahren, das Auto wird ein „Smartphone auf Rädern“, usw. Es muss viel geändert werden und zwar schnell. Leider ziehen natürlich die Leute nicht mit – siehe oben.

Doch Moment mal.
Lassen Sie uns den zugrunde liegenden Widerspruch erfassen. Wir verwenden dafür eine Methode, die in einem anderen Beitrag schon dargestellt wurde. Der Widerspruch besteht darin, dass wir einerseits eine große Veränderung brauchen und aber gleichzeitig eine kleine Veränderung wollen – was natürlich nicht geht, so sollte man meinen.
Die große Veränderung brauchen wir, weil wir uns an eine schnell ändernde Welt anpassen müssen. Die kleine Veränderung hingegen ist nötig, damit wir Mitarbeiterinnen und Mitarbeiter nicht unterwegs verlieren. Beides ist erforderlich, um langfristig erfolgreich zu bleiben. Als „Bubble Chart“ formuliert sieht das wie folgt aus:

ContradictionBubbles

Da wir hier in der Automobilbranche sind, sei eine elegante und von Toyota propagierte Lösung genannt. Toyota löst den Widerspruch der „großen UND GLEICHZEITIG kleinen Veränderung“ durch eine Trennung über verschiedene Skalen: machen wir viele kleine Veränderungen, die IN SUMME eine große Veränderung ergeben.

Bei dem Ansatz dahinter handelt es sich natürlich um „Kaizen“. Entscheidend für diesen Ansatz sind jedoch zwei Dinge: Erstens muss das Management eine klare Vorstellung von der Zukunft entwickeln und diese auch kommunizieren. Und zweitens ist es genauso eine Führungsaufgabe, die „Reise“ vom aktuellen hin zum zukünftigen Zustand in einzelne Schritte herunterzubrechen. Es dürfen also Ziele wie „macht in zwei Jahren 30% mehr Umsatz“ nicht einfach nur „über den Zaun geschmissen werden“. Oder wie Roger Martin es im größeren Zusammenhang formuliert (externer Link): „stop distinguishing between strategy and execution„.

Das „Problem der großen kleinen Veränderung“ kann also durchaus gelöst werden. Entscheidend dabei sind der kontinuierliche Beitrag und die Verantwortung des Managements. Der zugrunde liegende Ansatz dazu kommt aus dem Bereich „Kaizen“.

Nun wären Sie also auf einem zielführenden Pfad. Diese Chance gilt es freilich zu nutzen…

 

 

Predictive Quality bei Audi

Die Zeiten ändern sich – und zwar schnell. Schon im Jahr 2009 hat Google’s Chief Economist Hal Varian gesagt, Statistiker/in würde „the sexiest job of the 2010s“ werden:

Externes Video. Durch Abspielen können Ihre IP-Adresse und andere Informationen abgegriffen werden.

Seither ist die Verfügbarkeit von Daten erheblich gestiegen. Wenn ich selbst bis vor kurzem noch vor allem mit Excel und Minitab gearbeitet habe, so bin ich inzwischen davon überzeugt, dass die Programmiersprache R eine unabdingbare Ergänzung darstellt:
– Bei mehreren Millionen Zeilen steigt Excel bei Vlookup einfach aus
– Aus „Zeit-rein-Zeit-raus“ Daten die Bestände im Prozess („WIP“) zu berechnen erfordert einige Zeilen Code.
Die Liste ließe sich fortsetzen.

Was das inzwischen heißt, lässt sich sehr schön an folgendem Beispiel von Audi erkennen. Zunächst einmal, ein kurzer Blick in den „Paint Shop“:

Externes Video. Durch Abspielen können Ihre IP-Adresse und andere Informationen abgegriffen werden.

Und jetzt, was in diesem Zusammenhang „predictive quality“ heißt:

Externes Video. Durch Abspielen können Ihre IP-Adresse und andere Informationen abgegriffen werden.

Mit den unglaublichen Anforderungen in Sachen Zuverlässigkeit und Qualität – gerade mit Blick auf die kommenden selbstfahrenden Autos – kann man durchaus spekulieren: Wenn das Auto schon einmal „the machine that changed the world“ war, dann kann es das durchaus noch einmal werden…

Drei Jahre Erfahrung im Umgang mit einer Roadmap für operative Strategie

Strategieformulierung gemeinsam mit Ihnen und nicht für Sie

Vor gut vier Jahren hat uns (externer Link) ein langjähriger Kunde in den USA gefragt, ob wir über Operational Excellence und Innovation hinaus auch helfen könnten, eine neue Strategie zu erstellen. – Warum wir? – Nun, war die Antwort, wir trauen unseren „trusted advisers“ nicht mehr über den Weg. – Finanzkrise eben.

Ich bin hell begeistert von dem, was seither im Rahmen dieser Entwicklungsarbeit und in engen Lernschleifen mit einer inzwischen stattlichen Zahl von Kunden herausgekommen ist. Wir machen nicht Strategie FÜR Sie – das halten wir für arrogant und in mancher Hinsicht fast schon für fahrlässig. Wir machen Strategie GEMEINSAM MIT Ihnen.

Das Ergebnis findet nicht nur hohe Akzeptanz in den jeweiligen Unternehmen – viele haben schließlich mitgewirkt. Ich behaupte, es ist auch qualitativ besser. Ihre Leute sind nicht einfach „Informationsquellen“, die es „anzuzapfen“ gilt. Vielmehr fließen ihr Wissen und ihre Kreativität in die Strategieformulierung, -planung und –umsetzung ein. Zudem werden Verantwortlichkeiten richtig verteilt. Eine Strategie ist nur so gut formuliert, wie sie sich auch umsetzen lässt. Die leidliche Trennung zwischen „guter Strategie“ und „schlechter Execution“, wie man auf Konzerndeutsch sagt, gibt es in einem ganzheitlichen Ansatz von Formulierung über Planung hin zur Umsetzung nicht.

Roadmap für Operative Strategie

Vorab einige Worte zu Roadmaps im Allgemeinen.
Sie kennen die Roadmap von Julius Caesar für militärische Siege: Veni, Vidi, Vici.
Wir könnten sagen: Klingt gut. Wie aber bitteschön macht man das? Wie „kommen“, wie „sehen“ und wie dann „gewinnen“? Caesars Geheimnis liegt in dem „Wie“ und nicht in der Roadmap.

Ganz in diesem Sinne finden Sie auf unserer Homepage (externer Link) folgende Roadmap für Operative Strategie.

BMGI Operational Strategy Map

BMGI Operational Strategy Map

Es gilt zunächst, strategisch zu denken. Sie werden fragen: Wie macht man das? Dazu gab es neulich bei der LinkedIn-Gruppe von Harvard Business Review eine Diskussion; „Können Sie in einem Satz sagen, was strategisches Denken ist?“  Über 3500 Einträge später war klar: so leicht lässt sich das nicht sagen. Deshalb hier nur so viel: wir nutzen für das strategische Denken ein Modell, das Teams hilft, unter Ausnutzung der Verschiedenheiten im Team und gemeinsam viele Informationen zu sammeln, Muster darin zu erkennen und so tiefe Einsichten zu gewinnen.

Nachdem Sie strategisch gedacht haben, müssen Sie mit den gewonnen Einsichten Ihre Strategie aufbauen, danach planen, später implementieren und schließlich im Tagesgeschäft verankern. Auch dafür gibt es jeweils klare, steuerbare und erlernbare Herangehensweisen.

Ich arbeite nun schon seit drei Jahren mit dieser Roadmap und dem ihr zugrunde liegenden „Gewusst Wie“. Mehr als 70 Produktmanager haben so ihre Produktstrategie aufsetzen; ich habe über 60 Fabrikleiter dabei begleitet, ihre Fabrik neu auszurichten; ein etwas angeschlagenes Unternehmen möchte das gesamte Geschäft neu erschließen, wieder jemand anders will wissen, was mit seiner Produktpalette tun und eine Bank ihre Ausrichtung neu überdenken. Zudem gibt es noch all die Erfahrungen, die Kollegen bei anderen Kunden sammeln. Da kommt „eine Menge Holz“ zusammen.

Was ich Ihnen sagen kann ist

–          Diese Roadmap ist mit klaren Strukturen hinterlegt. Es wird schnell ersichtlich, ob Strategiearbeit handwerklich sauber durchgeführt wurde. So behalten Sie den Überblick.

–          Für jede Phase gibt es scharf umrissene Ergebnisse, auf denen die jeweils nächste aufsetzt. So können Sie beurteilen, wie erfolgsversprechend der eingeschlagene Kurs ist. Sie haben die Dinge unter Kontrolle.

–          Wie soll es von der Sache und vom Team her gestaltet werden? Blick mehr nach außen oder mehr nach innen? Eher mehr analytisch oder mehr intuitiv? Das lässt sich vorab oft nicht sagen. Im Rahmen dieser Roadmap wird auch diese „richtige Mischung“ eine bewusste Entscheidung, die Sie nach Bedarf justieren können.

Strategiearbeit wird ein Handwerk, dass Sie persönlich und als Team erlernen, praktizieren und über die Leitungsebenen Ihres Unternehmens hinweg einführen können.

Was am Ende dabei herauskommt

Die folgende Tabelle fasst einige typische „Vorher – Nachher“ Szenarien zusammen.

Ausgangssituation Nach Abschluss der strategischen Planung
Nach Jahrzehnten erfolgreichen Wachstums hatten wir 9 aufeinander folgende Quartale mit schrumpfendem Umsatz. Wir wissen, welche Art von Geschäft wir in Zukunft betreiben wollen und wie wir uns dafür aufstellen müssen. Wir wissen, was es jetzt zu tun gilt und unsere 150-köpfige Führungsmannschaft steht geschlossen dahinter.
Wir waren die verlängerte „low-cost“ Werkbank eines großen Unternehmens Wir haben einen wertvollen Markt vor unserer eigenen Haustür entdeckt. Wir wissen, wie wir es anstellen müssen, um diesen Markt für uns zu erschließen.
Meine Fabrik liegt nicht weit von einem Krisengebiet entfernt. Wir wissen nicht, wie die Sache ausgehen wird. Wir haben eine Ausrichtung gefunden, mit der wir uns für die von uns als wesentlich erachteten Eventualitäten gewappnet sehen.
Eines unserer Produkte ist ein „Dinosaurier“. Sollen wir aussteigen, die Dinge einfach weiterlaufen lassen oder vielleicht sogar nachlegen? Wir waren überrascht zu sehen, dass vor allem in China Unternehmen in genau diesen Markt drängen – obwohl sie dafür viel investieren müssen. Wir wissen inzwischen sogar warum und wissen auch, wie wir unsere Rolle als „Platzhirsch“ nutzen und ausbauen können.

 

Legen auch Sie Ihren besten Methoden die „corporate Zwangsjacke“ an?

Immer wieder finden sich prominente Stimmen, die z. B. (es folgen externe LinksBrainstorming im Team für eine Zeitverschwendung,  Lean Six Sigma oder auch Design Thinking für tot erklären. Die Liste ließe sich sicher verlängern.

Es sei dahingestellt, dass manche dieser Cassandra-Rufer in ihre Totenklage für die eine Methode gleich ihre eigene als  neue Lösung anpreisen. Man muss diese Signale ernst nehmen und fragen: Woher kommt das? Was ist dran an der Sache?

Zunächst sollten wir uns jedoch wundern.

Brainstorming im Team eine Zeitverschwendung – wie bitte?
Neulich hat doch noch ein zumindest hierzulande bekanntes Team die Fußball-WM gewonnen, obwohl andere Mannschaften viel bessere Spieler hatten. Teambasiertes Fußballspielen eine Zeitverschwendung? Das klingt absurd. Und teambasierte Kreativität? Alex Osborn (externer Link) hat in den 1950ern „cubicle-based“ Brainstorming in teambasiertes überführt. Nicht zuletzt ist deshalb der Flaschenhals unternehmerischer Kreativität längst nicht mehr ein entrückter Alleinentscheider…

Design Thinking – RIP?
Ja wart ihr überhaupt schon einmal dabei? Wisst ihr, wie das geht? Es ist geradezu wunderbar, was Sie mit der richtigen Moderation und dem richtigen Team alles erreichen können.

Und Lean Six Sigma friedlich entschlafen? Ehrlich?
Was glauben Sie eigentlich, wie hunderte von Profis ihre Verbesserungsprojekte angehen? Die Methode soll sich erledigt haben? – Also bitteschön!

Wenn ich Ihr Konkurrent wäre und Sie diese und andere Methoden für tot erklärten, dann würde ich mich natürlich freuen. Ich hätte nämlich einen großen strategischen Vorteil. Nun bin ich aber nicht Ihr Konkurrent und deshalb frage ich mich: woher kommen all diese Totengesänge?

Schauen wir einmal näher hin.

Ein großer Einzelhändler hat Sorge, das Internetzeitalter doch nicht so richtig mitgekriegt zu haben. Die Webseite läuft schlecht. Wir setzen mit Design-Thinking Methoden (und mit meiner privaten Kreditkarte) die Leute vor den Rechner, damit sie aus Sicht einer „Persona“ (externer Link) auf ihrer eigener und auf Webseiten der Wettbewerber einen gewissen Warenkorb einkaufen. Das Ergebnis zwei Tage später? Totale Überraschung. Völlig neue Erkenntnisse. Aufbruchsstimmung.

Ein Strategietreffen. Diesmal ohne Beamer & Powerpoint. Jeder hat ein Poster vorbereitet – oft mit erstaunlich viel Liebe. Die Wände sind nach wenigen Minuten und noch vor Beginn der Veranstaltung voll. Ein erstes „Wow!“ macht die Runde. Wir gehen durcheinander und reichen Themenzettel weiter, markieren Punkte darauf… Es würde zu weit gehen, hier das Vorgehen zu erklären. Effekt? Ein „kreativer Schock“. Eine neue Art, miteinander zu diskutieren. „Zum ersten Mal kommt etwas dabei heraus“, sagt einer.

Ein Logistikunternehmen. Keiner hat bisher das Problem der unverwogenen Sendungen gelöst. Die Leute werden für eine Greenbelt-Schulung und auch für das Projekt freigestellt: „das ist wichtig, was ihr hier tut“. Sie führen den Kaizen auch selbst durch. Vom Coaching merken nur das Team und vor allem der Projektleiter etwas. Ergebnis? „Ein Wunder – es klappt!“ Der Standortleiter meldet sich ab sofort mit „Kaizen-City“ am Telefon. Betriebsrat begeistert – von Lean…

„Warum nicht immer so“, fragen sich Unternehmen völlig richtig. Und so wird dann jemand beauftragt, dieses oft improvisierte Vorgehen „in die Unternehmens-DNA einzuweben“, mit Formularen zu versehen und mit allem, was dazugehört, sodass die Leute es richtig machen und dass es in Zukunft professioneller geht und aussieht. Ich habe selbst auch bei solchen Einführungen geholfen. „Insourcing capabilities“ nennt man das auf Neudeutsch. Jede Beratung, die auf dem entsprechenden Gebiet etwas auf sich hält, hat eine bewährte Roadmap dafür.

Wissen Sie, woran mich das inzwischen erinnert? Mexiko wurde über 71 Jahre hinweg von der „Partei der institutionalisierten Revolution“ (externer Link) regiert. Erst im Jahr 2000 gewann der Herausforderer und Coca-Cola Manager Vincente Fox (externer Link) die Präsidentschaft. Das Motto im Jahr 1929? „Revolution? – Klingt gut, sollten wir institutionalisieren!“

Das mag sich in Mexiko über all die Zeit hinweg bewährt haben. Auch Brainstorming, Lean Six Sigma, Design Thinking, Innovationsmanagement (letzterer Begriff ist für viele übrigens ein Oxymoron) und andere Methoden haben in vielen Unternehmen durchaus Wurzeln geschlagen und sind vermutlich auch noch eine Weile dort.

Es ist allerdings schwer, das Urgeheimnis all dieser Methoden, nämlich den Überraschungseffekt, dieses Gefühl, bei etwas Neuem und Spannendem dabei zu sein und genau diese professionelle Improvation zu „institutionalisieren“.

Und so wird viel zu häufig aus einer strahlenden Abteilung für OPEX oder einem „Business Transformation Office“ zunächst ein verstaubter Elfenbeinturm, aus dem bald die Mitarbeiter abwandern und der schließlich abgeschafft wird: „funktioniert nicht“.

Heißt das, dass Unternehmen diese Methoden nicht brauchen? Ganz im Gegenteil!

Sie müssen allerdings einer Realität ins Auge blicken und vor allem lernen, richtig damit umzugehen:  gerade bahnbrechende Methoden lassen sich nicht „domestizieren“ und in eine „corporate“-Zwangsjacke stecken. Denn genau das funktioniert nämlich tatsächlich nicht.