Wie steht es eigentlich um die Demokratie in der Welt?

Dieser Blog ist seit fast zwei Jahren verwaist – was schade ist. Seit dem letzten Eintrag ist viel geschehen. Einen Wendepunkt stellt der 24. Februar 2022 dar. Auch in meinem Leben haben sich so neue Schwerpunkte ergeben.

Wir haben nicht aufgepasst

„Als Menschheit“ haben wir manches verschlafen. Viele Länder haben die Erfahrung gemacht, was passiert, wenn ein Volk über Jahre hinweg einer Propaganda ausgesetzt wird und unabhängige Stimmen eine nach der anderen mundtot gemacht werden.

Nun ist die freie Meinungsäußerung sicher nur ein Aspekt unter vielen, auf die es zu achten gilt. Bei meiner Suche bin ich auf die hervorragende Webseite State of Democracy und auf eine über sie veröffentlichte Datenbank bei The Global State of Democracy | International IDEA gestoßen (siehe dort: Data & Tools):

„Diese Daten müssen allen Menschen zur Verfügung stehen!“

Zu 160+ Ländern liegen dort Daten von den Jahren 1975 bis heute vor und dies zu 116 „Indizes“, die z.T. in 8 „sub-sub-Attribute“, in 16 „sub-Attribute“ und 5 „Hauptattribute“ aggregiert werden. „Nichts für mich“, werden Sie sich vielleicht sagen, „da muss eine Statistikerin ran“. So bleibt dann dieser Fundus an Daten den wenigen Statistikern vorbehalten, die ihnen Einsichten entlocken können. Es entsteht ein Flaschenhals – und etwas fundamental undemokratisches. Denn der größte Teil der Menschheit bleibt somit ausgeschlossen.

Alle Länder sollten „unter Beobachtung“ stehen

Das ist ein großer Verlust. Denn zum einen sollten wir alle auf unser eigenes Land, auf Nachbarländer und überhaupt „auf die Welt“ aufpassen. Und das ist nur möglich, wenn wir eine Art „Dashboard“ haben, das uns hilft, Entwicklungen schnell zu erkennen.

Zum anderen: wenn wir über „Demokratie“ sprechen, dann tun wir das häufig im Sinne der „Mechanik“: Wahlen, Gewaltenteilung usw. „State of Democracy“ betrachtet Demokratie stattdessen aus „Kundensicht“: was erwarten sich Menschen von ihrem Staat und was können sie erwarten?

Es geht um 5 Aspekte:

  • Fundamentale Rechte
  • Überprüfung der Regierung
  • Eine unparteiische Verwaltung
  • Einbindung der Bevölkerung und
  • Eine repräsentative Regierung.

Nun fragen Sie völlig zu recht, was mit dem Attribut „fundamentale Rechten“ gemeint sein könnte. Hier geht es wieder um drei wesentliche sub-Attribute:

  • Zugang zur Justiz
  • Bürgerliche Freiheiten
  • Soziale Rechte und Gleichheit.

Auch hier werden Sie fragen, was „bürgerliche Freiheiten“ wohl sind. Laut „State of Democracy“ bestehen diese aus den folgenden „sub-sub-Attributen“:

  • Die freie Meinungsäußerung
  • Die Vereinigungs- und Versammlungsfreiheit
  • Die Freiheit der Religion
  • Die Bewegungsfreiheit und um
  • Persönliche Integrität und Sicherheit.

Allein die freie Meinungsäußerung wird über 8 Indizes gemessen.

Wir können selbstverständlich unterschiedlicher Ansicht sein, ob die freie Meinungsäußerung wohl uneingeschränkt gelten sollte. Bei uns in Deutschland ist zum Beispiel die Leugnung des Holocaust strafbewehrt. Auch gibt es verschiedene Ansichten zum Attribute der Einbindung der Bevölkerung, die neben drei anderen auch über das sub-Attribut „direkte Demokratie“ beschrieben wird: birgt die direkte Demokratie nicht auch populistische und andere Gefahren?

Was „gut“ oder „richtig“ ist wird also kontrovers diskutiert und die demokratische Republik Kongo mag andere Antworten finden als Andorra. Die vorliegenden Daten, erstellt mit einer mir ansonsten unbekannten Sorgfalt (siehe das „Codebook„), können für diese Gespräche eine wichtige Grundlage liefern.

Daraus ergibt sich für mich die nahezu zwingende Vision:

Diese Daten müssen so einfach aufbereitet werden,
dass jedes Schulkind sie verstehen kann!

In den letzten Wochen habe ich damit angefangen.
Die ersten Ergebnisse sind in den folgenden Berichten zusammengefasst:

Es fehlen noch einige Werkzeuge wie Weltkarten, die mithilfe eines Attributs oder eines Index eingefärbt werden. Das ist „Standard“ und kann bei Gelegenheit entstehen. Wie aber kann man 145 „Key Performance Indicators“ und die Zusammenhänge zwischen ihnen so darstellen, dass „jedes Kind“ sie erfassen kann?

Hier hilft das „Blumen-Diagramm“, eine Entwicklung der letzten Tage:

Wenn alles ausgereift ist, dann werden diese Werkzeuge in einer interaktiven „App“ zusammengebaut, die jetzt schon als „halbfunktionaler“ Prototyp verfügbar ist:

Der Democratizer

Falls meine Freunde aus USA dies lesen: wenn es Euch lieber ist, dann könnt Ihr diese App auch gerne als „Republicanizer“ interpretieren. Es geht nicht um die eine oder um die andere Partei. Und falls Sie diesen Beitrag in Cuba oder Venezuela lesen: es geht darum, den Zugang zu diesen Daten zu „sozialisieren“, sie also allen zugänglich zu machen. „Das Volk“ (griechisch Demos) soll die Verfügungsgewalt (griechisch kratein = herrschen) über die aus diesen Daten gewonnenen Einsichten haben.

Um was es hier geht

Natürlich ist es für einen Datenwissenschaftler spannend, große Datensätze wie den vorliegenden visuell aufzubereiten und ihnen Einsichten zu entlocken. Der „Democratizer“ stellt jedoch lediglich eine Produktinnovation dar. Wichtiger sind die Prozesse und Dienstleistungen, die sich mit dieser oder mit vergleichbaren, Transparenz schaffenden Apps denken lassen.

Soviel jetzt schon: ich bin überzeugt, dass es sich hier um Aufgaben einer Generation handelt, die auf einer Stufe stehen mit Aufgaben wie der Umstellung auf erneuerbare Energien oder der Säuberung der Ozeane. Wir müssen es angehen. Viel ist schon unterwegs. Es geht mir darum, „den richtigen Aschluss“ zu finden. Mehr dazu dann später.

Does Corona have an impact on climate?

In 2017 (data from Wikipedia) humanity emitted about 37 giga-tons of fossil CO2, much of it linked to economic activity. Corona has significantly slowed things down. How big of an impact does that have on the atmosphere?

The answer to this question helps gage the measures necessary to tackle climate change. I am certainly not the right guy for that discussion but towards the end of this contribution, you find a few thoughts.

Since 1958, the Mauna Loa Observatory measures the atmospheric CO2 concentration on a weekly basis and makes the data publicly available. The overall trend is well-known:

Interestingly, as the plot shows, the CO2-concentration undergoes seasonal oscillations: The Northern land-mass is larger than the Southern which is why, during Siberian spring and summer, CO2 is absorbed from the atmosphere and emitted again during autumn and winter.

The tricky part in our question consists in finding the „Corona-signal“ amongst this variation. The basic idea is to model the above signal for the before-Corona times, predict its further evolution and compare the outcome to what really happened.

We start with a polynomial approximation and find that for times after 1995 a second-order polynom will do. We are then left with modelling the annual cycles:

To a climate newby like myself, these cycles are impressive: at a weight of the atmosphere of 5×1018 kg, a variation of 6ppm summer to winter corresponds to about 100 Gigatons CO2 that planet Earth „breathes in and out“. That is about 3x what humanity emits in fossil CO2 per year.

The challenge we are left with is understanding the „Corona-signal“ in these oscillations:

To that purpose, we use the Fast Fourier Transformation (FFT, see betterexplained.com) and get inspiration from Joao Neto’s tutorial on how to do that in R. Here we are not only interested in finding the amplitude of the oscillation but also need the phase-information. Just in case you plan to do that, here are a few tips:

  • Interpolate missing values before the analysis
  • To reduce artifacts, use time-windows of entire years for the FFT
  • Refine your algorithm with a known signal, then approach unknown signals.

What turns out to be hard to model in the annual CO2 cycles is the phase-information. Taking longer periods in time leads to significant phase-shifts on the edges. That is a pity because it is the upper edge we are interested in. Here I use the data between Jan 30 2010, and Jan 30 2020 by when the WHO declared COVID-19 a „public health emergency of international concern“.

In blue we see what happened, in green the model and in red the long-term trend based on a polynomial approximation. For the oscillation, I have used only the two frequencies with the strongest amplitudes. Overall the result looks promising but the devil sits in the details:

With the 2019-cycle we see the overall difficulty to model the phase shift. And yes, many blue dots (what happened) in 2020 are below the green curve (expected behavior without „Corona-effect“). Well,…

…we need to investigate better the residuals (differences between blue and green):

The average of -0.116 ppm is not significantly different from zero („Corona times are no different from what is expected without Corona“), given the overall variation in the residuals. One could argue that it took the world economy some time to settle into „Corona operations“ and that it equally took the planet some time to stirr the atmosphere enough for a lower CO2 concentration to reach remote Hawaii. When we take out of the analysis the two data points from February 1 and 8 (shown in italic), we get an average for the remaining residuals of -0.22 ppm, but this still with a likelihood („P-value“) of 10% that the true average is zero.

In other words:
With our somewhat crude analysis and for a relatively short time of observation, we only find a 90% chance for anything like a „Corona effect“ on the global CO2 concentration.  

Most people would wish to be at least 95% certain – and more is definitely better here and elsewhere. We knew things were going to be tricky. For my own business as a consultant, I am still happy to now have algorithms that help me study seasonality in my clients‘ demand data, for example. But that is not the point here.

For climate it pretty much looks like if we were in for a longer race: as the cartoonist from The Economist observed: Corona is only the preliminary round for the world to learn to fight together. After this „warm-up“, climate change then is the real thing. Taking quick shots at CO2 , even as big as a world-wide Corona shut-down, has limited impact.

With that said: the Mauna Loa data earn more thorough investigation than done here – and as quoted above, there are people doing just that. If you have an idea how to better model the data, and to tackle the phase-shift problem better than I do, maybe we can reduce the residuals between model and reality (measured when „learning“ the model with the data from before Corona). In my analysis, they stand at a standard deviation of 0.6 ppm. Lower residuals („noise“) will allow detecting smaller signals…

Ping me, if you have an idea.

 

 

 

Die Corona-Lockerungen schreiten voran – was sagen die Zahlen?

Wir sollten die Zahlen und unser eigenes Verhalten weiterhin im Blick behalten

Verglichen mit manch anderem Land sind wir in Deutschland bisher glimpflich davon gekommen. Vorsichtige Lockerungen schreiten voran. Auch bei uns zuhause wird ab heute an zwei Tagen die Woche und für je drei Stunden die Schule wieder beginnen – nicht im Klassenverband sondern in kleinen Gruppen. Auf dem Schulhof scheinen Kreuze aufgemalt zu sein, auf die sich die Kinder während der Pause offensichtlich stellen sollen.

Man wird sehen, wie das und vieles andere funktioniert. Die Lockerungen, genau wie auch die Maßnahmen, sehen regional jeweils verschieden aus. Aus den jeweiligen Auswirkungen wird sich viel lernen lassen, wie dem Virus am besten zu begegnen ist. Wir sollten sicher alle die täglich veröffentlichten Zahlen des Robert Koch Instituts (RKI) verfolgen, immer wieder einen Blick auf deren Dashboard werfen – und nicht zuletzt auch unser eigenes Verhalten im Blick behalten.

Kennt jemand eine Quelle für die Rohdaten in Deutschland?

Das Dashboard des RKI gleicht dem der Johns Hopkins Universität, die im Kleingedruckten auch einen Link zu ihren Rohdaten veröffentlicht. Alle Auswertungen in diesem Blog kommen von diesen Daten.

Kennt jemand solch einen Link für die Daten in Deutschland?
Ich bin sicher nicht der einzige, der sich die Dinge – gerade jetzt – liebend gern regelmäßig selbst anschauen würde. Auf meinem „Wunschzettel“ für diese Daten steht:

  • Tabellenformat (csv, xls, txt, …) mit Spalten für
  • Datum
  • Landkreis o. ä. mit jeweils
  • Gesamtzahl bestätigter Fälle
  • Gesamtzahl Genesungen
  • Gesamtzahl Todesfälle.

Aus den Gesamtzahlen lassen sich die täglich neuen Zahlen berechnen. Wenn es statt dieser Zahlen die täglich neuen Zahlen gibt, dann lassen sich natürlich auch die Gesamtzahlen berechnen. Falls beide veröffentlicht werden, so kann man deren Konsistenz prüfen. Sehr schön wäre es, wenn je Landkreis, Verwaltungsbezirk oder in welcher Form auch immer die Daten gesammelt werden, auch noch

  • GPS-Koordinaten und
  • Einwohnerzahl

zu haben wären. Diese Informationen können in neuen Spalten stehen oder auch gerne in einer separaten, aber dann bitte vollständigen Liste. Soweit mein Wunschzettel. Dem Dashbord des RKI müssen jedenfalls Daten in solch einem Format zugrunde liegen. Es gibt sie also. Wenn jemand den Link kennt, den ich bisher übersehen habe: sehr gerne!

Die „post-Corona Welt“ zeichnet sich am Horizont ab

Viele haben inzwischen notgedrungenerweise gelernt, von zuhause aus zu arbeiten. Man kennt von Menschen, denen man bisher nie begegnet ist, die Kücheneinrichtung und wird inzwischen auch schon von deren auf dem Schoß sitzenden Sohnemann begrüßt: trotz des Spagats, den viele machen müssen, erscheint in dieser neuen Arbeitswelt manches deutlich entspannter. Es zählt nicht mein Titel, wie groß mein Büro ist und ob mein Dienstwagen direkt vor dem Foyer oder auf dem Firmenparkplatz steht. Es geht darum, ob ich Probleme lösen kann und Dinge im Fluss halte. Zur allgemeinen Überraschung klappt das ganz gut, nicht zuletzt auch, weil Werkzeuge und Plattformen für virtuelle Zusammenarbeit derzeit einen Boom erleben.

Twitter verspricht konsequenterweise schon jetzt „Homeoffice für immer“ und auch Facebook zieht nach. Videokonferenzen unter europäischen Politikern sind der neue Standard. Auch hält die CSU einen virtuellen Parteitag und gewinnt dem einiges ab: man könne so auch in Zukunft viel schneller und flexibler Rücksprache mit Mitgliedern halten.

Wir werden sehen, in welcher Form diese Dinge in Deutschland Breitenwirkung erzeugen und auf Dauer Wurzeln schlagen. Muss man wirklich weiterhin für ein „Business Review“ im Quartalrhythmus in aller Herren Länder fliegen? Vielleicht wird das persönliche Treffen -nicht nur von Angesicht zu Angesicht dank Bildschirmübertragung sondern auch mit Möglichkeit zum Händedruck – zu einem Luxus, ähnlich dem von weit her eingeflogenen Lebensmittel zum Beispiel?

Unsere Lieferketten waren bisher vor allem auf Effizienz getrimmt. Es steht zu hoffen, dass es nun vermehrt auch um Resilienz und Nachhaltigkeit geht. Redundanzen und „near-shoring“ werden dabei vermutlich eine Rolle spielen. Gerade in Frankreich gibt es derzeit eine rege Debatte darüber, was wir aus Corona lernen können und müssen, um unseren Enkeln einen besseren Planeten übergeben zu können als den, zu dem wir das Erbe unserer Großeltern gemacht haben.

Die Sache ist allerdings noch lange nicht vorbei

Über den Daumen gepeilt haben wir in Deutschland knapp 178.000 bestätigte Corona-Fälle, von denen sich nur noch 12.000 im Krankenstand befinden – was schlimm genug ist. Seit dem 8. Mai kommen Tag für Tag für ganz Deutschland 630 bis 640 neue Fälle dazu (Regressionskoeffizient 99%), was etwa 60% der täglich bei Verkehrsunfällen verletzten Personen entspricht. Dieser Vergleich hinkt natürlich gewaltig: Wenn man sich die Todesfälle anschaut, dann liegt Corona weiterhin um einen Faktor 5-6 höher. Verkehrsunfälle wachsen auch nicht exponentiell, mit einer Verdopplungszeit von 2-3 Tagen, wenn man nichts dagegen tut. Der Vergleich zeigt aber zumindest, wie viel bei uns inzwischen erreicht wurde.

Ein Blick in die Welt zeigt jedoch auch, dass wir uns glücklich schätzen müssen: weltweit kennen die Zahlen bisher nur eine Richtung und der Höhepunkt ist noch längst nicht erreicht:

Von den über 81 Millionen Einwohnern in Deutschland steht – laut verfügbaren Zahlen – 99,8% das Risiko einer Erkrankung zudem weiterhin bevor. Wenn wir zu unserem Verhalten vom Februar zurückkehren, dann könnten sich auch die Wachstumszahlen vom Februar wieder einstellen. Berichte von dem einen oder anderen „Super-Spreader“ haben wir ja gelesen oder gehört.

Schauen wir uns an, welche Länder laut Johns Hopkins Universität derzeit die meisten „aktive“ Fälle verzeichnen …

… und wie die Entwicklungen in den vier am meisten betroffenen Ländern aussehen:

Man mag die Zahlen der Gesundeten in Großbritannien und die der Todesfälle in Russland anzweifeln und vielleicht gleich alle Zahlen aus Brasilien – aber dass gerade in Brasilien die „Reise“ erst am Anfang steht, erkennt man allein schon an dem exponentiellen Wachstum, das laut unseren eigenen Berechnungen derzeit einer Verdopplung alle 13 Tage entspricht (Regressionskoeffizient nahe 100%). Zum Vergleich: Peru, derzeit an Position 7 was den Krankenstand angeht, liegt bei einer Verdopplung alle 16 Tage (bei ebenfalls sehr hohem Regressionskoeffizienten).

Man wird deshalb auch diese Entwicklung im Auge behalten müssen:

Dargestellt sind in rot der tagesaktuelle Krankenstand vom 25. Mai und in schwarz die Wanderung im Laufe der Zeit des globalen Schwerpunkts dieser Zahlen: nach einer Ausbreitung zunächst in China hat sich das Virus sehr schnell Richtung Westen ausgebreitet.

Der Schwerpunkt (näheres zur Berechnung im Eintrag vom 31. März) blieb dann eine geraume Zeit über dem nördlichen Atlantik – und scheint seit neuestem eine lang vorhergesagte Reise nach Süden anzutreten. Es könnte durchaus sein, dass die größte humanitäre Katastrophen, auch durch Corona verursachte Hungernöte, uns noch bevorstehen.

Wie geht es eigentlich der Automobilindustrie seit Corona?

Schlecht natürlich. Wie allen. Ein genauerer Blick lohnt aber sicher und wir besorgen uns Daten von Yahoo Finance. Natürlich: der Aktienkurs ist nicht alles und gerade in außergewöhnlichen Zeiten sieht man gelegentlich übertriebene Markterwartungen – sowohl nach oben als auch nach unten. Aber die Aktienkurse haben zumindest den Charme, dass sie öffentlich einsehbar und jederzeit verfügbar sind.

Der handelsübliche Kursvergleich

Üblicherweise werden Entwicklungen verglichen relativ zu dem Kurs an einem bestimmten Datum. Da nun Aktienkurse bekanntermaßen Schwankungen unterliegen, verschaffen wir uns so allerdings einen „Wackelkandidaten“ im Nenner. Mit etwas Gymnastik gelingt dadurch gelegentlich, Kursverläufen das gewünschte Aussehen zu geben, indem man mit dem Bezugsdatum spielt.

Verglichen wird auch oft mit „dem Markt“. In Deutschland ist das der DAX, in den USA der Dow Jones und so weiter. Was aber, wenn wir Daimler, Toyota, Ford, Hyundai, Geely und Tesla vergleichen wollen?

Unser Kursvergleich für ausgewählte Automobilhersteller

Wir wählen deshalb zum einen den MSCI World als Vergleichsindex und verfolgen die Kursentwicklung nicht relativ zu einem bestimmten Tag sondern relativ zum Mittelwert über einen gewissen Zeitraum.

Man muss nicht lange hinschauen, um zu sehen, dass hier ein Sonderling dabei ist. Der zweite Blick ist aber vielleicht interessanter: auch schon vor der Corona-Zeit hat der Markt die Automobilindustrie immer pessimistischer eingeschätzt: von einer Lage klar über der (rot dargestellten) Linie des MSCI-World im vierten Quartal 2019 rutschen die Kurse bis Januar 2020 kontinuierlich ab. Aus Sicht des Marktes verschärft Corona diesen Trend also lediglich. Die gegenläufige Entwicklung des „Sonderlings“ mögen andere beurteilen. Wichtig ist hier: wir können dieseDinge sichtbar machen.

Was wäre wenn? – Wie Sie solche Analysen nutzen können

Das obige Diagramm ist (für ein anderes Portfolio freilich) Auftragsarbeit. Was man halt so tut in diesen Zeiten. Nun stellen wir uns aber einmal vor: was wäre, wenn derartige Analysen ein fester Bestandteil Ihres QBRs (zu deutsch: „Quarterly Business Review“) wären – einfach nur, um den Blick nach außen zu richten und nicht zu sehr „im eigenen Saft zu schmoren“? Stellen wir uns weiter vor, Sie hätten diese Auswertungen auf dem Tisch liegen für ausgewählte:

  • Konkurrenten
  • Lieferanten
  • Kunden.

Wie würde das die Diskussionen und die taktischen Beschlüsse für das nächste Quartal beeinflussen?

 

Corona: wir können viel von Asien lernen – und vom europäischen Norden

Der Blick über den Tellerrand

In den Nachrichten werden immer wieder die Corona-Entwicklungen verschiedener Regionen gegenüber gestellt. Wir wollen deshalb einmal die großen Länder Europas, also Deutschland, Frankreich, Italien und Spanien, in Zusammenschau mit vergleichbaren asiatischen Ländern betrachten. Eine Überraschung heben wir uns für den Schluss auf.

Bis vor kurzem hat manch einer vielleicht noch maskierte asiatische Touristen belächelt. Nun verstehen wir: wenn ich eine Maske trage, dann schütze ich vor allem die anderen. Hätten wir nicht auch früher schon von Asiaten lernen sollen, anstatt in Bus und Bahn zu husten und zu niesen?

Ein Ländervergleich

Ich habe hier drei asiatische Länder ausgewählt, die in gewisser Hinsicht mit europäischen durchaus vergleichbar sind – denn es geht nicht zuletzt auch um die Frage, welche Dinge in einer Gesellschaft umsetzbar sind. Was in China möglich ist funktioniert nicht notwendigerweise auch bei uns. Zunächst aber ein Blick auf Europa:

Die Graphik spricht Bände und wir können uns in Deutschland glücklich schätzen, wie wirkungsvoll die „Vollbremsung“ bei uns bisher war.

Wir wollen diese Entwicklungen nun vergleichen mit denen von Japan, Südkorea und Taiwan. Ausgewählt habe ich die Länder nach Bruttosozialprodukt pro Kopf, Einwohnerzahl (Daten jeweils aus Wikipedia) und nach „Demokratie-Index“ des Economist als Maß für die Art, wie eine Gesellschaft sich organisiert. Ich hoffe, dass auch diejenigen diesem Vergleich folgen, bei denen die Demokratie als Gesellschaftsform inzwischen in Misskredit geraten ist:

Hier nun die COVID-19 Daten aus diesen asiatischen Ländern im Vergleich zu Deutschland:

Was zunächst auffällt ist, wie gering die Zahlen ausfallen: In Taiwan waren es bis Mitte März lediglich 50 (!) bestätigte Fälle – und das bei zahlreichen Direktflügen, auch aus Wuhan. Innerhalb eines Monats sind diese Zahlen auf gut 400 angestiegen. Man zählt seither kaum noch Neuinfektionen – und das bei einer Bevölkerung, die knapp doppelt so groß ist wie die von Bayern. Selbst in dem dicht besiedelten Japan mit einer im Vergleich zu Deutschland um 50% größeren Bevölkerung, und mit 9 Millionen Menschen allein in Tokio, hat man nur 10% der Infektionen, die wir in Deutschland erdulden müssen. Blick nach Südkorea: dort scheint nun schon seit fast zwei Monaten die Lage im Griff zu sein. Es verwundert insofern, dass der Economist vom 2. Mai in seinem Leitartikel ausgerechnet Deutschland lobt.

Der hohe europäische Norden sorgt für noch eine Überraschung

Bei all den vielen Ländern und Regionen, für die die Johns Hopkins Universität die Zahlen erfasst und veröffentlicht, ist es inzwischen ein „big data“ Problem geworden, überraschende Länder herauszufiltern. Island verheddert sich zumindest in meinen Algorithmen:

Wie kann das denn bitte sein? Anfang März ging es los – und Anfang April soll es bei einem Krankenstand von insgesamt 1000 Menschen schon vorbei gewesen sein? Wir hoffen das beste und drücken den Menschen in Island alle Daumen.

Eines steht aber fest: der Blick über den Zaun lohnt.
Wir können – und müssen sicher – sehr viel voneinander lernen.

Mit ein bisschen Glück steht die Welt nämlich dann bei der nächsten großen Herausforderung zusammen. Die Karikatur des Economist vom 25. April zeigt auch, um was es nach dieser „Vorrunde“ ihrer Ansicht nach geht. Aber das Bild zeige ich hier mit Blick auf den Schutz des intellektuellen Eigentums wohl eher nicht…

90+ Tage Corona – Visualisierung der weltweiten Entwicklung

Ich werde mehr und mehr ein Fan der – zunächst unhandlich erscheinenden – Programmiersprache R. Wie vieles andere, so stehen dort längst auch die von Hans Rosling und der Gapminder-Foundation entwickelten Werkzeuge zur dynamischen Visualisierung von Daten zur Verfügung. Wir können damit die weltweite Entwicklung der Corona-Fälle als animierte gif-Datei visualisieren.

Dargestellt sind wieder die auf Github abgelegten Daten der Johns Hopkins Universität. Die Größe eines Punktes stellt dabei den Krankenstand dar und die Farbe die Rate der Veränderung (für die wir fünf Kategorien verwenden). Für die USA sind separate Datensätze auf regionaler Ebene vorhanden – jedoch leider nur für die bestätigten und die Todesfälle, nicht jedoch für die Anzahl der Genesenen. Da wir uns hier für den Krankenstand interessieren, verwenden wir die Daten für das gesamte Land.

 

Blick zurück: die Corona-Fälle steigen inzwischen linear

Nachdem in Deutschland und vielen anderen Ländern über Wochen hinweg die Zahl der bestätigten Corona-Fälle exponentiell gestiegen ist und sich in zwei bis drei Tagen verdoppelt hat, zeigen die Maßnahmen inzwischen deutliche Wirkung: das exponentielle Wachstum konnte auf ein lineares heruntergebremst werden.

Wir sehen uns für ausgewählte Länder den verfügbaren Datensatz an:

Zunächst fällt auf, dass die Lage in Singapur sich verschlimmert hat – wir hatten den Stadtstaat als „Ausnahmefall“ diskutiert und empfohlen, sich von dort Ideen zu holen. Wie deutsche Zeitungen berichten, ist allerdings inzwischen unter eng zusammenlebenden ausländischen Arbeitskräften Corona erneut ausgebrochen und gelangt von dort auch zur übrigen Bevölkerung.

Am anderen Ende der Skala fällt auf, dass in den USA die bestätigten Fälle ab ca. dem 3. Februar exponentiell angestiegen sind (was in logarithmischer Auftragung zu einer Geraden führt) aber seit ca. dem 27. März linear wachsen.

Wir wollen nun die Ausbreitung von Corona in diesen Ländern miteinander vergleichen. Dazu betrachten wir den Zeitraum ab dem 300sten bestätigten Fall.

So fällt auf, dass das exponentielle Wachstum in Deutschland und den USA zunächst sehr ähnlich verlief (wie auch in Spanien, Italien und vielen anderen Länder, wir haben das in früheren Beiträgen diskutiert). In Deutschland gelingt es dann jedoch, dieses Wachstum nach ca. 2 Wochen sichtbar zu bremsen. Der Vergleich der rechten und der linken Darstellung erlaubt zu erkennen, über welche Zeiträume hinweg das Wachstum eher exponentiell und wann es linear verläuft. Wir schauen uns diese Dinge unten genauer an.

Vorteile eines linearen Anstiegs der bestätigten Fälle

Bei einem exponentiellen Wachstum mit einer Verdopplungszeit von 3 Tagen haben wir nach 3 Tagen doppelt so viele Fälle, nach 6 Tagen schon viermal so viele, nach neun Tagen achtmal – und so weiter, bis das Gesundheitssystem zusammenbricht.

Für ein lineares Wachstum kommt dagegen jeden Tag in etwa die gleiche Anzahl neuer Fälle hinzu. Die Situation wird dadurch handhabbar, wie man über das Gesetz von Little erkennt: bei 2000 neuen Fällen Tag für Tag und falls Menschen im Mittel 30 Tage lang krank bleiben, dann muss das Gesundheitssystem einen mehr oder weniger konstanten Krankenstand von etwa 2000*30 = 60000 bewältigen. Bei bekanntem Prozentsatz  schwerer Fälle lässt sich so nicht zuletzt der Bedarf an Beatmungsgeräten planen. Für ein exponentielles Wachstum steigt dieser Bedarf dagegen exponentiell an.

Wie sieht die Lage in Deutschland aus?

Wir haben die „Western Electric“ oder „Nelson“ Regeln, die wir im letzten Beitrag noch in Minitab verwendet haben, inzwischen in unser R-Programm übertragen (Ayush aus Indien sei Dank dafür, den Fehler in meinem Code gefunden zu haben).

Der Algorithmus erkennt in logarithmischer Auftragung, links, zunächst einen ansteigenden Trend in den Residuen (Abstand zwischen den schwarzen Punkten und der blauen Ausgleichsgeraden). Dieser Trend führ auch zu einer eindeutigen Verschiebung („Shift“) und dann zu einem abfallenden Trend. Das exponentielle Modell beschreibt die Daten also schlecht, was wir auch an einem Regressionskoeffizienten von 92% erkennen. Rein rechnerisch erhält man zwar weiterhin eine Verdopplungszeit (von 20,5 Tagen), sollte diese jedoch nicht für Vorhersagen verwenden, da das zugrunde liegende Modell nicht angemessen ist.

Das lineare Modell, rechts, beschreibt die Daten dagegen besser: nur drei Prozent (100% minus 97%) der beobachteten Streuung stammen nicht von dem linearen Anstieg. Wir erkennen hier jedoch auch ein ähnliches Verhalten der Residuen: selbst das lineare Wachstum ist abgebremst. Die vorhergesagten 3668 neuen Fälle pro Tag stellen also eine Abschätzung nach oben dar. Wenn wir die Zahlen lediglich ab dem 10. April herausgreifen erkennen die Western Electric / Nelson Regeln keine Besonderheiten – und wir erhalten ca. 2500 neue Fälle pro Tag (2474, um genau zu sein – wir haben im Rahmen der Fehlertoleranz gerundet).

Unter Verwendung von Littles Gesetz und einer durchschnittlichen Krankheitsdauer von 30 Tagen schätzen wir für die nähere Zukunft also einen zu erwartenden, mehr oder minder konstanten, Krankenstand von 75000 Menschen in Deutschland ab. Bei den derzeitigen Diskussionen um Lockerungen der Maßnahmen wird diese Zahl mit der Kapazität des Gesundheitssystems verglichen.

Singapur: zurück zu exponentiellem Wachstum

Werfen wir für den gleichen Zeitraum einen Blick nach Singapur:

Ein lineares Wachstumsmodell (rechts) führt zu einer „Biegung“ der Residuen, die auch als Trend erkannt wird und somit signifikant ist. Das lineare Modell hat eine Güte von 94% – wohingegen ein logarithmisches Modell links die Zahlen fast perfekt beschreibt (Regressionskoeffizient nahe 100%): Singapur hat derzeit mit einer „zweiten Welle“ und einer Verdopplungszeit von 5,1 Tagen zu tun (wenn auch auf niedrigem Niveau, wie man an den 624 neuen Fällen pro Tag abliest, die das lineare Modell ermittelt). Wenn diese Welle jedoch nicht eingedämmt werden kann, dann ist im Laufe eines Monats (2*16,8) mit hundert Mal so vielen Fällen zu rechnen (Verzehnfachung der Verzehnfachung).

Automatisierte Erkennung von Infektionsherden

Auch in Deutschland wird man die Zahlen im Auge behalten müssen, um solch eine „zweite Welle“ schnell zu erkennen. Untersuchungen, die wir hier für ganze Länder durchführen, können auch regional angewendet werden und so frühzeitig warnen. Mit unserem R-Programm sind wir auch in der Lage, Länder und Regionen nicht nur schnell manuell zu betrachten – es genügt die Änderung eines Eintrages im Quellcode, was in wenigen Sekunden getan ist. Wir können auch Schleifen über mehrere Regionen und Länder durchlaufen, automatisiert modellieren und nach Verletzungen der Nelson-Regeln suchen. Man stelle sich dies vor für alle Postleitzahlen in Deutschland: Infektionsherde lassen sich so sehr schnell erkennen.

Wir sind überzeugt, dass genau dies oder ähnliches derzeit aufgebaut wird: entscheidend dafür sind nämlich gute Zahlen und es gilt, flächendeckend zu testen.

USA: lineares Wachstum mit erschreckend hoher Rate

Für die USA betrachten wir zunächst den Gesamtverlauf:

Wir erkennen deutlich den „Weckruf-Knick“ um den 24. Februar herum, ab dem Daten systematisch erfasst werden. Wenn man möchte, dann kann man in der linken, logarithmischen Darstellung das sich anschließende exponentielle Wachstum rückwärts extrapolieren, um den Zeitpunkt der Infektion des „Patienten Null“ zu bestimmen. Wir machen das freihändig (die beiden hinzugefügten Linien) und ermitteln somit den 15. Februar als Datum für den Beginn der Epidemie in den USA.

Ab ca. dem 30. März erscheint das Wachstum nahezu perfekt linear (rechts) und wir schauen uns die Entwicklung mit den nun hinreichend bekannten Statistik-Werkzeugen genauer an:

Das exponentielle Modell beschreibt das Wachstum nur unzureichend, was wir nicht nur am Regressionskoeffizienten sondern auch an dem deutlichen Trend in den Residuen erkennen. Das lineare Modell ist hingegen nahezu perfekt. Wir rechnen vorerst weiterhin mit 30000 neuen bestätigten Fällen pro Tag – die Auswirkungen auf das Gesundheitswesen, das Land und die Menschen sind für mich nicht vorstellbar.

Was bringen die Corona-Maßnahmen?

Seit dem 22. März gilt in Deutschland ein „umfassendes Kontaktverbot“, das unserer Wirtschaft und Gesellschaft hohe Opfer abverlangt. Was hat das bisher gebracht?

Ich folge inzwischen der deutschen Presse und verwende auch die Daten der John Hopkins Universität. Etwas unscheinbar befindet sich unter der „Corona Map“ ein Link auf Github, von wo sich csv-Dateien für die bestätigten und die Todesfälle sowie die Anzahl der Genesenen herunterladen lassen. Aus diesen Zahlen berechnen wir auch die Zahl der „Aktiven“, also den Krankenstand.  

Abschätzung des zu erwartenden Krankenstandes

In logarithmischer Auftragung erkennt man eine deutliche Abschwächung der Wachstumsrate für die bestätigten („confirmed“) Fälle. Zumindest genauso wichtig ist die damit einhergehende geringere Wachstumsrate (aber weiterhin steigende Anzahl) der Kranken, die auf ein gut funktionierendes und nicht überlastetes Gesundheitswesen angewiesen sind. Am 6. April sind das mehr als 72000 Menschen. Die Entwicklung der letzten Tage tragen wir logarithmisch auf:

Das zu erwartende Wachstum des Krankenstandes über die nächsten Tage lässt sich mit dieser Regressionsanalyse abschätzen. In logarithmischer Auftragung ergibt sich wie gezeigt eine Gerade mit der Steigung 0,04709. Wir erwarten also eine Verdopplung alle 14 Tage – bei aktuellem Maßnahmenkatalog. Über das lila gezeigte Vorhersageintervall erkennen wir, dass auf Grundlage dieser auf sieben Tagen basierenden Analyse eine Vorhersage für 14 Tage mit einer erheblichen Unsicherheit behaftet ist – sowohl nach oben als auch nach unten. Da aber auch die Einführung der Maßnahmen erst 15 Tage zurückliegt, können wir vermutlich nicht von einem „stabilen System“ ausgehen. Auch deshalb werden die aktuellen Zahlen in Nachrichten und Zeitungen stets neu bewertet.

Es liegen, wenn auch nicht mir, inzwischen genügend Zahlen vor, um aus der Anzahl der „Aktiven“ abschätzen zu können, wie viele Menschen eine Intensivbehandlung benötigen. Diese Zahl lässt sich wiederum mit der verfügbaren Kapazität an Bettenplätzen, Beatmungsgeräte, usw. vergleichen. So ließe sich überlegen, inwiefern Lockerungen der Maßnahmen riskiert werden können.

Hervorgehoben werden muss, dass es sich hier um eine grobe ABSCHÄTZUNG – und zwar hoffentlich nach oben – der zu erwartenden Belastung des Gesundheitssystems handelt: modellieren sollte man besser die Ausbreitung des Corona-Virus. Über Daten von Einzelfällen mit den Zeitpunkten für Diagnose und Ausgang der jeweiligen Erkrankung, Zahlen, die verständlicherweise nicht veröffentlicht werden, lässt sich eine mittlere Krankenzeit und deren Streuung berechnen. So könnte der zu erwartende Krankenstand besser abgeschätzt werden. Wir haben diese Möglichkeit hier nicht und modellieren deshalb den Krankenstand direkt.

Was hat die „soziale Distanzierung“ gebracht?

Schauen wir uns dafür die Zahlen der Ausbreitung genauer an und hier zunächst den Anstieg zu Beginn der Epidemie in Deutschland. Über eine Analyse der Residuen (s.u.) wählen wir den Zeitraum vom 25. Februar bis zum 19. März aus. Praktisch gesprochen: während dieser Zeit konnte sich das Virus nahezu ungebremst ausbreiten und wir wollen die Geschwindigkeit bestimmen.

Die Steigung der Kurve beträgt 0,2866 – was einer Verdopplung der Fälle alle 2,4 Tage entspricht – eine Rate, die wir auch bei vielen anderen Ländern zu Beginn der Epidemie antreffen. An den Vorhersageintervallen erkennt man zudem, dass einige Punkte „verdächtig weit“ von der braun-rot dargestellten Ausgleichsgeraden entfernt liegen. Wir schauen uns den zeitlichen Verlauf dieser „Residuen“, also der Abstände von der Ausgleichsgeraden, mit einer Regelkarte genauer an:

Die „Western Electric Regeln“ oder auch „Nelson Regeln“ im medizinischen Bereich, schlagen tatsächlich Alarm und wir haben zunächst einen signifikanten Anstieg – und zwar um sechs Standardabweichungen. Genaueres führt hier zu weit, lässt sich jedoch über eine Internetrecherche nachschlagen. Wichtig ist: in den Daten steckt noch ein Signal, das in dem obigen Regressionsmodell nicht erfasst wurde, und die Ergebnisse sind deshalb mit einer gewissen Vorsicht zu betrachten.

Eine Verdopplung der insgesamt bestätigten Fälle (also nicht der täglich neuen Fälle) alle 2,4 Tage ist und bleibt allerdings dramatisch und ließ sich – in logarithmischer Auftragung – schon sehr früh erkennen. Wir haben darüber geschrieben.

Dank der inzwischen eingeleiteten Maßnahmen hat sich die Lage seither sehr zum Besseren gewendet. Aus der Steigung von 0,07132 erhalten wir eine Verdopplung alle 9,7 Tage – was immer noch schlimm genug ist:

Schauen wir uns auch hier die Residuen an:

Wenn man optimistisch ist, dann sinkt ab dem 3. April die Wachstumsrate noch weiter. Aus diesen vier Punkten erhalten wir eine Verdopplungszeit von 16,5 Tagen – bei sehr breiten Vorhersageintervallen. Es gilt also, diese Zahlen täglich zu verfolgen: sind wir eher mit einer Verdopplung alle 10 oder alle 16 Tage unterwegs? Und was bedeutet das für die Aus- und Überlastung unseres Gesundheitssystems?

Wir kommen also von einer Verdopplung alle 2,4 Tage und haben es dank der eingeleiteten Maßnahmen geschafft, die Ausbreitungsgeschwindigkeit auf eine Verdopplungszeit von bis zu 9 oder sogar mehr Tagen zu bremsen.

Können die Maßnahmen inzwischen gelockert werden?

Das ist die Frage aller Fragen, auf die es keine statistische Antwort gibt. Untersuchungen wie diese hier können leider nur helfen, die Wirkung im Nachhinein zu bewerten. Eine Aufrechterhaltung der bestehenden Einschränkungen oder eine sehr vorsichtige Lockerung muss auf jeden Fall gut kommuniziert werden. Die rapide Ausbreitung von Corona war schon früh erkennbar – die notwendigen Maßnahmen in Deutschland aber offensichtlich damals noch nicht vermittelbar. Um so massive Änderungen des öffentlichen Lebens einzuleiten, bedurfte es eines geteilten Verständnisses der Dringlichkeit – und ganz offensichtlich hat Mathematik alleine dafür nicht gereicht. Gleiches gilt für eine Aufrechterhaltung oder nur zögerliche Lockerung der aktuellen Situation.

Schauen wir uns die Zahlen von Singapur an, um zu verstehen, wie es weitergehen könnte.

Zwischen dem 22. Januar und dem 2. Februar steigen hier die bestätigten Fälle mit einer Verdopplungszeit von 2,7 Tagen an. Ab dem 15. Februar (hervorgehoben) flacht die Kurve dank der eingeleiteten Maßnahmen ab und bleibt bis zum 5. März bei einer Verdopplungszeit von 30 Tagen, die sich danach aber relativ stabil auf 8,4 Tage verkürzt.

Hat Singapur vor dem 5. März gewisse Maßnahmen gelockert? „Steuert“ der Stadtstaat seine Reglementierungen anhand von solchen Analysen? Richten sie sich dabei aus an der Kapazität des Gesundheitssystems, sodass also alle Notfälle auch entsprechend behandelt werden können? Ich weiß es nicht. Ein Anruf in Singapur könnte aber auch hierzulande für interessante Einsichten sorgen, wenn es darum geht, in wie weit und wann die derzeitigen Einschränkungen gelockert werden können.

Der Weg des Virus

Je mehr sich die Pandemie ausbreitet, um so mehr sind auch nicht mehr allein die bestätigten Fälle relevant sondern die „aktiven“ und die mit fatalem Ausgang. Menschen werden auch wieder gesund, sodass Krankenhäuser sich um neu Erkrankte kümmern können – und die Pandemie lässt Tod und Trauer zurück.

Ich bin inzwischen wieder bei Kaggle gelandet, die „confirmed“, „recovered“ und „deaths“ berichten, sodass wir uns die Anzahl der Erkrankten ausrechnen können: Je Datum sind das die bestätigte Fälle minus Gesundete minus Todesfälle. Von Kanada fehlen in diesen Daten jedoch die „recovered“ Zahlen, sodass dort der tatsächliche Krankenstand hoffentlich geringer ausfällt als hier dargestellt. Der Vorteil der Kaggle-Daten besteht auch darin, dass GPS-Koordinaten mit angegeben sind.

Mit diesen Daten lässt sich der Weg des Virus darstellen:

In schwarz sehen wir die zeitliche Entwicklung des „Schwerpunktes“ der weltweit Erkrankten (laut verfügbaren Daten). Derzeit bewegt er sich Tag für Tag nach Westen  – in den letzten Tagen etwas langsamer. In rot dargestellt ist die Anzahl der Erkrankten („active“ in den Daten) mit Stand gestern, 30. März. Die Größe eines Punktes ist somit ein Maß für die aktuelle Belastung, die das Gesundheitssystem zu bewältigen hat – oder hätte, so es denn voll funktionsfähig ist. Man erkennt die Herausforderungen, die in Europa derzeit bewältigt werden müssen.

Für alle, die diese in R erstellte Graphik nachbauen möchten (mit PowerBI sollte es ebenfalls gehen): Wir importieren die von Kaggle heruntergeladenen Zeitreihendaten. Die GPS-Koordinaten für jeden Eintrag werden sodann in kartesische xyz-Koordinaten umgerechnet. So lässt sich der Schwerpunkt der Daten berechnen und wieder auf die Erdoberfläche projizieren, was hier dargestellt ist. Eine gewichtete Mittelung über die Werte für Längen- und Breitengrad würde zu falschen Ergebnissen führen.

Um die Pandemie verfolgen zu können, braucht man stabile Datenquellen, in denen sich zum Beispiel die Spaltennamen nicht im Laufe der Zeit ändern. Es ist unhandlich, die Daten wie von Kaggle als Zip herunterladen und entpacken zu müssen. Man möchte die Datei per Programmcode direkt abholen, so wie es zum Beispiel bei Our World in Data möglich ist. Dort finden sich dann allerdings lediglich die Daten der bestätigten Fälle und Todesfälle und es fehlen die Genesungen. Die GPS-Daten gleich mitzuliefern ist ebenfalls eine gute Sache: die Namen von Ländern und Regionen sind eine komplizierte Sache, denn es fehlen Standards, und mit einem einfachen „S-Verweis / V-lookup“ ist es deshalb leider nicht getan.

So ergibt sich folgende Wunschliste an die Daten:

  • Tag für Tag die Gesamtzahlen aller bestätigten Fälle, Genesungen, Todesfälle und als Plausibilitätscheck am besten auch den jeweiligen Krankenstand
  • Die Unterschiede von Tag zu Tag sind nicht so wichtig – die können wir uns ausrechnen; aber auch sie sind für Plausibilitätsbetrachtungen hilfreich
  • GPS-Koordinaten der zu diesen Zahlen gehörigen Orte
  • Eine weitere Spalte mit dem jeweiligen Land oder der Region, sodass sich die Werte auch aggregieren lassen
  • Und bitte die Spaltennamen nicht ständig ändern, sodass man seinen Programmcode ständig anpassen muss
  • Wichtiger ist es, Namen und Text fehlerfrei zu halten, also nicht „Chicago, IL“ und etwas weiter „Chicago, IL – also einmal mit und einmal ohne Ausführungszeichen.

Für Hinweise auf solch eine Datenquelle bin ich sehr dankbar.

Corona Datenanalyse: wie liest man die logarithmischen Graphen?

Heute eine Anfrage aus Brasilien: was kommt da auf uns zu?

Wir haben die folgende Graphik besprochen:

  1. In Brasilien ist die Lage auch nicht anders als in den meisten anderen Ländern:
    über etwa eine Woche verzehnfacht sich die Anzahl der registrierten Fälle. Zweifellos gibt es in Brasilien und anderswo darüber hinaus noch eine Dunkelziffer.
  2. Brasilien ist etwa 10-12 Tage hinter Deutschland, Frankreich und Spanien. Wenn man die Lage vor Ort in 10-12 Tagen verstehen will, dann muss man jetzt Deutschland, Frankreich und Spanien anschauen. Auch wenn es schwer vermittelbar ist, ergreift man am besten jetzt schon die gleichen Maßnahmen.

Die Anfrage kam aus dem Gesundheitswesen, nicht von der Regierung.
Gegebenenfalls müssen lokale Gesundheitsämter und Präfekten im Alleingang vorpreschen. Von Deutschland aus kann man leider nur die Daumen drücken…