„Aus der Geschichte lernen?“

Vom fragwürdigen Nutzen von Daten zur Berechnung der Zukunft, oder: Wieviel Sinn das Daten-Sammeln wirklich macht

Teil 2: Zur Rhetorik der Daten

Daten-liefern-die-Informationen,-die-wir-hören-wollen-oder-sollen — Daten liefern die Informationen, die wir hören wollen oder sollen

Die trügerische Beständigkeit von Information unter der ceteris paribus – Annahme

Mit ceteris paribus ist es so eine Sache: Wir glauben intuitiv, morgen einen stabilen, mit den heutigen räumlichen, zeitlichen und sachlichen Rahmenbedingungen weitestgehend identischen Rahmen für die von uns in der Vergangenheit vorgefundenen Daten voraussetzen zu können und unterstellen diesen gleich auch noch für die Zukunft. Diese Annahme ist natürlich falsch. Häufig oder meistens spielt das keine Rolle, da veränderte Rahmenbedingungen tatsächlich „gefühlt“ keinen substanziellen Effekt haben. Aber es kann eben auch anders kommen. Selbst minimal veränderte Rahmenbedingungen können durchaus große Effekte für einen bestimmten Datenzusammenhang haben und eine komplexe Planung auf der Grundlage dieser ceteris paribus-Annahme über den Haufen werfen. Der Truthahn, des sich jeden morgen auf sein Frühstück freute, bis er am Erntedanktag bestürzt feststellen muss, dass Frühstück Vergangenheit ist, da er (was er natürlich nicht weiß) heute Abend als Festschmaus enden wird, ist ein gerne zitiertes Beispiel für so eine Ausnahme.

Datenkontexte sind prinzipiell unendlich groß

Tatsächlich bestehen die Voraussetzungen für eine jede Zukunft prinzipiell aus unendlich vielen in der Zeit zurückliegenden und unendlich vielen heute und unendlich vielen morgen, teils parallel existenten und teils über mehrere Zeitebenen hinweg wechselwirksamen Rahmenbedingungen. Diese Umstände und ihre Interdependenzen können, eben weil es unendlich viele sind, grundsätzlich nie umfassend abgebildet werden. Und was man ohnedies nicht vollständig abbilden und ergo auch nicht planen kann, das kann man dann auch mutwillig auf das verkürzen, was einem wichtig, sympathisch oder wünschenswert erscheint.

Die pragmatische Erkenntnis: Daten liefern wertvolle Informationen, obwohl wir nicht wissen warum

Dass Prognose auf der Grundlage von Daten dennoch funktioniert, ist eine pragmatische Erkenntnis. Man hat es von Amazon bis Zalando eben mit Erfolg praktiziert: Die Werbewirtschaft und ihre Kunden freuen sich über immer bessere, feingliedrige Clustermöglichkeiten ihrer Zielgruppen und können diese offenbar mit Erfolg mit Käuferverhalten korrelieren und zwar interessanterweise, obwohl man die so erzielten besseren Umsätze und geringeren Kosten kausal gar nicht nachvollziehen kann.

Allerdings wurden und werden diese Erfolge alle nach 2008 gefeiert und das Experimentum Crucis, der Beleg also, dass die aggregierten Daten auch in turbulenteren wirtschaftlichen Zeiten noch wünschenswerte Ergebnisse zeitigen werden, steht noch aus. Die Zielgruppen hat man dann zwar schon einmal segmentiert. Aber vielleicht nicht so, dass diese Segmentierung noch Sinn macht. Aber man kann es ja dann aufs Neue probieren.

Die herrschende Nomenklatur in der „Datenwissenschaft“ erzählt eine falsche Geschichte

In der Datenwirtschaft werden im Wesentlichen folgende Teildisziplinen unterschieden: „Descriptive Analytics“/ Beschreibende Datenanalyse (Was ist?/ Was war?), Diagnostic Analytics/ Diagnostische Datenanalyse (Warum ist/ war etwas so?), Predictive Analytics/ Vorhersagende Datenanalyse (Was wird sein?) und Prescriptive Analytics/ Vorschreibende Datenanalyse (Was soll sein?).

Diese Sortierung möglicher Anwendungsfelder folgt einem pragmatischen Verständnis der sogenannten Datenwissenschaft (Data Science). Tatsächlich beschreiben diese Rubriken falsch, was tatsächlich betrieben wird. Die beschreibende Analytik z.B. beschreibt nur das, was sie beschreiben möchte. Bei der Auswahl der Daten ist sie intentional gerichtet und antizipiert oder prädiziert in Teilen schon das, was sie erst an Information zu Tage fördern soll. Noch eklatanter tritt diese Unzulänglichkeit der Rubrizierung bei der „diagnostischen Analytik“ zu Tage: Hier werden willentlich für irrelevant gehaltene Datenkontexte ausgeklammert und nur solche Daten in den Blick genommen, mit denen sich eine – genehme (?) – Erklärung konstruieren lässt. Der Datensupport erfüllt damit allenfalls eine rhetorische Backup-Funktion. Es wird eine Geschichte konstruiert, die man glauben möchte.

Sorge um die Redundanz humaner Intelligenz unbegründet

Wenn man sich vergegenwärtigt, dass Daten stets nur die Geschichten erzählen, die Menschen entweder hören wollen oder hören sollen oder aber Menschen dabei helfen, schneller und präziser das herauszufinden, was sie herausfinden möchten, dann kann man eigentlich nicht begreifen, warum der künstlichen Intelligenz mit solchen Vorbehalten begegnet wird. KI wird Menschen ganz sicher nie bei dem ersetzen können, was (echte) Menschen ausmacht, dem autonomen freien Entscheiden.

Der unkritische Gebrauch sozialer Medien ist der Prototyp der freiwilligen Unterwerfung unter Normen, die andere für uns setzen – wie in China

Wovor man sich allerdings fürchten muss, ist der Missbrauch mit den gesammelten Daten. Wenn die KP Chinas am Sonntag stolz auf den „erzieherischen“ Wert der von ihr eingesammelten Daten eines jedermann verwies und die mit einhergehenden staatlichen Sanktionsmöglichkeiten lobte, welche „asozialen Subjekten“ das Bahn- oder Flugreisen verwehrt, dann, ja, dann muss einem wirklich angst und bange werden.

Denn China mag nur ein beängstigend erfolgreicher, totalitärer Staat sein, in dem 1,4 Mrd. Menschen leben. Aber es spricht nicht viel dafür, dass etwas, was in China super funktioniert, nicht über kurz oder lang auch von einer demokratisch gewählten parlamentarischen Mehrheit in einem „westlichen“ Staat als sozial wünschenswert oder moralisch notwendig gesetzgeberisch verankert werden wird. Denn den Prototypen dieses westlichen, freiwillig gelebten Totalitarismus, der für die Mehrheit der Menschen festlegt und kodiert, welches soziale Verhalten zugelassen ist und welches nicht, haben wir längst: Es sind die Plattformen der sozialen Medien. Einige soziale Administratoren beispielsweise verurteilen die Verwendung von Ad Blockern explizit als unsoziale Verhaltensweisen, weil damit der „freie Zugang“ auf dem Spiel stünde.

Und hier haben wir es wieder: Was aus den gesammelten Daten gemacht wird, welche Informationen daraus gesogen werden, das ist vollkommen beliebig: In China ist ein freiheitsliebender Künstler ein asoziales Subjekt. In Deutschland ist er vielleicht ein Genie – noch.