Kausalität und KI

jvhNew articles

Maschinen haben keine Ahnung von Kausalität und werden sie auch nie haben können

Gestern las ich einen sehr interessanten Artikel in Wired über das Bemühen des in Montreal lehrenden Deep-Learning-Pioniers und KI-Forschers Yoshua Bengio, künstlicher Intelligenz Kausalität beizubringen. Bengio hatte 2018 gemeinsam mit dem Briten Geoffrey Hinton und dem Franzosen Yann LeCunfür seine Forschungen zu neuronalen Netzen den Turing – Preis erhalten, der inzwischen mit jährlich € 1 Mio. Preisgeld von Google gesponsert wird und als Informatik – „Nobelpreis“ gilt.

Bengio sagt, KI sei zwar schon jetzt großartig darin, Zusammenhänge zu „entdecken“, Auffälligkeiten zu „identifizieren“, Muster zu „erkennen“, stereotype aber trotzdem komplexe Verrichtungen, bei denen das menschliche Gehirn deutlich weniger performant ist als eine lernende Maschine. Die praktischen Beispiele sind bekannt: Identifizierung von potenziellen Krebsherden bei Gewebeproben, die Vorhersage von Betrugsabsicht im Umgang mit Fintech-Applikationen, die Identifikation von Hochrisiko-Nachbarschaften bei der Einbruchsprävention der Kriminalpolizeien usf. Aber, sagt Bengio, KI sei bis jetzt nicht in der Lage, Kausalitäten zu verfolgen, also zu „verstehen“, warum etwas so und nicht anders sei bzw. funktioniere.

Auf diesem Gebiet arbeitet Bengio; er möchte Maschinen Kausalität beibringen, um sie dann in die Lage zu versetzen, wie Menschen, nur besser, nach Gründen zu forschen. Bengio: „Deep Learning ist [bis jetzt] blind gegenüber Ursache und Wirkung“. Anders als ein natürlicher Arzt könne ein deep learning – Algorithmus nicht erklären, warum beispielsweise ein bestimmtes Röntgenbild das Vorliegen einer bestimmten Krankheit nahelege. Daher dürfe deep learning vor allem in kritischen Situationen bis jetzt nur sehr zurückhaltend zur Anwendung gebracht werden.

Bengios Ansatz besteht darin, statistische Wahrscheinlichkeiten mit von Menschen verifizierten Ursache-Wirkung-Folge in Relation zu setzen, den Maschinen also im Wege von Trial & Error beizubringen, wann etwas nur statistisch korreliert und wann etwas die kausale Ursache von etwas anderem ist.

Menschen denken immer kausal – sie können nicht anders

Jeder von uns kennt die Befriedigung, die wir verspüren, wenn wir etwas „verstanden“ haben, also einen kausalen Zusammenhang zwischen Phänomenen herstellen können, den wir zuvor nicht herstellen konnten. Wir kennen auch den Unterschied zwischen als „gut“ und als weniger „gut“ wahrgenommenen Begründungen für bestimmte Sachverhalte und zwar unabhängig davon, ob die guten Gründe auch tatsächlich vorliegen oder nur imaginiert werden. Menschen denken und forschen immer kausal. Selbst das Erkennen „nur“ statistischer Zusammenhänge bietet Menschen eine Begründungsressource.

Verstehen und Erklären: Die Attribution von Kausalität ist immer willkürlich und menschengemacht

Die Attribution von Kausalität ist immer Interpretation, und zwar unabhängig davon, ob wir über natürliche oder über soziale Phänomene räsonieren. Historiker können aus den Daten der Geschichte ganz unterschiedliche, einander diametral entgegengesetzte Zusammenhänge fabrizieren. Die jeweiligen Geschichten können sich wechselseitig ausschließen. Und trotzdem ist es unmöglich zu sagen, die eine sei richtig und die andere falsch. Sehr wohl aber lässt sich (für Menschen) sagen, der eine Grund sei gut, der andere nicht oder weniger gut. In den Naturwissenschaften verhält es sich genauso: Elementarteilchen „sind“ weder diskrete Partikel noch „fließende Wellen“, trotzdem kommen wir nicht umhin, sie uns mit solchen nicht unter einen gemeinsamen Vorstellungshut bekommbaren Bildern verständlich zu machen. Mit anderen Worten: Kausalität ist per Definition nur dann vorhanden, wenn Menschen sie verstehen können. Und sie ist mutatis mutandis dann nicht vorhanden, wenn sie nur noch oder wenn sie auch von Maschinen „verstanden“ wird. Anders formuliert: Maschinen können überhaupt nicht „verstehen”. Sie können nur nach einem von Programmierern vorgezeichneten Pfad Dinge „erklären”, also aufzeigen, Dinge, die Menschen zuvor als zulässige Begründungszusammenhänge so bestimmt haben. Denn könnten sie tatsächlich verstehen, dann wären sie, hier sogar besser als Menschen, auch in der Lage zu erklären, warum aus einer Vielzahl parallel möglicher, also sowohl logisch als auch empirisch zulässiger Begründungen, in einem bestimmten Fall beispielsweise die eine Begründung besser ist als die andere. Und genau das können sie eben nicht, weil die Entwickler eines solchen Algorithmus dies selber nicht verstehen. Menschen wissen ja oft gar nicht, warum ihnen der eine Grund „gefällt“, warum er als notwendige Ursache oder gar als hinreichende zwingend erscheint, ein anderer dagegen nicht. Ergo können das Maschinen auch nicht „wissen“,

Algorithmisch reproduzierte Kausalität „nach dem Modell“ ist überhaupt keine Kausalität

Für das Verstehen, dass das eine die Ursache des anderen ist, braucht es nicht die Fähigkeit der Mustererkennung, sondern eine spezifische Urteilsfähigkeit, die, mindestens soweit es um das Erkennen empirischer Zusammenhänge geht, maschinell nicht belastbar geleistet werden kann. Maschinen können nach dem Muster von Bengio zwar lernen, wann etwas mit hoher Wahrscheinlichkeit nicht nur irgendwie quantitativ, sondern auch kausal korreliert, aber sie können eben genau das nicht leisten, was nur natürliche Intelligenz leisten kann: Sie können nicht verstehen, warum zwei Sachverhalte oder Zustände kausal korreliert sind oder sein können oder sein sollen.

Wenn es nicht regnet wird die Straße nicht nass?

Bengios Bemühen ist daher von vorneherein zum Scheitern verurteilt. Und dies hat nichts mit seinen offensichtlich sehr bemerkenswerten Fähigkeiten zu tun, sondern etwas mit seinem falschen Begriff von Kausalität.

„Wenn es regnet, wird die Straße nass” = „Wenn es nicht regnet, wird die Straße nicht nass”? Nein, das ist ein logischer Fehlschluss, denn es ist nicht zwingend, dass der Regen die Straße nässt. Es könnte ja der Gartenschlauch, die Stadtreinigung oder die Sprinkleranlage sein, die die Straße nass machten. Maschinen können das im Wege von Trial & Error lernen oder indem man sie so programmiert, dass die Negation von „a=>b“ NICHT „ɿa=>ɿb“, sondern „ɿb => ɿa“ ist: „Wenn die Straße nicht nass geworden ist, dann kann es nicht geregnet haben.“ Das ist logisch äquivalent mit dem erstgenannten Satz: „Wenn es regnet, wird die Straße nass.“ Eine Maschine kann das natürlich genauso logisch fehlerfrei nach den Gesetzen der Implikation replizieren, also dem Menschen nachmachen.Verstehen oder verifizieren können Maschinen das aber nicht, solange es nicht VORHER Menschen getan haben. Denn was passiert beispielsweise, wenn wir die logische Operation mit einem alternativen empirischen Sachverhalt unterlegen?

Wenn sie nicht hirntot ist, dann hat ihr Herz nicht vor 10 Minuten aufgehört hat zu schlagen?

„Wenn ihr Herz vor 10 Minuten aufgehört hat zu schlagen, dann ist sie hirntot.“ Können wir daraus ableiten: „Wenn sie nicht hirntot ist, dann hat ihr Herz nicht vor 10 Minuten aufgehört zu schlagen?“ Und wenn ihr Herz vor 3 Minuten, also „nicht vor 10 Minuten“, aufgehört hat zu schlagen, dürfen wir dann ihre Organe entnehmen? Logisch wäre das fraglos zulässig. Und sie müsste auch empirisch zutreffen, wenn die Prämisse empirisch zutrifft. Nun ist das aber gar keine empirische Prämisse, sondern eine willkürliche Definition. Sie hat halt nur sehr konkrete empirische Konsequenzen für die Patientin: Ist die Patientin also nicht hirntot, wenn ihr Herz erst vor drei Minuten aufgehört hat zu schlagen? Oder ist sie hirntot, weil es schon vor 15 Minuten aufgehört hat zu schlagen? Darf man unter Bedingungen der Abwesenheit von Hinaufzeichnungsapparaturen schon nach 3 Minuten ihre Organe entnehmen, „weil“ sie definitorisch hirntot ist, oder darf man das erst nach 15 Minuten? Was „hirntot” unter Bedingungen der Abwesenheit von Gerätschaften, die Gehirnaktivität aufzeichnen können, bedeutet, ist eine Frage der willkürlichen Definition oder Interpretation: x oder y Sekunden ohne Herzmuskelkontraktion? Die KI-Maschine lässt sich beliebig programmieren. Aber die Inferenz „Wenn a dann b” muss immer, also ohne Ausnahme, auch empirisch den Schluss zulassen, „wenn nicht b, dann nicht a” und sie verbietet immer den Schluss „wenn nicht a, dann nicht b”.

Unsere Learnings sind flüchtig, unsere Logik ist es nicht: Hobbes und Boyle

Unser Bild, sagen wir von der Natur, ist über die Jahrhunderte bekanntlich nicht konstant geblieben, unsere „Learnings” beispielsweise bzgl. der Newtonschen Natur, haben nicht erst seit Einstein eine Vielzahl neuer Wendungen genommen. Es trifft nicht zu, dass wir heute „mehr“ wissen als damals. Wir wissen lediglich anders. Als Robert Boyle Mitte des 17. Jahrhundert nach dem Zusammenbruch der Englischen Revolution die Existenz des Vakuums experimentell „bewies“, konnte er diesen Beweis nur deswegen als Beweis durchsetzen, weil er die Royal Society als sozialen Club hinter sich wusste. Seine Buddies im Club mochten Boyle. Boyles Hauptgegner, der der aristotelischen Naturphilosophie des „horror vacui“ verschriebene Thomas Hobbes, konnte logisch schlüssig argumentieren und „empirisch, also mechanisch, valide beweisen“, das Vakuum sei sowohl eine mechanische als auch eine theologische Absurdität. Er konnte sich über Boyle regelrecht lustig machen, über die Idee also, etwas enthalte „nichts“. Aber Hobbes galt als kauziger Rechthaber. Im Club war er nicht gern gesehen und wurde daher auch als Mitglied nicht aufgenommen. Nicht einmal der König, der Hobbes eigentlich gegen Widerstände protegierte, wollte den Club dazu bewegen. So setzte sich gegen den bis dahin gültigen aristotelischen „Plenismus“ das Vakuum durch.

Mit welchen „Learnings” wir unsere KI füttern, ist also willkürlich und mindestens vom Zufall unseres gerade aktuellen, sprich sozial akzeptierten Wissenskanons abhängig. Verheerende Folgen könnte es haben, wenn wir uns eines Tages bezüglich heute unangreifbar erscheinender Tatbestände eines Besseren besinnen sollten, aber dummerweise vergaßen, die KI neu zu füttern. Und erst recht verheerend wird es, wenn wir gar nicht mehr verstehen, welche Prämissen unsere Rechner veranlassen, so zu entscheiden, wie sie entscheiden.

Anhand dieser allertrivialsten binären logischen Operation, der Implikation, lässt sich wunderbar erkennen, dass Maschinen entweder den Menschen „nachäffen“ ohne zu verstehen, was er da so kausal denken mag (Trial & Error) oder aber seinem Diktat (Programmierung) sklavisch folgen, und dass sie grundsätzlich nie in der Lage sein werden ihn zu verstehen, also niemals „begreifen” können, warum er so und nicht anders denkt, „tickt” oder wahrnimmt. Komplexere Logiken (die aber auch auf binären aufbauen), in die im Augenblick – Stichwort Quantencomputer – große Erwartungen gesetzt werden, werden an diesem Sachverhalt keinen Deut ändern, denn in Frage steht jeweils nicht die Logik, sondern der Input zugelassener Prämissen in sie. Mit Quantencomputern wird es allerdings für Menschen noch schwieriger als es heutee schon ist: schwierig nachzuvollziehen warum der Rechner so und nicht anders entschieden hat.

Maschinen können wunderbar darin sein, Menschen zu helfen. Maschinen können uns allerdings auch „wunderbar“ ruinieren, z.B. töten – das aber nur dann oder nur deshalb, wenn bzw. weil wir es ihnen erlaubt haben. Siehe Tesla. Siehe Boeing 737 Max.

Previous articleNext article