Ursache & Wirkung mit kausalem Denken identifizieren
Ben Horsburgh – Jr Principal ML Ingenieur, QuantumBlack
Im Dezember hatte das QuantumBlack-Team das Glück, an der NeurIPS 2019 in Vancouver teilzunehmen, wo wir einen Expo-Workshop zum Thema Bereitstellung veranstalteten. inferenz- und Verstärkungslernen zur Generierung von Modellen, die Ursache und Wirkung berücksichtigen.
Diese Sitzung war sehr beliebt und so wollten wir die Schlüsselelemente mit denen teilen, die nicht teilnehmen konnten. In den nächsten beiden Medium-Artikeln werden wir untersuchen, wie Datenwissenschaftler sowohl kausales Denken als auch verstärkendes Lernen nutzen können, um Modelle zu erstellen, die Ursache und Wirkung berücksichtigen.
Der kausale Blinde Fleck
Advanced Analytics wird häufig eingesetzt, um zu entscheiden, wo ein Eingriff vorgenommen werden muss, um ein Ziel zu beeinflussen. Viele traditionelle ML-Methoden, von der linearen Regression bis zum Deep Learning, berücksichtigen jedoch keine Kausalität und modellieren stattdessen nur die Korrelation zwischen Datenpunkten. Sie können feststellen, dass es eine Beziehung zwischen Variablen gibt, ohne zu definieren, was diese Beziehung ist oder wie sie sich gegenseitig beeinflussen.
Dies kann einen drastischen Einfluss auf die vorgeschlagene Intervention des Modells haben, die Wirksamkeit von Interventionen verwässern oder sogar völlig irrelevante Empfehlungen abgeben. Zum Beispiel kann ein nicht-kausales Modell, das darauf abzielt, Dürre zu mildern, erkennen, dass es einen Zusammenhang zwischen steigender Dürre und steigenden Eiscremeverkäufen gibt, aber fälschlicherweise zu dem Schluss kommen, dass das Verbot von Eiscreme Dürre mildern würde.
In der Kausalmodellierung wird ML verwendet, um eine anfängliche Struktur zu erstellen, die als grafisches Netzwerk visualisiert wird und die wahrgenommene Beziehung zwischen Merkmalen hervorhebt. Dies wird dann von Domänenexperten überprüft, die die Struktur aktualisieren können, um hervorzuheben, wie jedes Merkmal das andere beeinflusst — in unserem Beispiel würde ein Bewässerungsexperte hervorheben, dass zugängliches Trinkwasser ein weitaus genauerer Treiber zur Eindämmung von Dürre ist als das Verbot von Eiscreme.
Dieser Prozess wird als kausales Denken bezeichnet, und dieser Artikel behandelt jede der drei Phasen, die für die Bereitstellung erforderlich sind.
Phase 1: Strukturlernen
Kausalmodelle müssen über die kausale Struktur zwischen Merkmalen informiert werden. In einer idealen Welt würde ein Domänenexperte diese Struktur eingeben, aber dies ist oft nicht durchführbar — ein Modell mit nur 50 Variablen würde knapp 2.500 Ursache-Wirkungs-Beziehungen erfordern, die berücksichtigt und erklärt werden müssen.
Darüber hinaus machen Ursache-Wirkungs—Ketten einen ohnehin zeitintensiven Prozess noch komplexer – Änderungen an einem Merkmal können sich auf ein anderes auswirken, was wiederum ein anderes beeinflusst. Es ist leicht, diese Ketten zu übersehen, wenn Strukturen von Hand gebaut werden, und noch einfacher, fälschlicherweise zyklische Hühnerei-Ketten zu erzeugen, die dann schwer zu reparieren sind.
Jüngste Fortschritte, insbesondere die Veröffentlichung von DAGs ohne TRÄNEN auf der NeurIPS 2018, haben die Effizienz und Genauigkeit von Strukturlernalgorithmen verbessert, die diese Netzwerke aufbauen. Sie rationalisierten den Prozess und vermeiden paradoxe Strukturen zwischen Hühnereiern. Wichtig ist, dass sie die Kausalität nicht bestätigen – sie schätzen sie. Bei der Arbeit mit nicht experimentellen Daten ist ein iterativer, kollaborativer Prozess erforderlich, um Vorhersagen zu überprüfen, und Domänenexperten sind erforderlich, um die Kausalität der Struktur zu überprüfen und zu überprüfen. Es ist die Vermehrung von Daten und Methoden mit Beiträgen von Domänenexperten, die es uns ermöglichen, einen Schritt in Richtung einer kausalen Interpretation zu tun.
Dieser Prozess hilft dabei, Erkenntnisse — Ursachen-Wirkungen, die Datenwissenschaftler für überraschend halten, zu informieren, die von Experten oft gut verstanden werden, und selbst diejenigen, die Experten überraschen, werden manchmal von anderen auf ihrem Gebiet gut verstanden und können durch eine Suche nach breiteren Materialien verifiziert werden.
Ein strukturierter Datentyp enthält Knoten (Variablen, die Informationen enthalten) und Kanten (gerichtete Verbindungen zwischen Knoten, die auch Informationen enthalten können). Die meisten Strukturlernalgorithmen geben Kantengewichte aus, die nützlich sind, um Gespräche zwischen Datenwissenschaftlern und Experten zu leiten. Die Darstellung von Kanten vom höchsten zum niedrigsten Gewicht hilft Datenwissenschaftlern, einen noch effizienteren Überprüfungsprozess voranzutreiben, aber wir sollten darauf achten, Gewichten nicht zu viel Interpretation beizumessen — sie sind normalerweise keine Wahrscheinlichkeiten oder Werte, die von Menschen interpretiert werden können. Darüber hinaus können sogar Kanten mit geringem Gewicht manchmal wichtig sein, aber statistische Tests sind schwierig.
Sobald wir die Ursachen identifiziert haben, können wir lernen, wie sie sich verhalten.
Phase 2: Wahrscheinlichkeitslernen
Strukturlernen kann erkennen, dass der Kaffeepreis in irgendeiner Weise von der Bevölkerungsdichte beeinflusst wird, wird aber nicht spezifisch identifizieren, wie — es ist nicht in der Lage anzuzeigen, ob eine steigende Bevölkerung den Preis erhöht oder senkt oder ob es eine komplexere Beziehung gibt.
Wahrscheinlichkeitslernen schätzt, wie viel jede Ursache jeden Effekt antreibt, indem die zugrunde liegenden bedingten Wahrscheinlichkeitsverteilungen (CPDs) gelernt werden. Jede CPD beschreibt die Wahrscheinlichkeit einer Ursache unter Berücksichtigung des Zustands ihrer Auswirkungen.
Wir haben festgestellt, dass diskrete CPDs praktischer sind als kontinuierliche CPDs. Kontinuierliche Verteilungen sind oft auf Gaußsche Verteilungen beschränkt und haben daher Schwierigkeiten, viele Beziehungen zu beschreiben. Diskrete CPDs können jede Form der Verteilung beschreiben, wenn auch mit geringerer Genauigkeit, und werden von vielen Bibliotheken weitgehend unterstützt.
Wir können die Domain-Experten nutzen, um eine Auswahl zu treffen. Datenwissenschaftler und Domänenexperten sollten sich zu Beginn auf eine Datendiskretisierungsstrategie einigen. Unter Berücksichtigung der Projektziele sollten Sie definieren, welche Diskretisierung erforderlich ist. Wenn für Ihr Projekt beispielsweise Vergleiche durchgeführt werden müssen, wäre eine Perzentildiskretisierung wahrscheinlich geeignet.
Seien Sie jedoch vorsichtig, um eine Überdiskretisierung von CPDs zu vermeiden, da alle Wahrscheinlichkeitsschätzungen beschrieben werden müssen und sich schnell ansammeln können. Für einen binären Effekt mit drei binären Ursachen müsste eine CPD 16 mögliche Eventualitäten schätzen. Für eine Wirkung mit 10 Zuständen und drei Ursachen mit jeweils eigenen 10 Zuständen müssen 10.000 mögliche Eventualitäten geschätzt werden. Bei kleinen Datensätzen mit weniger Stichproben als möglich werden die meisten Eventualitäten niemals beobachtet, und diejenigen, die es sind, werden nicht gut dargestellt. Aber selbst bei großen Datensätzen bedeutet eine Überdiskretisierung, dass CPDs viele höchst unwahrscheinliche Eventualitäten beinhalten. Dadurch wird die Leistung des Modells verwässert und die Rechenzeit erhöht.
Gelernte Wahrscheinlichkeiten sollten sowohl von Datenwissenschaftlern als auch von Domänenexperten bewertet werden. Behandeln Sie dies für Datenwissenschaftler als Standardklassifizierungsproblem — lernen Sie die Modellwahrscheinlichkeiten mithilfe eines Trainingssatzes und bewerten Sie dann mithilfe des Testsatzes, wie genau probabilistische Vorhersagen für einen bestimmten Knoten sind.
In der Zwischenzeit können Domänenexperten CPD-Tabellen und Sense-Check-Werte lesen. Hier können oft die unwahrscheinlicheren Wahrscheinlichkeiten beseitigt werden.
Phase 3: Inferenz
Inzwischen verstehen wir die Ursache-Wirkungs-Beziehungsstruktur unseres Datensatzes und wie sich die Beziehungen verhalten. Dies ermöglicht es uns, Schlussfolgerungen zu ziehen – im Wesentlichen Aktionen und Theorien zu testen, um die Reaktion zu messen.
Inferenz kann in beobachtende und interventionelle unterteilt werden. In der Beobachtungsinferenz können wir den Zustand einer Variablen beobachten und dann abfragen, wie sich eine Änderung auf die Wahrscheinlichkeit eines anderen Zustands einer anderen Variablen auswirkt. Die Abfrage der Wahrscheinlichkeit anderer Variablen erfolgt durch Ausspielen aller Ursache-Wirkungs-Beziehungen, die mathematisch durch Marginalisierung der Wahrscheinlichkeiten gegenüber den CPDs erreicht werden. Ein Beispiel hierfür wäre, einen Coffeeshop im Stadtzentrum zu beobachten und zu dem Schluss zu kommen, dass wahrscheinlich teure gewerbliche Mieten anfallen — und dass anschließend der Preis für einen Kaffee wahrscheinlich hoch ist.
In der interventionellen Inferenz können wir in den Zustand jeder Variablen eingreifen, die Wahrscheinlichkeit ihrer Zustände in das ändern, was wir wählen, und effektiv fragen: Was wäre, wenn X anders wäre? Zum Beispiel könnten wir die Hypothese aufstellen, dass Mitarbeiter eine Vier- statt Fünf-Tage-Woche arbeiten, und dann beobachten, welche Auswirkungen dies auf die Produktivität hat.
Die Entscheidung, wo am besten eingegriffen werden kann, kann durch Sensitivitätsanalyse erreicht werden. Jedes Mal, wenn wir eine Beobachtung machen, können wir sehen, wie sich dies auf den Zustand eines Ziels auswirkt, das wir ändern möchten. Wenn wir Tausende von separaten, subtilen Beobachtungen über alle Variablen machen würden, könnten wir abschätzen, für welche Variablen unser Ziel am empfindlichsten ist. Dies ist die Grundlage der Sensitivitätsanalyse, obwohl es effizientere Mittel gibt, um dies zu erreichen.
Die Sensitivitätsanalyse ist ein besonders mächtiges Werkzeug, da sie uns hilft zu verstehen, wo wir uns konzentrieren müssen. Es ist nicht immer möglich, bei sensiblen Ursachen einzugreifen – zum Beispiel macht es keinen Sinn, die Adresse eines Kunden zu ändern, da unser Geschäftsmodell dies nicht kontrollieren kann. Diese empfindlicheren Ursachen können jedoch eine Rolle bei der Bestimmung bedingter Interventionen spielen.
ML—Entwicklungen haben zwar dazu beigetragen, die Strukturerstellung zu rationalisieren, aber ein kollaborativer, hybrider Lernprozess zwischen Menschen — insbesondere Datenwissenschaftlern und Domänenexperten – ist immer noch von grundlegender Bedeutung, wenn es darum geht, über die Korrelation hinauszugehen, um Ursachen zu identifizieren.
Die Herausforderungen beim kausalen Denken bleiben bestehen, und es kann zeitintensiv und schwierig sein, ein vollständiges Projekt abzuschließen, da während der Testphase eine hohe Anzahl separater Softwarebibliotheken erforderlich ist. Es bleibt jedoch eine effektive Technik beim Erstellen von Kausalmodellen – um dies zu unterstützen, hat QuantumBlack kürzlich unser neuestes Open-Source-Angebot, CausalNex, veröffentlicht. Diese Softwarebibliothek bietet einen weitaus optimierteren Prozess und hilft Modellen, falsche Schlussfolgerungen zu vermeiden und letztendlich intelligentere und wirkungsvollere Analyseinterventionen zu erzielen.
Kausalität wird zunehmend unter die Lupe genommen und es ist ein Thema, das wir in Zukunft sowohl mit CausalNex als auch mit umfassenderer Forschung weiter erforschen werden. Zum Beispiel werden wir im Juni bei AISTATS ein Papier vorstellen, das NO TEARS modifiziert, um die Struktur von Variablen über die Zeit zusätzlich zu den intra-temporalen Beziehungen zu lernen. In der Zwischenzeit bleiben Sie mit den kommenden CausalNex Entwicklungen aktualisiert.