Identification De La Cause Et De L’Effet Avec Un Raisonnement Causal
Ben Horsburgh – Ingénieur Principal ML Jr, QuantumBlack
En décembre, l’équipe de QuantumBlack a eu la chance d’assister à NeurIPS 2019 à Vancouver, où nous avons organisé un atelier d’exposition explorant comment déployer causal apprentissage de l’inférence et du renforcement pour générer des modèles tenant compte de la cause et de l’effet.
Cette session s’est avérée très populaire et nous avons donc voulu partager les éléments clés avec ceux qui n’ont pas pu y assister. Dans les deux prochains articles de Medium, nous explorerons comment les scientifiques des données peuvent exploiter à la fois le Raisonnement Causal et l’apprentissage par renforcement pour construire des modèles qui respectent la cause et l’effet.
L’Angle mort causal
L’analyse avancée est souvent déployée pour décider où intervenir afin d’influencer une cible. Cependant, de nombreuses méthodologies traditionnelles de ML, de la régression linéaire à l’apprentissage en profondeur, ne prennent pas en compte la causalité et modélisent uniquement la corrélation entre les points de données. Ils peuvent identifier qu’il existe une relation entre les variables sans définir ce qu’est cette relation ou comment elles s’influencent mutuellement.
Cela peut avoir un impact drastique sur l’intervention suggérée par le modèle, diluant l’efficacité des interventions ou même produisant des recommandations totalement non pertinentes. Par exemple, un modèle non causal visant à atténuer la sécheresse peut reconnaître qu’il existe une relation entre la hausse de la sécheresse et la hausse des ventes de crème glacée, mais peut conclure de manière saugrenue que l’interdiction de la crème glacée atténuerait la sécheresse.
Dans la modélisation causale, ML est utilisé pour créer une structure initiale, visualisée sous la forme d’un réseau graphique, qui met en évidence la relation perçue entre les caractéristiques. Ceci est ensuite examiné par des experts du domaine qui peuvent mettre à jour la structure pour mettre en évidence la façon dont chaque caractéristique influence l’autre — dans notre exemple, un expert en irrigation soulignerait que l’eau potable accessible serait un moteur beaucoup plus précis pour atténuer la sécheresse que l’interdiction de la crème glacée.
Ce processus est connu sous le nom de Raisonnement causal et cet article couvrira chacune des trois phases requises pour le déployer.
Phase 1: Apprentissage de la structure
Les modèles causaux doivent être informés de la structure causale entre les caractéristiques. Dans un monde idéal, un expert du domaine saisirait cette structure, mais cela est souvent irréalisable — un modèle avec seulement 50 variables nécessiterait un peu moins de 2 500 relations de cause à effet pour être pris en compte et expliqué.
De plus, les chaînes de cause à effet rendent un processus déjà long encore plus complexe — les modifications apportées à une caractéristique peuvent en affecter une autre, ce qui en influence une autre. Il est facile de négliger ces chaînes lors de la construction de structures à la main, et encore plus facile de créer par erreur des chaînes cycliques d’œufs de poule qui sont alors difficiles à réparer.
Les progrès récents, en particulier la publication de DAG sans LARMES à NeurIPS 2018, ont amélioré l’efficacité et la précision des algorithmes d’apprentissage de structure qui construisent ces réseaux. Ils ont rationalisé le processus et évité les structures de paradoxe de l’œuf de poule. Fait important, ils ne confirment pas la causalité — ils l’estiment. En travaillant avec des données non expérimentales, un processus itératif et collaboratif est nécessaire pour vérifier les prédictions et des experts du domaine sont nécessaires pour examiner et vérifier la causalité de la structure, en faisant un croisement des relations avec des publications sectorielles respectées, des enquêtes et des opinions d’experts plus larges. C’est l’augmentation des données et de la méthode avec l’apport d’experts du domaine qui nous permet de faire un pas vers une interprétation causale.
Ce processus aide à éclairer les idées — les causes-effets que les scientifiques des données peuvent trouver surprenants sont souvent bien compris par les experts, et même ceux qui surprennent les experts sont parfois bien compris par les autres dans leur domaine et peuvent être vérifiés par une recherche de matériaux plus larges.
Un type de données structuré comprendra des nœuds (variables contenant des informations) et des arêtes (connexions dirigées entre des nœuds pouvant également contenir des informations). La plupart des algorithmes d’apprentissage de structure produisent des poids de bord, qui sont utiles pour diriger les conversations entre les data scientists et les experts. La présentation des bords du poids le plus élevé au poids le plus bas aide les scientifiques des données à conduire un processus d’examen encore plus efficace, mais nous devons faire attention à ne pas trop interpréter les poids — ce ne sont généralement pas des probabilités ou des valeurs interprétables par les humains. De plus, même les bords de faible poids peuvent parfois être importants, mais les tests statistiques sont difficiles.
Une fois que nous avons identifié les causes, nous pouvons progresser vers l’apprentissage de leur comportement.
Phase 2: Apprentissage de probabilité
L’apprentissage de structure peut identifier que le prix du café est influencé d’une certaine manière par la densité de la population, mais n’identifiera pas spécifiquement comment — il est incapable d’indiquer si une population croissante augmente ou diminue le prix, ou s’il existe une relation plus complexe en jeu.
L’apprentissage des probabilités estime dans quelle mesure chaque cause entraîne chaque effet en apprenant les distributions de probabilités conditionnelles sous-jacentes (DPC). Chaque DPC décrit la probabilité d’une cause, compte tenu de l’état de ses effets.
Nous avons constaté que les CPD discrètes sont plus pratiques que les CPD continues. Les distributions continues sont souvent limitées aux distributions gaussiennes et peinent donc à décrire de nombreuses relations. Les CPD discrets peuvent décrire n’importe quelle forme de distribution, mais avec moins de précision, et sont largement pris en charge par de nombreuses bibliothèques.
Nous pouvons faire appel aux experts du domaine pour faire un choix. Les scientifiques des données et les experts du domaine devraient s’entendre sur une stratégie de discrétisation des données dès le départ. En tenant compte des objectifs du projet, vous devez définir quelle discrétisation est requise. Par exemple, si votre projet nécessite des comparaisons, la discrétisation du centile conviendrait probablement.
Cela étant dit, veillez à ne pas trop discrétiser les DPC, car toutes les estimations de probabilité doivent être décrites et peuvent rapidement s’accumuler. Pour un effet binaire avec trois causes binaires, un DPC devrait estimer 16 éventualités possibles. Pour un effet avec 10 États et trois causes, chacune avec ses propres 10 États, 10 000 éventualités possibles doivent être estimées. Pour les petits ensembles de données avec moins d’échantillons que les possibilités, la plupart des éventualités ne seront jamais observées et celles qui le sont ne seront pas bien représentées. Mais même avec de grands ensembles de données, une discrétisation excessive signifiera que les DPC incluront de nombreuses éventualités hautement improbables. Cela diluera la puissance du modèle et augmentera le temps de calcul.
Les probabilités acquises doivent être évaluées à la fois par des spécialistes des données et des experts du domaine. Pour les spécialistes des données, traitez cela comme un problème de classification standard : apprenez les probabilités du modèle à l’aide d’un ensemble d’entraînement, puis évaluez la précision des prédictions probabilistes pour un nœud donné à l’aide de l’ensemble de tests.
Pendant ce temps, les experts de domaine peuvent lire les tables CPD et les valeurs de vérification des sens. C’est souvent là que les probabilités les plus improbables peuvent être éliminées.
Phase 3: Inférence
Nous comprenons maintenant la structure des relations de cause à effet de notre ensemble de données et le comportement des relations. Cela nous permet de faire des inférences — testant essentiellement des actions et des théories pour évaluer la réponse.
L’inférence peut être divisée en observationnelle et interventionnelle. En inférence observationnelle, nous pouvons observer l’état de toute variable, puis nous interroger sur l’impact de cette modification sur la probabilité de tout autre état de toute autre variable. L’interrogation de la probabilité d’autres variables se fait en jouant toutes les relations de cause à effet, obtenues mathématiquement en marginalisant les probabilités sur les DPC. Un exemple de ceci serait d’observer un café en centre-ville et de conclure qu’il est susceptible d’engager un loyer commercial coûteux — et que par la suite, le prix d’un café risque d’être élevé.
En inférence interventionnelle, nous pouvons intervenir sur l’état de n’importe quelle (s) variable(s), en changeant la probabilité de ses états en ce que nous choisissons et en demandant efficacement « et si X était différent? »Par exemple, nous pourrions émettre l’hypothèse que les employés travaillent une semaine de quatre jours au lieu de cinq et observer ensuite l’effet que cela a sur la productivité.
Décider où il est le plus approprié d’intervenir peut être réalisé grâce à une analyse de sensibilité. Chaque fois que nous faisons une observation, nous pouvons voir comment cela affecte l’état d’une cible que nous voulons changer. Si nous devions faire des milliers d’observations distinctes et subtiles pour toutes les variables, nous pourrions estimer les variables auxquelles notre cible est la plus sensible. C’est la base de l’analyse de sensibilité, bien qu’il existe des moyens plus efficaces pour y parvenir.
L’analyse de sensibilité est un outil particulièrement puissant car elle nous aide à comprendre où concentrer les efforts. Il n’est pas toujours possible d’intervenir sur des causes sensibles — par exemple, il ne sert à rien de modifier l’adresse d’un client car il n’y a aucun moyen pour notre modèle éventuel de contrôler cela. Cependant, ces causes plus sensibles peuvent jouer un rôle dans la détermination des interventions conditionnelles.
Les développements ML ont peut—être contribué à rationaliser la création de structures, mais un processus d’apprentissage hybride et collaboratif entre les humains — en particulier les scientifiques des données et les experts du domaine – est toujours fondamental pour aller au-delà de la corrélation pour identifier la causalité.
Le raisonnement causal reste difficile et il peut être long et difficile de mener à bien un projet complet en raison du nombre élevé de bibliothèques logicielles distinctes requises pendant la phase de test. Cependant, cela reste une technique efficace lors de la construction de modèles causaux — pour soutenir cela, QuantumBlack a récemment publié notre dernière offre open source, CausalNex. Cette bibliothèque logicielle fournit un processus beaucoup plus simplifié et aide les modèles à éviter les conclusions erronées et à produire des interventions analytiques plus intelligentes et plus percutantes.
La causalité passe de plus en plus sous le microscope et c’est un sujet que nous nous engageons à explorer davantage à l’avenir, à la fois avec CausalNex et des recherches plus larges. Par exemple, nous présenterons un article à AISTATS en juin, qui modifie NO TEARS pour apprendre la structure des variables à travers le temps en plus des relations intra-temporelles. En attendant, restez à jour avec les développements à venir de CausalNex.