Identificación de Causa y Efecto Con Razonamiento Causal

QuantumBlack, una empresa de McKinsey

Seguir

11 de febrero de 2020 * 7 minutos de lectura

Ben Horsburgh-Jr Ingeniero Principal de ML, QuantumBlack

En diciembre, el equipo de QuantumBlack tuvo la suerte de asistir a NeurIPS 2019 en Vancouver, donde organizamos un taller de expo para explorar cómo implementar causal aprendizaje de inferencia y refuerzo para generar modelos que consideren causa y efecto.

Esta sesión resultó muy popular, por lo que queríamos compartir los elementos clave con aquellos que no pudieron asistir. En los próximos dos artículos de Medium, exploraremos cómo los científicos de datos pueden aprovechar el Razonamiento Causal y el Aprendizaje por Refuerzo para construir modelos que respeten la causa y el efecto.

El Punto Ciego Causal

El análisis avanzado a menudo se implementa para decidir dónde realizar una intervención con el fin de influir en un objetivo. Sin embargo, muchas metodologías tradicionales de ML, desde la regresión lineal hasta el aprendizaje profundo, no consideran la causalidad y, en su lugar, solo modelan la correlación entre los puntos de datos. Pueden identificar que hay una relación entre variables sin definir qué es esta relación o cómo se influyen entre sí.

Esto puede tener un impacto drástico en la intervención sugerida por el modelo, diluyendo la efectividad de las intervenciones o incluso produciendo recomendaciones completamente irrelevantes. Por ejemplo, un modelo no causal destinado a mitigar la sequía puede reconocer que existe una relación entre el aumento de la sequía y el aumento de las ventas de helados, pero puede llegar a la conclusión de que prohibir los helados mitigaría la sequía.

En el modelado causal, ML se utiliza para crear una estructura inicial, visualizada como una red gráfica, que resalta la relación percibida entre las características. Luego, esto es revisado por expertos en dominios que pueden actualizar la estructura para resaltar cómo cada característica influye en la otra; en nuestro ejemplo, un experto en riego destacaría que el agua potable accesible sería un impulsor mucho más preciso para mitigar la sequía que prohibir el helado.

Este proceso se conoce como Razonamiento Causal y este artículo cubrirá cada una de las tres fases necesarias para implementarlo.

Fase 1: Aprendizaje de la estructura

Los modelos causales deben ser informados de la estructura causal entre las características. En un mundo ideal, un experto en dominios ingresaría esta estructura, pero esto a menudo es inviable: un modelo con solo 50 variables requeriría un poco menos de 2,500 relaciones de causa-efecto para ser consideradas y explicadas.

Además, las cadenas de causa y efecto hacen que un proceso que ya requiere mucho tiempo sea aún más complejo: los cambios en una característica pueden afectar a otra, lo que a su vez influye en otra. Es fácil pasar por alto estas cadenas cuando se construyen estructuras a mano, e incluso más fácil crear por error cadenas cíclicas de huevos de gallina que luego son difíciles de arreglar.

Los avances recientes, en particular la publicación de DAGs sin LÁGRIMAS en NeurIPS 2018, han mejorado la eficiencia y precisión de los algoritmos de aprendizaje de estructuras que construyen estas redes. Simplificaron el proceso y evitaron las estructuras de paradoja de huevo y gallina. Es importante destacar que no confirman la causalidad — sino que la estiman. Al trabajar con datos no experimentales, es necesario un proceso iterativo y colaborativo para verificar las predicciones y se requiere que los expertos en el dominio revisen y verifiquen la causalidad de la estructura, haciendo referencias cruzadas con publicaciones sectoriales respetadas, encuestas y opiniones de expertos más amplias. Es el aumento de datos y métodos con aportes de expertos en dominios lo que nos permite dar un paso hacia una interpretación causal.

Este proceso ayuda a informar los conocimientos-causa-efectos que los científicos de datos pueden encontrar sorprendentes a menudo son bien entendidos por los expertos, e incluso aquellos que sorprenden a los expertos a veces son bien entendidos por otros en su campo y se pueden verificar a través de una búsqueda de materiales más amplios.

Un tipo de datos estructurado incluirá nodos (variables que contienen información) y bordes (conexiones dirigidas entre nodos que también pueden contener información). La mayoría de los algoritmos de aprendizaje de estructuras generan pesos de borde, que son útiles para dirigir conversaciones entre científicos de datos y expertos. Presentar bordes de mayor a menor peso ayuda a los científicos de datos a impulsar un proceso de revisión aún más eficiente, pero debemos tener cuidado de no asignar demasiada interpretación a los pesos, por lo general no son probabilidades o valores que sean interpretables por los seres humanos. Además, incluso los bordes de bajo peso a veces pueden ser importantes, pero las pruebas estadísticas son difíciles.

Una vez que hemos identificado cuáles son las causas, podemos progresar para aprender cómo se comportan.

Fase 2: Aprendizaje de probabilidad

El aprendizaje de estructura puede identificar que el precio del café está influenciado de alguna manera por la densidad de población, pero no identifica específicamente cómo: no puede indicar si una población en aumento aumenta o disminuye el precio, o si hay una relación más compleja en juego.

El aprendizaje de probabilidades estima cuánto impulsa cada causa a cada efecto al aprender las Distribuciones de Probabilidad Condicionales (CPD) subyacentes. Cada CPD describe la probabilidad de una causa, dado el estado de sus efectos.

Hemos encontrado que los CPD discretos son más prácticos que los CPD continuos. Las distribuciones continuas a menudo se limitan a distribuciones gaussianas, por lo que es difícil describir muchas relaciones. Los CPD discretos pueden describir cualquier forma de distribución, aunque con menos precisión, y son ampliamente soportados por muchas bibliotecas.

Podemos utilizar a los expertos en dominios para hacer una elección. Los científicos de datos y los expertos en dominios deben acordar una estrategia de discretización de datos desde el principio. Teniendo en cuenta los objetivos del proyecto, debe definir qué discrecionalidad se requiere. Por ejemplo, si su proyecto requiere comparaciones, entonces la discretización de percentiles probablemente le convenga.

Dicho esto, tenga cuidado de evitar discretizar demasiado los CPD, ya que todas las estimaciones de probabilidad deben describirse y pueden acumularse rápidamente. Para un efecto binario con tres causas binarias, un CPD necesitaría estimar 16 posibles eventualidades. Para un efecto con 10 estados y tres causas, cada una con sus propios 10 estados, se deben estimar 10.000 posibles eventualidades. Para conjuntos de datos pequeños con menos muestras que posibilidades, la mayoría de las eventualidades nunca se observarán, y las que sí lo son no estarán bien representadas. Pero incluso con grandes conjuntos de datos, la discretización excesiva significará que los CPD incluirán muchas eventualidades altamente improbables. Esto diluirá la potencia del modelo y aumentará el tiempo de cálculo.

Las probabilidades aprendidas deben ser evaluadas tanto por científicos de datos como por expertos en dominios. Para los científicos de datos, trate esto como un problema de clasificación estándar: aprenda las probabilidades del modelo utilizando un conjunto de entrenamiento y luego evalúe cuán precisas son las predicciones probabilísticas para cualquier nodo dado utilizando el conjunto de pruebas.

Mientras tanto, los expertos en dominios pueden leer tablas CPD y valores de comprobación sensorial. Aquí es a menudo donde se pueden eliminar las probabilidades más improbables.

Fase 3: Inferencia

Ahora entendemos la estructura de la relación causa-efecto de nuestro conjunto de datos y cómo se comportan las relaciones. Esto nos permite hacer inferencias, esencialmente probando acciones y teorías para medir la respuesta.

La inferencia se puede dividir en observacional e intervencionista. En la inferencia observacional, podemos observar el estado de cualquier variable y luego consultar cómo cambiar esto afectará la probabilidad de cualquier otro estado de cualquier otra variable. La consulta de la probabilidad de otras variables se realiza jugando todas las relaciones de causa y efecto, logradas matemáticamente marginando las probabilidades sobre los CPD. Un ejemplo de esto sería observar una cafetería en el centro de la ciudad y concluir que es probable que incurra en un alquiler comercial costoso, y que, posteriormente, el precio de un café es probable que sea alto.

En la inferencia intervencionista, podemos intervenir en el estado de cualquier variable, cambiando la probabilidad de sus estados a lo que elijamos y preguntando efectivamente » ¿qué pasaría si X fuera diferente?»Por ejemplo, podríamos plantear la hipótesis de que los empleados trabajan una semana de cuatro días en lugar de cinco y luego observar el efecto que esto tiene en la productividad.

Decidir dónde es más apropiado intervenir puede lograrse mediante un análisis de sensibilidad. Cada vez que hacemos una observación, podemos ver cómo esto afecta el estado de un objetivo que queremos cambiar. Si hiciéramos miles de observaciones separadas y sutiles en todas las variables, podríamos estimar a qué variables es más sensible nuestro objetivo. Esta es la base del análisis de sensibilidad, aunque existen medios más eficientes para lograrlo.

El análisis de sensibilidad es una herramienta particularmente poderosa, ya que nos ayuda a comprender dónde enfocar los esfuerzos. No siempre es posible intervenir en causas sensibles, por ejemplo, no tiene sentido alterar la dirección de un cliente, ya que no hay forma de que nuestro modelo final lo controle. Sin embargo, estas causas más sensibles pueden desempeñar un papel en la determinación de las intervenciones condicionales.

Los desarrollos de ML pueden haber ayudado a simplificar la creación de estructuras, pero un proceso de aprendizaje colaborativo e híbrido entre humanos, específicamente científicos de datos y expertos en dominios, sigue siendo fundamental cuando se va más allá de la correlación para identificar la causalidad.

Subsisten desafíos con el razonamiento Causal y puede requerir mucho tiempo y ser difícil completar un proyecto completo debido al gran número de bibliotecas de software separadas que se requieren durante la fase de prueba. Sin embargo, sigue siendo una técnica eficaz a la hora de crear modelos causales; para respaldar esto, QuantumBlack ha lanzado recientemente nuestra última oferta de código abierto, CausalNex. Esta biblioteca de software proporciona un proceso mucho más simplificado y ayuda a los modelos a evitar conclusiones falsas y, en última instancia, a producir intervenciones analíticas más inteligentes e impactantes.

La causalidad está cada vez más bajo el microscopio y es un tema que nos comprometemos a explorar más en el futuro, tanto con CausalNex como con una investigación más amplia. Por ejemplo, presentaremos un artículo en AISTATS en junio, que modifica NO TEARS para aprender la estructura de variables a través del tiempo, además de las relaciones intratemporales. Mientras tanto, manténgase actualizado con los próximos desarrollos de CausalNex.