Identificação de Causa e Efeito Com o Raciocínio Causal

QuantumBlack, uma empresa McKinsey

Siga

Fev 11, 2020 · 7 min de leitura

Ben Horsburgh — Jr Principal ML Engenheiro, QuantumBlack

Em dezembro, o QuantumBlack equipe foram afortunados o suficiente para participar de NeurIPS 2019, em Vancouver, onde organizamos uma exposição oficina explorar como implantar causal inferência e reforço aprender a gerar modelos que considerem causa e efeito.

esta sessão revelou-se muito popular e por isso queríamos partilhar os elementos-chave com aqueles que não puderam comparecer. Ao longo dos dois próximos artigos médios vamos explorar como os cientistas de dados podem aproveitar o raciocínio Causal e reforçar a aprendizagem para construir modelos que respeitam a causa e efeito.

the Causal Blind Spot

Advanced analytics is often deployed to decide where to make an intervention in order to influence a target. No entanto, muitas metodologias tradicionais da ML, desde a regressão linear à aprendizagem profunda, não consideram a causalidade e, em vez disso, apenas a correlação modelo entre pontos de dados. Eles podem identificar que existe uma relação entre variáveis sem definir o que essa relação é ou como elas influenciam umas às outras.

isto pode ter um impacto drástico na intervenção sugerida pelo modelo, diluindo a eficácia das intervenções ou mesmo produzindo recomendações totalmente irrelevantes. Por exemplo, um modelo não causal destinado a mitigar a seca pode reconhecer que existe uma relação entre o aumento da seca e o aumento das vendas de gelados, mas pode chegar a conclusões precipitadas de que a proibição dos gelados reduziria a seca.

na modelização causal, ML é usado para criar uma estrutura inicial, visualizada como uma rede gráfica, que destaca a relação percebida entre as características. Isto é então revisto por especialistas de domínio que podem atualizar a estrutura para destacar como cada característica influencia o outro — no nosso exemplo, um especialista de irrigação destacaria que a água potável acessível seria um condutor muito mais preciso para mitigar a seca do que a proibição de sorvete.

este processo é conhecido como raciocínio Causal e este artigo cobrirá cada uma das três fases necessárias para implantá-lo.

Fase 1: aprendizagem de estruturas

os modelos causais devem ser informados da estrutura causal entre as características. Em um mundo ideal, um especialista em domínio introduziria esta estrutura, mas isso é muitas vezes inviável — um modelo com apenas 50 variáveis exigiria pouco menos de 2.500 relações cause-effect para ser considerado e explicado.

além disso, as cadeias de causa e efeito fazem um processo já de tempo intensivo ainda mais complexo-as mudanças em uma característica podem afetar outra, que por sua vez influencia outra. É fácil ignorar estas cadeias quando se constroem estruturas à mão, e ainda mais fácil criar erroneamente cadeias cíclicas, de ovos de galinha, que são então difíceis de consertar.Os recentes avanços, particularmente a publicação de CADS sem lágrimas em NeurIPS 2018, melhoraram a eficiência e a precisão dos algoritmos de aprendizagem de estruturas que constroem essas redes. Eles simplificaram o processo e evitaram estruturas paradoxais de ovo-galinha. Mais importante ainda, não confirmam a causalidade — estimam-na. É necessário trabalhar com dados não experimentais, um processo iterativo e colaborativo para verificar as previsões e os especialistas de domínio são obrigados a rever e verificar a causalidade da estrutura, as relações de cruzamento de referências com publicações, inquéritos e opiniões de especialistas mais amplas do sector. É o aumento de dados e método com a entrada de especialistas de domínio que nos permite dar um passo em direção a uma interpretação causal.

este processo ajuda a informar os insights-cause-effects que os cientistas de dados podem achar surpreendentes são muitas vezes bem compreendidos por especialistas, e mesmo aqueles que surpreendem peritos são por vezes bem compreendidos por outros no seu campo e podem ser verificados através de uma pesquisa de materiais mais amplos.

um tipo de dados estruturado incluirá nós (variáveis que contêm informação) e arestas (conexões direcionadas entre nós que também podem conter informação). A maioria dos algoritmos de aprendizagem de estrutura produzem pesos de borda, que são úteis para direcionar as conversas entre cientistas de dados e especialistas. Apresentar arestas do mais alto ao mais baixo peso ajuda os cientistas de dados a conduzir um processo de revisão ainda mais eficiente, mas devemos ter cuidado para não anexar demasiada interpretação aos pesos — eles geralmente não são probabilidades ou valores que são interpretáveis pelos seres humanos. Além disso, mesmo as arestas de baixo peso podem, por vezes, ser importantes, mas os testes estatísticos são difíceis.Uma vez identificadas as causas, podemos progredir para aprender como elas se comportam.

Fase 2: A aprendizagem da probabilidade

a aprendizagem da estrutura pode identificar que o preço do café é influenciado de alguma forma pela densidade populacional, mas não identifica especificamente como — é incapaz de indicar se uma população em crescimento aumenta ou diminui o preço, ou se há uma relação mais complexa em jogo.

a probabilidade de aprendizagem estima o quanto cada causa impulsiona cada efeito ao aprender as distribuições condicionais de probabilidade subjacentes (CPDs). Cada CPD descreve a probabilidade de uma causa, dado o estado de seus efeitos.

descobrimos que os CPDs discretos são mais práticos do que os CPDs contínuos. Distribuições contínuas são muitas vezes limitadas a distribuições Gaussianas e por isso lutam para descrever muitas relações. CPDs discretos podem descrever qualquer forma de distribuição, embora com menos precisão, e são amplamente suportados por muitas bibliotecas.

podemos utilizar os especialistas do domínio para fazer uma escolha. Os cientistas de dados e os peritos em domínios devem acordar, desde o início, uma estratégia de discretização dos dados. Tendo em conta os objetivos do projeto, você deve definir que discretização é necessária. Por exemplo, se o seu projeto requer comparações a serem feitas então, em seguida, a discretização percentil provavelmente seria adequado.

dito isto, tenha cuidado para evitar a desconsideração de CPDs, já que todas as estimativas de probabilidade precisam ser descritas e podem acumular-se rapidamente. Para um efeito binário com três causas Binárias, um CPD precisaria estimar 16 eventualidades possíveis. Para um efeito com 10 estados e três causas, cada um com seus próprios 10 estados, 10.000 possíveis eventualidades devem ser estimadas. Para pequenos conjuntos de dados com menos amostras do que possibilidades, a maioria das eventualidades nunca serão observadas, e as que são não serão bem representadas. Mas mesmo com grandes conjuntos de dados, a descredibilização excessiva significará que os CPDs irão incluir muitas eventualidades altamente improváveis. Isso irá diluir o poder do modelo e aumentar o tempo de computação.

as probabilidades aprendidas devem ser avaliadas tanto por cientistas de dados como por peritos de domínio. Para os cientistas de dados, tratar isso como um problema de classificação padrão — aprender as probabilidades do modelo usando um conjunto de treinamento, e então avaliar como as previsões probabilísticas precisas são para qualquer nó dado usando o conjunto de teste.

entretanto, especialistas em domínio podem ler tabelas CPD e valores de verificação de sentidos. É frequentemente aqui que as probabilidades mais improváveis podem ser eliminadas.

Fase 3: inferência

até agora nós entendemos a estrutura de relação causa-efeito do nosso conjunto de dados e como as relações se comportam. Isso nos permite fazer inferências-essencialmente testando ações e teorias para medir a resposta.

inferência pode ser dividida em observacional e intervencionista. In observational inference, we can observe the state of any variable (s) and then query how changing this will impact the likely of any other state of any other variable. Questionar a probabilidade de outras variáveis é feito jogando todas as relações de causa e efeito, alcançado matematicamente marginalizando probabilidades sobre o CPDs. Um exemplo disto seria observar um café do centro da cidade e concluir que é provável que incorrer em aluguel comercial caro-e que, posteriormente, o preço de um café é provável ser elevado.

na inferência intervencional, podemos intervir no estado de qualquer variável (s), mudando a probabilidade de seus estados para o que nós escolhermos e efetivamente perguntando ‘e se X era diferente?”Por exemplo, poderíamos colocar a hipótese de os trabalhadores trabalharem uma semana de quatro dias em vez de cinco e depois observar o efeito que isso tem na produtividade.

decidir onde é mais apropriado intervir pode ser alcançado através de análise de sensibilidade. Cada vez que fazemos uma observação, podemos ver como isso afeta o estado de um alvo que queremos mudar. Se fizéssemos milhares de observações subtis e separadas em todas as variáveis, poderíamos estimar a que variáveis o nosso alvo é mais sensível. Esta é a base da análise de sensibilidade, embora existam meios mais eficientes para a alcançar.

a análise de sensibilidade é uma ferramenta particularmente poderosa, pois nos ajuda a entender onde concentrar os esforços. Nem sempre é possível intervir em causas sensíveis — por exemplo, não faz sentido alterar o endereço de um cliente, uma vez que não há forma de o nosso eventual modelo controlar isso. No entanto, estas causas mais sensíveis podem desempenhar um papel na determinação das intervenções condicionais.

ML desenvolvimentos podem ter ajudado a racionalizar a criação de estruturas, mas um processo de aprendizagem colaborativo e híbrido entre os seres humanos — especificamente cientistas de dados e especialistas de domínio — ainda é fundamental quando alcançar além da correlação para identificar causação.

os desafios permanecem com o raciocínio Causal e pode ser demorado e difícil de concluir um projeto completo devido ao elevado número de bibliotecas de software separadas necessárias durante a fase de teste. No entanto, continua a ser uma técnica eficaz ao construir modelos causais — para suportar isso, QuantumBlack lançou recentemente a nossa mais recente oferta de código aberto, CausalNex. Esta biblioteca de software fornece um processo muito mais simplificado e ajuda modelos a evitar conclusões espúrias e, em última análise, produzir intervenções analíticas mais inteligentes e impactantes.

a causalidade está cada vez mais sob o microscópio e é um tema que estamos empenhados em Explorar mais no futuro, tanto com a CausalNex e pesquisa mais ampla. Por exemplo, apresentaremos um artigo na AISTATS em junho, que não modifica nenhuma lágrima para aprender a estrutura das variáveis ao longo do tempo, além das relações intra-temporais. Enquanto isso, mantenha-se atualizado com os próximos desenvolvimentos CausalNex.