KDnuggets

Por Sydney Firmin, Alteryx.

“essencialmente, todos os modelos estão errados, mas alguns modelos são úteis.”- George Box

esta famosa citação de George Box foi gravada pela primeira vez em 1976 no artigo “Science and Statistics”, publicado no Journal of the American Statistical Association. É uma citação importante para a área de estatísticas e modelos analíticos e pode ser desempacotado em duas partes.

todos os modelos estão errados

para investigar esta afirmação, precisamos definir e examinar o que é um modelo.

para o contexto deste artigo, um modelo pode ser considerado como uma representação simplificada de um sistema ou objeto. Os modelos estatísticos aproximam os padrões de um conjunto de dados, fazendo suposições sobre os dados, bem como sobre o ambiente em que foram recolhidos e aplicados.

as três grandes categorias de pressupostos feitas pelos modelos estatísticos são pressupostos de distribuição (pressupostos sobre a distribuição de valores numa variável ou a distribuição de erros observacionais), pressupostos estruturais (pressupostos sobre a relação funcional entre variáveis) e pressupostos de variação cruzada (distribuição conjunta de probabilidade).

por exemplo, um modelo de regressão linear assume que as relações entre variáveis num conjunto de dados são lineares (e apenas lineares). Aos olhos de um modelo linear, qualquer distância entre as observações que compõem o conjunto de dados e a linha modelada é apenas ruído (ou seja, flutuações aleatórias ou inexplicáveis nos dados) e pode ser, em última análise, ignorado.

não se preocupe com as distâncias em azul.George Box afirmou que todos os modelos estão errados especificamente no contexto dos modelos estatísticos. Porque a própria natureza de um modelo é uma representação simplificada e idealizada de algo, todos os modelos estarão errados em algum sentido. Os modelos nunca serão “a verdade” se a verdade significar inteiramente representativa da realidade. É muito importante considerar as suposições feitas na geração de um modelo, porque os modelos só são verdadeiramente úteis quando as suposições são retidas.

mapas e miniaturas

observações semelhantes a “all models are wrong” De Box estão presentes em muitos campos diferentes.Há um aforismo que faz referência à relação mapa-território, atribuída a Alfred Korzybski .:

um mapa não é o território que representa, mas, se correcto, tem uma estrutura semelhante ao território, o que explica a sua utilidade.

mapas são úteis porque são abstrações de um objeto real em uma escala mais gerenciável, mas eles sempre excluirão algum nível de detalhe. Dependendo da área que um mapa inclui, também pode haver alguma distorção devido à projeção do mapa (causada pelo difícil processo de conversão de um globo esférico para uma representação plana).

(fonte da imagem.)

o único mapa verdadeiramente preciso seria uma réplica 1: 1 do território que representa. No entanto, um mapa como esse não seria mais útil do que navegar no próprio território.

considere a citação do poeta Paul Valery:

tudo simples é falso. Tudo o que é complexo é inutilizável.

Named after a Stanford business professor, Bonini’s Paradox describes the challenge of creating useful, complete models or simulations of complex systems. Há muitas vezes um ato de equilíbrio entre complexidade e precisão no desenvolvimento de modelos. Se o objetivo de um modelo é tornar um relacionamento ou sistema mais claro, a complexidade adicional derrota esse propósito (embora possa tornar o modelo mais preciso).

em um alto nível, a relação mapa-território também descreve a relação entre um objeto e uma representação do objeto.Se alguma vez fez uma aula de Filosofia, pode ter-se deparado com a traição de imagens do artista surrealista Rene Magritte.

o texto se traduz como ” isto não é um cachimbo.”E não é. Nós não podemos encher esta imagem (digital) com tabaco e fumá-la como é apenas uma representação de um objeto real.

modelos são abstrações. Como mapas, ou modelos arquitetônicos em miniatura, ou esquemas, eles não podem capturar todos os detalhes do objeto ou sistema em que são baseados, quanto mais não seja porque eles não existem no mundo real e não funcionam da mesma forma.

Se Todas As Modelos Estão Erradas, Porquê Dar-Se Ao Trabalho?O aforismo de George Box não é isento de críticas.

o problema que muitos estaticistas têm com esta citação parece, em geral, cair em duas categorias:

  1. os modelos estarem errados é uma afirmação óbvia. Claro que todos os modelos estão errados, são modelos.
  2. esta citação é usada como desculpa para maus modelos.

o estatístico J. Michael Steele foi crítico do adágio (veja este ensaio pessoal). O argumento primário de Steele é que “errado” só entra em jogo se o modelo não responde corretamente à pergunta que afirma responder (e.g., que um edifício em um mapa é mal etiquetado, não que o edifício é representado por um pequeno quadrado). Steele vai para o estado:

a maioria dos métodos estatísticos publicados anseiam por um exemplo honesto.

Steele argumenta que os modelos estatísticos muitas vezes não estão à altura de uma medida adequada de aptidão, e muitos modelos desenvolvidos pelos estaticistas não são suficientes para os casos de uso pretendido.No artigo, as Estatísticas são uma ciência, não uma arte.: The Way to Survive in Data Science, Mark van der Laan (Statistics at UC Berkeley) attributes the Box quote as a contributing cause of bad statistical models and dismisses it as “complete nonsense.”Ele continua a escrever:

a fundação das estatísticas ( … ) não poderia ter sido arbitrariamente selecionar um modelo estatístico “conveniente”. No entanto, é precisamente isso que a maioria dos estaticistas faz alegremente, referindo-se orgulhosamente à citação: “todos os modelos estão errados, mas alguns são úteis.”Devido a isso, modelos que são tão irrealistas que são indexados por um parâmetro dimensional finito ainda são o status quo, apesar de todos concordarem que são conhecidos por serem falsos.Como solução, Van der Laan chama os estaticistas para parar de usar a citação de Box, e fazer um compromisso de levar os dados, estatísticas e o método científico a sério. Ele pede aos estaticistas para passar o tempo aprendendo como os dados em um determinado conjunto de dados foram gerados e se comprometem a desenvolver modelos estatísticos realistas usando técnicas de aprendizado de máquina e estimativa de dados adaptáveis sobre modelos paramétricos mais tradicionais.Este artigo tem respostas dos estaticistas Michael Lavine e Christopher Tong, bem como uma resposta às respostas do autor original. Os dois estaticistas refutantes apontam para exemplos onde os modelos são conhecidos por estarem errados, mas são frequentemente empregados porque são úteis, e aptos para um dado problema. Seus exemplos incluem os três modelos diferentes de luz encontrada no campo da óptica (óptica geométrica, física, óptica quântica e óptica; os três modelos representam a luz de forma diferente, são os “errados”, em algum sentido, e ainda são empregadas hoje), e o (quase) relação linear entre o log de carbono do fluxo e de temperatura do solo encontrados em dados coletados em Harvard Floresta.Por sua vez, Van der Laan responde a estes exemplos e outras críticas de seu artigo, especificamente seu conceito de encontrar um modelo “verdadeiro”. As cartas de resposta são definitivamente vale a pena ler se você estiver interessado. Trata-se de uma área activa de debate nos domínios da estatística e da ciência dos dados.

mas alguns modelos são úteis

apesar das limitações dos modelos, muitos modelos podem ser muito úteis. Como eles são simplificados, os modelos são muitas vezes úteis na compreensão de um determinado componente ou faceta de um sistema.

In the context of data science, machine learning and statistical models can be useful to estimate (predict) unknown values. Em muitos contextos, se os pressupostos do modelo se mantiverem, uma estimativa incerta fornecida por um modelo estatístico forte pode ainda ser muito útil para a tomada de decisões.A segunda metade, menos citada, da sabedoria de George Box é esta::

” a questão prática é como errado (modelos) tem que ser para não ser útil.”- George Box

vamos dar outra olhada no nosso exemplo de regressão linear:

passei muito tempo nesta imagem para usá-la apenas uma vez.

agora, vamos dar uma olhada em outro modelo teórico de regressão linear que se encaixa em um conjunto de dados diferente.

não te preocupes com as distâncias… espera, isto não pode estar certo.

ambas as figuras mostram erro, mas um conjunto de dados demonstra uma relação claramente linear, enquanto o outro é logístico. Ambos os modelos são “errados”, mas um claramente captura uma relação real entre variáveis, enquanto o outro não, tornando um útil e um inútil. Descartar as distâncias em azul como ruído é razoável se os dados têm uma relação linear, mas esta suposição se desmorona quando a relação tem uma forma funcional diferente do seu modelo selecionado.

Fazer Bons Modelos

O fato de que os modelos são errados ou limitada, no âmbito do que eles representam, pode parecer óbvio para muitas pessoas que trabalham com modelos, mas, infelizmente, muitas pessoas não percebem isso ou pensar muito sobre isso. É por isso que considero importante ter em mente as palavras de George Box ao desenvolver um modelo. Não deve ser usado como uma desculpa para construir modelos ruins.

para mais leitura, Steele tem algumas notas de classe: o modelo faz sentido? e o modelo faz sentido? Parte II: exploração da suficiência. Outro grande recurso é o artigo ” Todos os modelos estão errados…”: uma introdução à incerteza dos modelos a partir de um workshop de selecção de modelos realizado em 2011 em Groningen.

outra leitura interessante é quando todos os modelos estão errados de questões de Ciência e tecnologia, que chama as palavras de Box como um apelo para uma transparência mais rigorosa nos modelos científicos e estatísticos.

a coisa importante a tirar de tudo isso é certificar-se de que você entende que aspectos de seus dados são capturados pelo seu modelo, e que aspectos não são. É fundamental verificar os seus pressupostos e pontos de partida. Como estatístico ou cientista de dados, é sua responsabilidade produzir modelos rigorosos, bem como conhecer suas limitações. Informe sempre a sua incerteza, bem como o âmbito do seu modelo. Com isso em mente, você será capaz de fazer modelos que, embora possivelmente errados, podem certamente ser úteis.

Original. Reposto com permissão.

Bio: Um geógrafo por treinamento e um geek de dados no coração, Sydney acredita fortemente que dados e conhecimento são mais valiosos quando eles podem ser claramente comunicados e compreendidos. Em seu papel atual como Engenheiro de conteúdo de Ciência de dados, ela passa seus dias fazendo o que ela mais gosta; transformando conhecimento técnico e pesquisa em engajamento, criatividade e conteúdo divertido para a comunidade Alteryx.

:Os 3 Maiores Erros na aprendizagem da ciência dos dados

  • 3 grandes problemas com dados grandes e como resolvê-los
  • escolher entre candidatos modelos