모든 모델이 잘못되었습니다-그것은 무엇을 의미합니까?

시드니 퍼민,알터릭스.

“기본적으로 모든 모델은 잘못되었지만 일부 모델은 유용합니다.”-조지 박스

이 유명한 조지 박스 인용문은 1976 년 미국 통계 협회 저널에 발표 된”과학 및 통계”논문에 처음 기록되었습니다. 통계 및 분석 모델 분야에 대한 중요한 인용문이며 두 부분으로 압축 해제 할 수 있습니다.

모든 모델이 잘못

이 문을 파고,우리는 정의하고 모델이 무엇인지 검토 할 필요가있다.

이 문서의 컨텍스트에서 모델은 시스템 또는 객체의 단순화 된 표현으로 생각할 수 있습니다. 통계 모델 데이터 집합에 수집 하 고 적용 된 환경 뿐만 아니라 데이터에 대 한 가정 하 여 패턴을 근사합니다.

통계 모델에 의해 만들어진 가정의 세 가지 범주는 분포 가정(변수의 값 분포 또는 관측 오류의 분포에 대한 가정),구조적 가정(변수 간의 기능적 관계에 대한 가정)및 교차 변동 가정(공동 확률 분포)입니다.

예를 들어,선형 회귀 모델은 데이터 세트의 변수 간의 관계가 선형(및 선형 만)이라고 가정합니다. 선형 모델의 눈에는 데이터 세트를 구성하는 관측치와 모델링 된 선 사이의 거리가 노이즈(즉,데이터의 무작위 또는 설명 할 수없는 변동)일 뿐이며 궁극적으로 무시할 수 있습니다.

파란색의 거리에 아무 마음을 지불하지 않습니다.

조지 박스는 통계 모델의 맥락에서 모든 모델이 잘못되었다고 말했다. 모델의 본질은 무언가의 단순화되고 이상화 된 표현이기 때문에 모든 모델은 어떤 의미에서 잘못 될 것입니다. 진리가 전적으로 현실을 대표한다는 것을 의미한다면 모델은 결코”진실”이 될 수 없습니다. 모형은 가정을 떠받칠 때 정말 도움이 되기 때문에 모형을 생성하기안에 한 가정을 사려하는것은 아주 중요하다.

지도 및 미니어처

상자의”모든 모델이 잘못되었습니다”와 유사한 관찰이 여러 분야에 존재합니다.

지도-영토 관계를 참조하는 격언이 있습니다.:

지도는 그것이 나타내는 영역이 아니지만,올바른 경우,그것은 그 유용성을 설명하는 영토와 유사한 구조를 가지고있다.

지도는 보다 관리하기 쉬운 규모의 실제 객체의 추상화이기 때문에 유용하지만 항상 특정 수준의 세부 사항은 제외됩니다. 지도에 포함된 면적에 따라 지도의 투영으로 인해 약간의 왜곡이 발생할 수도 있습니다(구형 글로브를 평면 표현으로 변환하는 까다로운 프로세스로 인해 발생).

(이미지 소스.

유일하게 진정으로 정확한 지도는 그것이 나타내는 영토를 1:1 로 복제하는 것이다. 그러나 그런지도는 영토 자체를 탐색하는 것보다 더 도움이되지 않습니다.

시인 폴 발레리의 견적을 고려:

단순한 모든 것은 거짓입니다. 복잡한 모든 것은 사용할 수 없습니다.

스탠포드 비즈니스 교수의 이름을 따서 명명 된 보니니의 역설은 복잡한 시스템의 유용하고 완전한 모델 또는 시뮬레이션을 만드는 과제를 설명합니다. 종종 모델 개발의 복잡성과 정확성 사이에는 균형 잡힌 행동이 있습니다. 모델의 목표가 관계 또는 시스템을 더 명확하게 만드는 것이라면 추가 된 복잡성은 그 목적을 상실합니다(모델을 더 정확하게 만들 수도 있음).

높은 수준에서,지도-영역 관계는 또한 객체와 객체의 표현 사이의 관계를 설명합니다.

만약 당신이 철학 수업을 들어 본 적이 있다면,당신은 초현실주의 예술가 르네 마그리트의 이미지 배반 작품을 접했을 것입니다.

이 텍스트는”이것은 파이프가 아닙니다.”그리고 그렇지 않습니다. 이(디지털)이미지를 담배로 채우고 실제 물체를 표현하기 만하면 담배를 피울 수 없습니다.

모델은 추상화입니다. 지도,미니어처 건축 모델 또는 회로도와 마찬가지로 실제 세계에 존재하지 않고 동일한 방식으로 기능하지 않기 때문에 기반으로하는 객체 또는 시스템의 모든 세부 사항을 캡처 할 수 없습니다.

모든 모델이 잘못된 경우,왜 귀찮게?

조지 박스의 격언은 비평가가없는 것은 아니다.

이 인용문에서 많은 통계 학자들이 가지고있는 문제는 크게 두 가지 범주로 분류되는 것 같습니다:

  1. 모델이 잘못된 것은 명백한 진술입니다. 물론 모든 모델이 잘못되었습니다.
  2. 이 인용문은 나쁜 모델에 대한 변명으로 사용됩니다.

통계학자 마이클 스틸은 이 격언에 대해 비판적이었다(이 개인 에세이 참조). 스틸의 주요 주장은 모델이 대답한다고 주장하는 질문에 올바르게 대답하지 않는 경우에만”잘못”이 작동한다는 것입니다(예:,지도에 있는 건물이 잘못 표시되어 있는 것이지,건물이 작은 사각형으로 표시되는 것이 아닙니다). 스틸 상태에 간다:

하나의 정직한 예를 들어 게시 된 통계 방법의 대부분은 굶주림.

스틸은 통계 모델이 적절한 적합성 측정치에 미치지 못하는 경우가 많으며 통계학자가 개발한 많은 모델이 의도한 사용 사례로는 충분하지 않다고 주장한다.

예술이 아닌 과학으로서의 통계: 데이터 과학에서 생존하는 방법,마크 반 데르 란(버클리의 통계)는 박스 견적을 나쁜 통계 모델의 기여 원인으로 간주하고”완전한 넌센스”라고 일축한다.”그는 쓰기 계속:

통계의 기초(…)는”편리한”통계 모델을 임의로 선택할 수 없었습니다. 그러나 그것은 정확하게 대부분의 통계 학자들이 자랑스럽게 인용문을 언급하면서”모든 모델은 잘못되었지만 일부는 유용합니다.”이 때문에,그들은 유한 차원 매개 변수에 의해 인덱싱되는 너무 비현실적인 모델은 여전히 현상이다,모두가 동의하더라도 그들은 거짓으로 알려져 있습니다.

해결책으로 반 데르 란은 통계학자들에게 박스의 인용문 사용을 중단하고 데이터,통계 및 과학적 방법을 진지하게 받아들이겠다고 약속한다. 그는 통계 학자들에게 주어진 데이터 세트의 데이터가 어떻게 생성되는지 배우는 데 시간을 할애하고보다 전통적인 파라 메트릭 모델에 비해 기계 학습 및 데이터 적응 추정 기술을 사용하여 현실적인 통계 모델을 개발할 것을 약속합니다.

이 문서는 통계 마이클 라빈과 크리스토퍼 통의 응답뿐만 아니라,원저자의 응답에 대한 응답이있다. 두 반박 통계학자는 모델이 잘못된 것으로 알려져 있지만 유용하기 때문에 종종 사용되는 예를 지적하고 주어진 문제에 적합합니다. 그들의 예는 광학의 분야에서 발견 된 빛의 세 가지 모델을 포함(기하학적 광학,물리적 광학,양자 광학;세 가지 모델은 빛을 다르게 표현,어떤 의미에서”잘못”,그리고 오늘날에도 여전히 사용된다),그리고(거의)하버드 숲에서 수집 된 데이터에서 발견 탄소 플럭스의 로그와 토양 온도 사이의 선형 관계.

차례로,반 데르 란은 이러한 예와 그의 기사에 대한 다른 비판,특히”진정한”모델을 찾는 그의 개념에 응답합니다. 당신이 관심이 있다면 응답 편지는 읽기 확실히 가치가있다. 이 통계 및 데이터 과학 분야에서 논쟁의 활성 영역을 나타냅니다.

그러나 일부 모델은 유용

모델의 한계에도 불구하고 많은 모델이 매우 유용 할 수 있습니다. 단순화되기 때문에 모델은 종종 시스템의 특정 구성 요소 또는 패싯을 이해하는 데 도움이됩니다.

데이터 과학의 맥락에서 기계 학습 및 통계 모델은 알려지지 않은 값을 추정(예측)하는 데 유용 할 수 있습니다. 많은 상황에서 모델의 가정이 유지된다면 강력한 통계 모델이 제공하는 불확실한 추정치는 여전히 결정을 내리는 데 매우 도움이 될 수 있습니다.

조지 박스의 지혜의 두 번째,덜 인용 절반은 이것이다:

“실용적인 질문은 잘못(모델)이 유용하지 않아야하는 방법입니다.”-조지 박스

선형 회귀 예제를 다시 살펴 보겠습니다.:

대부분 나는이 이미지에 너무 많은 시간을 할애하여 한 번만 사용했습니다.

이제 다른 데이터 세트에 맞는 또 다른 이론적 선형 회귀 모델을 살펴 보겠습니다.

거리에 아무 마음을 지불…이 잘 될 수 없습니다 기다립니다.

두 그림 모두 오류를 보여 주지만 한 데이터 세트는 명확한 선형 관계를 보여 주며 다른 데이터 세트는 로지스틱 관계입니다. 두 모델 모두”잘못된”모델이지만 변수 간의 실제 관계를 명확하게 포착하는 반면 다른 모델은 그렇지 않아 하나를 유용하고 쓸모 없게 만듭니다. 데이터에 선형 관계가 있는 경우 노이즈로 거리를 파란색으로 삭제하는 것이 합리적이지만,이 가정은 관계가 선택한 모델과 다른 기능적 모양을 갖는 경우에 해당됩니다.

좋은 모델 만들기

모델이 잘못되었거나 모델이 나타내는 범위에 제한적이라는 사실은 모델을 사용하는 많은 사람들에게 분명해 보일 수 있지만 불행히도 많은 사람들이 그것을 깨닫지 못하거나 그것에 대해 많이 생각합니다. 그래서 나는 모델을 개발할 때 조지 박스의 말을 염두에 두는 것이 중요하다고 생각합니다. 그것은 나쁜 모델을 구축하는 변명으로 사용되어서는 안된다.

더 읽기를 위해,스틸은 훌륭한 클래스 노트를 가지고:모델이 의미가 있습니까? 그리고 모델이 의미가 있습니까? 제 2 부:자족을 이용. 또 다른 훌륭한 자원은’모든 모델이 잘못되었습니다…’라는 논문입니다:흐로 닝언에서 2011 년에 개최 된 모델 선택 워크샵에서 모델 불확실성에 대한 소개.

또 다른 흥미로운 읽기는 과학 및 통계 모델에서 더 엄격한 투명성을 요구하는 박스의 말을 요구하는 과학 기술 문제에서 모든 모델이 잘못되었을 때입니다.

이 모든 것에서 벗어나야 할 중요한 것은 모델에서 캡처되는 데이터의 측면과 그렇지 않은 측면을 이해하는 것입니다. 너의 가정 및 출발점을 검사하는것은 긴요하다. 통계 학자 또는 데이터 과학자로서 엄격한 모델을 생산하고 한계를 아는 것은 귀하의 책임입니다. 항상 당신의 불확실성뿐만 아니라 모델의 범위를보고. 이를 염두에두고,당신은 아마도 잘못되었지만 확실히 유용 할 수있는 모델을 만들 수있을 것입니다.

원본. 허가 재 게시.

바이오: 교육 지리학자와 마음에 데이터 괴짜,시드니 강하게 그들이 명확하게 전달하고 이해 될 수있을 때 데이터와 지식이 가장 가치가 있다고 생각합니다. 데이터 과학 콘텐츠 엔지니어로서 현재의 역할에서,그녀는 자신이 가장 좋아하는 일을 그녀의 일을 보내고 가져옵니다;알터릭스 지역 사회에 대한 참여,창의적이고 재미있는 콘텐츠로 기술 지식과 연구를 변환.

관련:

  • 데이터 과학 학습에 대한 3 가지 가장 큰 실수
  • 빅 데이터의 3 가지 큰 문제 및 해결 방법
  • 모델 후보 중에서 선택