식별하는 원인 및 효과 인과론
벤 Horsburgh—Jr 주 ML 엔지니어,QuantumBlack
서 QuantumBlack 팀 할만큼 충분히 행운이었 참석 NeurIPS2019 년 밴쿠버에서,우리가 호스팅 엑스포 작업장을 어떻게 배포하는 인과 원인과 결과를 고려한 모델을 생성하는 추론 및 강화 학습.
이 세션은 매우 인기가 입증 그래서 우리는 참석 할 수없는 사람들과 핵심 요소를 공유하고 싶었다. 다음 두 개의 중간 기사를 통해 우리는 데이터 과학자가 원인과 결과를 존중하는 모델을 구축하기 위해 인과 적 추론과 강화 학습을 어떻게 활용할 수 있는지 모색 할 것입니다.
인과 사각 지대
고급 분석은 종종 대상에 영향을 미치기 위해 개입 할 위치를 결정하기 위해 배포됩니다. 그러나 선형 회귀 분석에서 딥 러닝에 이르기까지 많은 전통적인 기계 학습 방법론은 인과 관계를 고려하지 않고 대신 데이터 포인트 간의 상관 관계를 모델링합니다. 이 관계가 무엇인지 또는 서로 어떻게 영향을 미치는지 정의하지 않고 변수 사이에 관계가 있음을 식별 할 수 있습니다.
이것은 모델의 제안 된 개입에 과감한 영향을 미쳐 개입의 효과를 희석 시키거나 전혀 관련이없는 권장 사항을 생성 할 수 있습니다. 예를 들어,가뭄을 완화하는 것을 목표로하는 비 인과 적 모델은 가뭄 증가와 아이스크림 판매 증가 사이에 관계가 있음을 인식 할 수 있지만 아이스크림을 금지하면 가뭄이 완화 될 것이라고 가짜로 결론 지을 수 있습니다.
인과적 모델링에서,밀리리터는 그래픽 네트워크로 시각화된 초기 구조를 만드는 데 사용되며,이는 피쳐 간의 인지된 관계를 강조한다. 이 후 각 기능이 다른 영향을 미치는 방법을 강조하기 위해 구조를 업데이트 할 수 있습니다 도메인 전문가에 의해 검토-우리의 예에서,관개 전문가는 접근 물 마시는 아이스크림을 금지하는 것보다 가뭄을 완화하는 훨씬 더 정확한 드라이버가 될 것이라고 강조 할 것입니다.
이 과정은 인과 추론으로 알려져 있으며,이 문서에서는 배포하는 데 필요한 세 단계의 각을 다룰 것입니다.
1 단계:구조 학습
인과 적 모델은 특징 간의 인과 적 구조에 대해 통보 받아야합니다. 이상적인 세계에서 도메인 전문가가이 구조를 입력 할 것이지만,이것은 종종 실행할 수 없습니다—단지 50 개의 변수를 가진 모델은 2,500 개의 원인-결과 관계를 고려하고 설명해야합니다.
또한,원인과 결과 체인은 이미 시간이 많이 걸리는 프로세스를 더욱 복잡하게 만듭니다. 그것은 손으로 구조를 구축 할 때 이러한 체인을 간과하기 쉽고,실수로 다음 해결하기 어려운 순환,닭 계란 체인을 만들 수도 쉽다.
최근의 발전,특히 뉴립스 2018 에서 눈물을 흘리지 않는 다그의 출판은 이러한 네트워크를 구축하는 구조 학습 알고리즘의 효율성과 정확성을 향상 시켰습니다. 그들은 과정을 간소화하고 닭-계란 역설 구조를 피합니다. 중요한 것은,그들은 인과 관계를 확인하지 않습니다-그들은 그것을 추정합니다. 비 실험 데이터 작업,반복,협업 프로세스 예측을 확인 하는 데 필요한 및 도메인 전문가 검토 하 고 존경 받는 분야별 출판물,설문 조사 및 넓은 전문가 의견에 대 한 상호 참조 관계 구조의 인과 관계를 확인 하는 데 필요한. 그것은 우리가 인과 해석을 향한 조치를 취할 수 있도록 도메인 전문가의 입력 데이터 및 방법의 증가이다.
이 과정은 데이터 과학자가 놀라울 수 있는 통찰력—원인-효과를 전문가들에 의해 잘 이해되는 경우가 많으며,심지어 전문가들을 놀라게하는 사람들도 자신의 분야에서 다른 사람들에 의해 잘 이해되고 더 넓은 자료를 검색함으로써 검증 될 수 있음을 알리는 데 도움이됩니다.
구조화 된 데이터 유형에는 노드(정보를 보유하는 변수)와 가장자리(정보를 보유 할 수있는 노드 간의 방향 연결)가 포함됩니다. 대부분의 구조 학습 알고리즘은 데이터 과학자와 전문가 간의 직접 대화에 유용한 에지 가중치를 출력합니다. 가장 높은 가중치에서 가장 낮은 가중치로 가장자리를 제시하면 데이터 과학자들이 훨씬 더 효율적인 검토 프로세스를 수행하는 데 도움이되지만 가중치에 너무 많은 해석을 첨부하지 않도록주의해야합니다. 또한,심지어 낮은 무게 가장자리는 때때로 중요 할 수 있지만 통계 테스트는 어렵다.
일단 우리가 원인이 무엇인지 확인하면,우리는 그들이 어떻게 행동 하는지를 배울 수 있습니다.
단계 2: 확률 학습
구조 학습은 커피 가격이 인구 밀도에 의해 어떤 식 으로든 영향을 받는다는 것을 식별 할 수 있지만,인구 증가가 가격을 증가 시키거나 감소 시키는지,또는 더 복잡한 관계가 있는지 여부를 나타낼 수는 없습니다.
확률 학습은 기본 조건부 확률 분포를 학습하여 각 원인이 각 효과를 얼마나 유도하는지 추정합니다. 각 당피질환은 그 효과의 상태를 고려할 때 원인의 가능성을 설명합니다.
우리는 이산형 당황이 연속형 당황 당황 당황 당황 당황 당황 당황이 더 실용적이라는 것을 발견했다. 연속 분포는 종종 가우스 분포로 제한되므로 많은 관계를 설명하는 데 어려움을 겪습니다. 이 프로그램은 자바 바이트코드 프로그램의 갯수를 카운트하고,스크립트의 메인 형식을 합계냅니다,그리고 확인되지 않은 실행 텍스트 파일을 찾습니다..
우리는 도메인 전문가를 활용하여 선택을 할 수 있습니다. 데이터 과학자와 도메인 전문가는 처음부터 데이터 이산화 전략에 동의해야 합니다. 프로젝트의 목표를 고려하여 필요한 이산화를 정의해야 합니다. 예를 들어,프로젝트를 비교해야 할 경우 백분위 수 이산화가 적합 할 수 있습니다.
즉,모든 확률 추정치가 설명 될 필요가 있고 신속하게 축적 될 수 있기 때문에,이산 당파에 대한 과도한 피하기 위해주의하십시오. 3 개의 이진 원인이 있는 이진 효과의 경우 16 개의 가능한 사태를 추정해야 합니다. 10 개 주와 세 가지 원인이 각각 고유 한 10 개 주를 가진 효과의 경우 10,000 개의 가능한 사태를 추정해야합니다. 가능성보다 적은 샘플을 가진 작은 데이터 세트의 경우 대부분의 사태는 관찰되지 않으며 잘 표현되지 않습니다. 그러나 대규모 데이터 세트를 사용하더라도 과도한 이산화는 매우 불가능한 많은 사태를 포함 할 것임을 의미합니다. 이 모델의 힘을 희석 및 계산 시간을 증가시킬 것이다.
학습된 확률은 데이터 과학자와 도메인 전문가 모두에 의해 평가되어야 한다. 데이터 과학자의 경우,이 문제를 표준 분류 문제로 취급하여 학습 세트를 사용하여 모델 확률을 학습 한 다음 테스트 세트를 사용하여 주어진 노드에 대한 정확한 확률 예측이 얼마나 정확한지 평가하십시오.
한편,도메인 전문가들은 당황한 표와 감지 검사 값을 읽을 수 있습니다. 이것은 종종 더 황당한 확률을 제거 할 수있는 곳입니다.
3 단계:추론
지금까지 우리는 데이터 세트의 원인-결과 관계 구조와 관계가 어떻게 행동하는지 이해합니다. 이를 통해 우리는 추론을 할 수 있습니다—본질적으로 반응을 측정하기위한 행동과 이론을 테스트합니다.
추론은 관찰과 중재로 나눌 수 있습니다. 관찰 추론에서 우리는 모든 변수의 상태를 관찰 한 다음이를 변경하면 다른 변수의 다른 상태의 가능성에 어떻게 영향을 미치는지 쿼리 할 수 있습니다. 다른 변수의 가능성을 쿼리하는 것은 모든 원인과 결과 관계를 재생하여 수행되며,수학적으로 확률을 소외시킴으로써 달성됩니다. 이것의 예는 시내 중심 커피 숍을 관찰하고 비싼 상업 임대료가 부과 될 가능성이 있다고 결론 짓는 것입니다.
중재적 추론에서,우리는 어떤 변수(들)의 상태에 개입할 수 있고,그 상태의 가능성을 우리가 선택한 대로 바꾸고,효과적으로’만약 무엇이 다른가?”예를 들어,우리는 5 일이 아닌 4 일 주일에 일하는 직원을 가정 한 다음 이것이 생산성에 미치는 영향을 관찰 할 수 있습니다.
민감도 분석을 통해 개입하는 것이 가장 적합한 곳을 결정할 수 있습니다. 우리가 관찰 할 때마다,우리는 이것이 우리가 변경하고자하는 대상의 상태에 어떤 영향을 미치는지 볼 수 있습니다. 우리가 모든 변수에 대해 수천 개의 별개의 미묘한 관측을한다면,우리의 목표가 가장 민감한 변수를 추정 할 수 있습니다. 이를 달성하기 위해보다 효율적인 수단이 있지만 이것은 민감도 분석의 기초입니다.
민감도 분석은 특히 노력을 집중시키는 위치를 이해하는 데 도움이되므로 강력한 도구입니다. 그것은 민감한 원인에 개입하는 것이 항상 가능한 것은 아니다-예를 들어,그것을 제어하는 우리의 최종 모델의 방법이 없기 때문에 고객의 주소를 변경에 아무 소용이 없다. 그러나 이러한 더 민감한 원인은 조건부 개입을 결정하는 데 중요한 역할을 할 수 있습니다.
기계 학습 개발은 구조 생성을 간소화하는 데 도움이 될 수 있지만 인간,특히 데이터 과학자와 도메인 전문가 간의 협력적이고 하이브리드 학습 과정은 인과 관계를 식별하기 위해 상관 관계를 넘어서 도달 할 때 여전히 근본적입니다.
과제는 인과 적 추론으로 남아 있으며 테스트 단계에서 필요한 별도의 소프트웨어 라이브러리가 많기 때문에 전체 프로젝트를 완료하는 데 시간이 많이 걸리고 어려울 수 있습니다. 그러나 인과 관계 모델을 구축 할 때 효과적인 기술로 남아 있습니다.이 기능을 지원하기 위해 퀀텀블랙은 최근 최신 오픈 소스 오퍼링을 출시했습니다. 이 소프트웨어 라이브러리는 훨씬 더 간소화 된 프로세스를 제공하고 모델이 가짜 결론을 피하고 궁극적으로보다 지능적이고 영향력있는 분석 개입을 생성하도록 도와줍니다.
인과관계는 점점 더 현미경으로 관찰되고 있으며,인과관계와 폭넓은 연구를 통해 우리가 앞으로 더 탐구하고자 하는 주제이다. 예를 들어,우리는 6 월에 아이 스타트에서 논문을 발표 할 예정이다.이 논문은 시간 내 관계뿐만 아니라 시간에 따른 변수의 구조를 배우기 위해 눈물을 수정하지 않는다. 그 동안에,곧 인과 관계 개발로 업데이트 유지 않습니다.