syyn ja seurauksen tunnistaminen Kausaalisella päättelyllä

QuantumBlack, a McKinsey company

Follow

helmi 11, 2020 * 7 min lukea

Ben Horsburgh-Jr Principal ML Engineer, QuantumBlack

joulukuussa QuantumBlack-tiimi oli onnekas voidessaan osallistua NeurIPS 2019-Tapahtumaan Vancouverissa, jossa järjestimme expo-työpajan, jossa tutkimme kausaalisuuden käyttöönottoa päättely ja vahvistaminen oppiminen luoda malleja, jotka harkitsevat syy ja seuraus.

tämä istunto osoittautui hyvin suosituksi, joten halusimme kertoa keskeisistä asioista niille, jotka eivät päässeet paikalle. Kahdessa seuraavassa Medium-artikkelissa tutkimme, miten datatutkijat voivat valjastaa sekä kausaalisen päättelyn että vahvistavan oppimisen rakentamaan malleja, jotka kunnioittavat syytä ja seurausta.

syy-Seuraussokea Piste

kehittynyt analytiikka käytetään usein päättämään, mihin interventio tehdään, jotta kohteeseen voidaan vaikuttaa. Monissa perinteisissä ML-menetelmissä lineaarisesta regressiosta syväoppimiseen ei kuitenkaan oteta huomioon kausaliteettia, vaan ainoastaan mallikorrelaatiota datapisteiden välillä. Ne voivat tunnistaa, että muuttujien välillä on suhde määrittelemättä, mikä tämä suhde on tai miten ne vaikuttavat toisiinsa.

tämä voi vaikuttaa rajusti mallin ehdottamiin interventioihin, heikentää interventioiden tehokkuutta tai tuottaa jopa täysin merkityksettömiä suosituksia. Esimerkiksi kuivuuden lieventämiseen tähtäävä ei-Kausaalinen malli saattaa tunnustaa, että kasvavan kuivuuden ja kasvavan jäätelömyynnin välillä on yhteys, mutta voi kärkkäästi päätellä, että jäätelön kieltäminen lieventäisi kuivuutta.

kausaalimallinnuksessa ML: ää käytetään luomaan alustava rakenne, joka visualisoidaan graafiseksi verkoksi, joka korostaa piirteiden välistä koettua suhdetta. Tämän jälkeen tarkistetaan verkkotunnuksen asiantuntijat, jotka voivat päivittää rakennetta korostaakseen, miten kukin ominaisuus vaikuttaa toiseen-esimerkissämme kasteluasiantuntija korostaisi, että saatavilla oleva juomavesi olisi paljon tarkempi ajuri kuivuuden lieventämiseen kuin jäätelön kieltäminen.

tätä prosessia kutsutaan Kausaaliseksi Päättelyksi, ja tämä artikkeli käsittelee jokaisen niistä kolmesta vaiheesta, jotka tarvitaan sen käyttöönottamiseksi.

Vaihe 1: Rakenneoppiminen

Kausaalimallit on informoitava ominaisuuksien välisestä syy-seurausrakenteesta. Ideaalimaailmassa toimialueen asiantuntija syöttäisi tämän rakenteen, mutta tämä on usein toteuttamiskelvotonta — malli, jossa on vain 50 muuttujaa, vaatisi hieman alle 2500 syy-seuraussuhdetta harkittavaksi ja selitettäväksi.

lisäksi syy-ja seurausketjut tekevät jo aikaa vaativasta prosessista entistä monimutkaisemman — yhden ominaisuuden muutokset voivat vaikuttaa toiseen, mikä puolestaan vaikuttaa toiseen. On helppo unohtaa nämä ketjut, kun rakentaa rakenteita käsin, ja vielä helpompi virheellisesti luoda syklisiä, kana-muna ketjuja, joita on sitten vaikea korjata.

viimeaikaiset edistysaskeleet, erityisesti dags with NO TEARS-julkaisun julkaiseminen NeurIPS 2018-tapahtumassa, ovat parantaneet näitä verkkoja rakentavien rakenneoppimisalgoritmien tehokkuutta ja tarkkuutta. Ne virtaviivaistivat prosessia ja välttävät kana-muna-paradoksirakenteita. Tärkeää on, että he eivät vahvista syy — yhteyttä-he arvioivat sen. Kun käytetään ei-kokeellista dataa, tarvitaan iteratiivinen, yhteistoiminnallinen prosessi ennusteiden todentamiseksi, ja toimialueen asiantuntijoita tarvitaan tarkastelemaan ja todentamaan rakenteen syy-yhteys, ristiviittaussuhteet arvostettuihin sektorikohtaisiin julkaisuihin, tutkimuksiin ja laajempiin asiantuntijalausuntoihin. Tiedon ja menetelmän lisääminen toimialueen asiantuntijoiden panoksella antaa meille mahdollisuuden ottaa askeleen kohti kausaalista tulkintaa.

tämä prosessi auttaa informoimaan oivalluksia — asiantuntijat ymmärtävät usein hyvin tiedemiesten yllättäviä syitä ja yllättäviäkin asiantuntijoita, ja muut heidän alallaan ymmärtävät ne joskus hyvin, ja ne voidaan todentaa laajempaa aineistoa tutkimalla.

jäsennelty datatyyppi sisältää solmut (muuttujat, jotka sisältävät tietoa) ja edget (suunnatut yhteydet solmujen välillä, jotka voivat myös sisältää tietoa). Useimmat rakenneoppimisalgoritmit tuottavat reunapainoja, jotka ovat hyödyllisiä datatieteilijöiden ja asiantuntijoiden välisten keskustelujen ohjaamisessa. Reunojen esittäminen korkeimmasta matalimpaan painoon auttaa datatutkijoita ajamaan vieläkin tehokkaampaa tarkasteluprosessia, mutta meidän on varottava liittämästä painoihin liikaa tulkintaa — ne eivät yleensä ole todennäköisyyksiä tai arvoja, joita ihmiset tulkitsevat. Lisäksi jopa kevyt reunat voivat joskus olla tärkeitä, mutta tilastollinen testaus on vaikeaa.

kun olemme tunnistaneet syyt, voimme edetä oppimaan, miten ne käyttäytyvät.

Vaihe 2: Todennäköisyysoppiminen

Rakenneoppiminen voi tunnistaa, että kahvin hintaan vaikuttaa jollain tavalla väestötiheys, mutta ei yksilöi tarkasti, miten — se ei pysty osoittamaan, nostaako vai laskeeko väestönkasvu hintaa, vai onko kyseessä monimutkaisempi suhde.

Todennäköisyysoppiminen arvioi, kuinka paljon kukin syy ajaa kutakin ilmiötä oppimalla taustalla olevat ehdolliset todennäköisyysjakaumat (Cpds). Jokainen CPD kuvaa syyn todennäköisyyttä, kun otetaan huomioon sen vaikutusten tila.

olemme havainneet, että diskreetti CPD on käytännöllisempi kuin jatkuva CPD. Jatkuvat jakaumat rajoittuvat usein Gaussin jakaumiin, joten ne kamppailevat monien suhteiden kuvaamisesta. Diskreetti CPD voi kuvata mitä tahansa jakelun muotoa, joskin vähemmän tarkasti, ja monet kirjastot tukevat sitä laajalti.

voimme hyödyntää verkkotunnuksen asiantuntijoita valinnan tekemisessä. Datatutkijoiden ja toimiala-asiantuntijoiden olisi sovittava tietojen diskriminointistrategiasta heti alussa. Hankkeen tavoitteet huomioiden kannattaa määritellä, mitä harkinnanvaraisuutta tarvitaan. Esimerkiksi, jos projekti vaatii vertailuja tehdään sitten prosentuaalinen diskriminointi todennäköisesti sopii.

tästä huolimatta on varottava, ettei CPD-arvoja arvosteta liikaa, sillä kaikki todennäköisyysarviot on kuvattava ja ne voivat kasautua nopeasti. Jos binaarivaikutuksella on kolme binaarista syytä, CPD: n on arvioitava 16 mahdollista tapahtumaa. Jotta vaikutus on 10 valtiota ja kolme syytä, joista jokaisella on oma 10 valtiota, on arvioitava 10 000 mahdollista tapahtumaa. Pienissä aineistoissa, joissa on vähemmän otoksia kuin mahdollisuuksia, useimpia tapauksia ei koskaan havaita, ja ne, jotka ovat, eivät ole hyvin edustettuina. Mutta vaikka suuret tietokokonaisuudet, liiallinen harkinnanvaraisuus tarkoittaa CPDs sisältää monia erittäin epätodennäköisiä tapahtumia. Tämä heikentää mallin tehoa ja lisää laskenta-aikaa.

opitut todennäköisyydet tulee arvioida sekä datatieteilijöiden että tieteenalojen asiantuntijoiden toimesta. Datatieteilijöille, käsitellä tätä standardiluokitus ongelma-oppia mallin todennäköisyydet käyttäen koulutus sarja, ja sitten arvioida, kuinka tarkkoja todennäköisyysennusteiden ovat tietyn solmun käyttäen testijoukko.

sillä välin verkkotunnusasiantuntijat voivat lukea CPD-taulukoita ja sense-check-arvoja. Tällöin voidaan usein eliminoida epätodennäköisemmät todennäköisyydet.

Vaihe 3: päättely

nyt ymmärrämme aineiston syy-seuraussuhderakenteen ja sen, miten suhteet käyttäytyvät. Näin voimme tehdä päätelmiä — lähinnä testata toimia ja teorioita mittaamaan vastetta.

päättely voidaan jakaa havainnointiin ja interventioon. Vuonna observational päättely, voimme tarkkailla tilaa minkä tahansa muuttujan (s) ja sitten kysyä, miten muuttuva tämä vaikuttaa todennäköisyys jonkin muun tilan minkä tahansa muun muuttujan. Muiden muuttujien todennäköisyyden arviointi tehdään pelaamalla kaikki syy-seuraussuhteet, mikä saavutetaan matemaattisesti marginalisoimalla todennäköisyydet CPDs: ään nähden. Yksi esimerkki tästä olisi havainnoida keskustan kahvilaa ja päätellä, että siitä tulee todennäköisesti kallis kaupallinen vuokra-ja että sen jälkeen kahvin hinta on todennäköisesti korkea.

interventionaalisessa päättelyssä voidaan puuttua minkä tahansa muuttujan(s) tilaan, muuttaa sen tilojen todennäköisyyttä mitä tahansa valitsemme ja kysyä tehokkaasti ” mitä jos X olisi erilainen?”Voisimme esimerkiksi olettaa, että työntekijät tekevät viiden sijaan nelipäiväistä työviikkoa, ja sitten tarkkailla, miten tämä vaikuttaa tuottavuuteen.

herkkyysanalyysin avulla voidaan päättää, missä on tarkoituksenmukaisinta puuttua asiaan. Joka kerta kun teemme havainnon, Näemme, miten tämä vaikuttaa siihen, missä tilassa kohde, jonka haluamme muuttaa, on. Jos tekisimme tuhansia erillisiä, hienovaraisia havaintoja kaikista muuttujista, voisimme arvioida, mille muuttujille kohteemme on herkin. Tämä on herkkyysanalyysin perusta, vaikka sen saavuttamiseksi on olemassa tehokkaampia keinoja.

herkkyysanalyysi on erityisen tehokas työkalu, koska se auttaa meitä ymmärtämään, mihin toimia kannattaa keskittää. Aina ei ole mahdollista puuttua arkaluonteisiin syihin — esimerkiksi asiakkaan osoitetta ei kannata muuttaa, koska meidän mahdollinen mallimme ei voi valvoa sitä. Näillä herkemmillä syillä voi kuitenkin olla merkitystä ehdollisten interventioiden määrittämisessä.

ML: n kehitys on ehkä auttanut virtaviivaistamaan rakenteiden luomista, mutta ihmisten — erityisesti datatutkijoiden ja toimiala — asiantuntijoiden-välinen yhteistyö, hybridioppimisprosessi on edelleen olennainen, kun päästään korrelaatiota pidemmälle syy-yhteyden tunnistamiseksi.

kausaalisessa päättelyssä on edelleen haasteita, ja koko projektin toteuttaminen voi olla aikaavievää ja vaikeaa, koska testausvaiheessa tarvitaan paljon erillisiä ohjelmakirjastoja. Se on kuitenkin edelleen tehokas tekniikka kausaalimalleja rakennettaessa-tämän tueksi QuantumBlack on äskettäin julkaissut uusimman avoimen lähdekoodin tarjontamme, Causalnexin. Tämä ohjelmistokirjasto tarjoaa paljon virtaviivaisemman prosessin ja auttaa malleja välttämään vääriä johtopäätöksiä ja lopulta tuottamaan älykkäämpiä ja vaikuttavampia analytiikkainterventioita.

syy-seuraussuhde joutuu yhä enemmän mikroskoopin alle, ja olemme sitoutuneet tutkimaan sitä tarkemmin tulevaisuudessa sekä Causalnexin että laajemman tutkimuksen avulla. Esittelemme esimerkiksi kesäkuussa AITATSISSA tutkielman, jossa muokataan NO TEARSIA oppiaksemme muuttujien rakennetta halki ajan aikasuhteiden lisäksi. Sillä välin, älä pysy ajan tasalla tulevista CausalNex kehitystä.