Identifikaci Příčina A Účinek S Kauzální Uvažování

QuantumBlack, McKinsey company

Následovat

Feb 11, 2020 · 7 min číst

Ben Horsburgh — Jr Hlavní ML Inženýr, QuantumBlack

V prosinci, QuantumBlack tým byli dost štěstí, aby se zúčastnili NeurIPS 2019 ve Vancouveru, kde jsme pořádali mezinárodní workshop zkoumá, jak nasadit kauzální inference a posílení učení generovat modely, které zvažují příčinu a následek.

tato relace se ukázala jako velmi populární, a tak jsme chtěli sdílet klíčové prvky s těmi, kteří se nemohli zúčastnit. Přes další dvě Střední články budeme zkoumat, jak jsou data vědců může využít Kauzální Uvažování a Posílení Učení stavět modely, které respektují příčiny a následku.

kauzální slepá skvrna

pokročilá analytika se často používá k rozhodnutí, kde provést zásah, aby ovlivnil cíl. Nicméně, mnoho tradičních ML metodik, z lineární regrese pro hluboké učení, nepovažuji kauzality a místo toho pouze model korelace mezi datapoints. Mohou zjistit, že existuje vztah mezi proměnnými, aniž by definovali, co je tento vztah nebo jak se navzájem ovlivňují.

To může mít drastické dopady na modelu navrhl intervence, ředění účinnost intervencí nebo dokonce výrobu úplně irelevantní doporučení. Například, non-kauzální model, jehož cílem je zmírnit sucho může uvědomit, že existuje vztah mezi rostoucí sucho a rostoucí prodej zmrzliny, ale může spuriously závěru, že zákaz zmrzliny by zmírnit sucho.

v kauzálním modelování se ML používá k vytvoření počáteční struktury, vizualizované jako grafická síť, která zdůrazňuje vnímaný vztah mezi znaky. To je pak přezkoumána domény odborníků, kteří mohou aktualizovat strukturu zdůraznit, jak každý prvek ovlivňuje ostatní — v našem příkladu, zavlažovací expert chtěl bych zdůraznit, že dostupné pitné vody by bylo mnohem přesnější ovladač ke zmírnění sucha, než zákaz zmrzliny.

tento proces je známý jako kauzální uvažování a tento článek pokryje každou ze tří fází potřebných k jeho nasazení.

Fáze 1: učení struktury

kauzální modely musí být informovány o kauzální struktuře mezi znaky. V ideálním světě domény expert by vstup této struktury, ale to je často nereálné — model s jen 50 proměnných by vyžadovalo jen pod 2,500 příčina-efekt vztahy, které je třeba zvážit a vysvětlit.

kromě toho řetězce příčin a následků činí již časově náročný proces ještě složitějším-změny jedné funkce mohou ovlivnit druhou, což zase ovlivňuje druhou. Tyto řetězy je snadné přehlédnout při stavbě konstrukcí ručně, a ještě snazší je mylně vytvořit cyklické řetězce kuřecích vajec, které je pak obtížné opravit.

nedávné pokroky, zejména zveřejnění dag bez slz na NeurIPS 2018, zlepšily účinnost a přesnost algoritmů učení struktury, které tyto sítě budují. Zjednodušili proces a vyhnuli se paradoxním strukturám kuřat a vajec. Důležité je, že nepotvrzují kauzalitu-odhadují ji — Pracuje s non-experimentální data, iterativní, procesu spolupráce je nutné ověřit předpovědi a domény odborníci musí zkontrolovat a ověřit strukturu příčinné souvislosti, porovnává vztahy proti respektovaného odvětví-konkrétní publikace, průzkumy a širší odborné stanovisko. Je to rozšíření dat a metody se vstupem od odborníků na domény, které nám umožňují učinit krok směrem k kauzální interpretaci.

Tento proces pomáhá informovat postřehy — způsobit účinky, které datové vědci mohou najít překvapivé jsou často dobře chápou odborníci, a to i těch, které překvapení odborníků jsou někdy tak zřejmé, jiní ve svém oboru a mohou být ověřeny prostřednictvím vyhledávání pro širší materiály.

strukturovaný datový typ bude obsahovat uzly (proměnné, které obsahují informace) a hrany (režie spojení mezi uzly, které mohou také držet informace). Většina algoritmů pro učení struktury výstupních hran váhy, které jsou užitečné pro přímé rozhovory mezi vědci a odborníky na data. Prezentace hrany od nejvyšší k nejnižší hmotnosti pomáhá údajů vědci řídit i efektivnější proces přezkumu, ale měli bychom být opatrní, aby připojit příliš mnoho výklad, aby závaží — oni jsou obvykle ne pravděpodobnosti či hodnoty, které jsou interpretovatelné lidmi. Kromě toho mohou být někdy důležité i hrany s nízkou hmotností, ale statistické testování je obtížné.

jakmile zjistíme, jaké jsou příčiny, můžeme postupovat k učení, jak se chovají.

fáze 2: Pravděpodobnost Učení

Struktura učení může určit, že cena kávy je určitým způsobem ovlivněni hustotou obyvatelstva, ale nebude konkrétně určit, jak — je schopen uvést, zda rostoucí počet obyvatel zvyšuje nebo snižuje cena, nebo zda je více složité vztahy.

pravděpodobnostní učení odhaduje, kolik každá příčina pohání každý efekt tím, že se naučí základní podmíněné pravděpodobnostní distribuce (CPD). Každá CPD popisuje pravděpodobnost příčiny vzhledem ke stavu jejích účinků.

zjistili jsme, že diskrétní CPD jsou praktičtější než kontinuální CPD. Spojité distribuce jsou často omezeny na Gaussovské distribuce, a proto se snaží popsat mnoho vztahů. Diskrétní CPD mohou popisovat jakýkoli tvar distribuce, i když s menší přesností, a jsou široce podporovány mnoha knihovnami.

k výběru můžeme využít odborníky na domény. Vědci v oblasti dat a odborníci na domény by se měli na začátku dohodnout na strategii diskreditace dat. S přihlédnutím k cílům projektu byste měli definovat, jaká diskrétnost je vyžadována. Například, pokud váš projekt vyžaduje srovnání, které mají být provedeny pak percentil diskretisation by pravděpodobně vyhovovat.

jak již bylo řečeno, buďte opatrní, abyste se vyhnuli nadměrné diskretizaci CPD, protože je třeba popsat všechny odhady pravděpodobnosti a rychle se hromadit. Pro binární efekt se třemi binárními příčinami by CPD muselo odhadnout 16 možných eventualit. Pro efekt s 10 stavy a třemi příčinami, každý s vlastními 10 stavy, musí být odhadnuto 10 000 možných událostí. U malých datových souborů s menším počtem vzorků než možností, většina eventualit nebude nikdy pozorována, a ty, které jsou, nebudou dobře zastoupeny. Ale i s velkými datovými soubory, nadměrná diskretizace bude znamenat, že CPD budou zahrnovat mnoho vysoce nepravděpodobných událostí. Tím se zředí výkon modelu a prodlouží se doba výpočtu.

naučené pravděpodobnosti by měly být hodnoceny jak datovými vědci, tak odborníky na domény. Pro datové vědce, léčit to jako standardní klasifikace problému — naučit model pravděpodobnosti pomocí trénovací množiny, a pak zhodnotit, jak přesné pravděpodobnostní předpovědi jsou pro daný uzel pomocí testovací sady.

mezitím mohou odborníci domény číst tabulky CPD a hodnoty sense-check. To je často místo, kde lze eliminovat nepravděpodobnější pravděpodobnosti.

fáze 3: Inference

nyní chápeme strukturu vztahů mezi příčinami a následky našeho datového souboru a chování vztahů. To nám umožňuje vyvozovat závěry-v podstatě testovat akce a teorie k měření odezvy.

Inference lze rozdělit na pozorovací a intervenční. V observační závěr, můžeme pozorovat stav nějaké proměnné(y) a pak dotaz, jak změna tohoto nastavení bude mít vliv na pravděpodobnost, jiného státu nějaké jiné proměnné. Dotazování na pravděpodobnost jiných proměnných se provádí přehráním všech vztahů příčin a následků, matematicky dosažených marginalizací pravděpodobností nad CPD. Příkladem toho by bylo pozorovat kavárnu v centru města a dospět k závěru, že pravděpodobně vznikne drahý komerční nájem — a že následně, cena kávy bude pravděpodobně vysoká.

v intervenčním závěru můžeme zasáhnout do stavu libovolné proměnné(proměnných), změnit pravděpodobnost jejích stavů na cokoli, co si vybereme, a účinně se ptát “ co když X bylo jiné?“Například bychom mohli předpokládat, že zaměstnanci pracují čtyřdenní týden místo pěti a pak sledovat, jaký to má vliv na produktivitu.

rozhodování o tom, kde je nejvhodnější zasáhnout, lze dosáhnout analýzou citlivosti. Pokaždé, když provedeme pozorování, můžeme vidět, jak to ovlivňuje stav cíle, který chceme změnit. Kdybychom udělali tisíce samostatných, jemných pozorování napříč všemi proměnnými, mohli bychom odhadnout, na které proměnné je náš cíl nejcitlivější. To je základ analýzy citlivosti, i když existují účinnější prostředky k jeho dosažení.

analýza citlivosti je obzvláště mocný nástroj, protože nám pomáhá pochopit, kam zaměřit úsilí. Není vždy možné zasahovat do citlivých příčin — například nemá smysl měnit adresu zákazníka, protože neexistuje způsob, jak by to náš případný model kontroloval. Tyto citlivější příčiny však mohou hrát roli při určování podmíněných intervencí.

ML vývoj může mít pomohl zefektivnit strukturu tvorby, ale spolupráce, hybridní proces učení mezi lidmi — specificky údaje vědců a odborníků — je stále zásadní význam při dosažení nad korelace pro identifikaci příčinných souvislostí.

problémy zůstávají s kauzálním uvažováním a může být časově náročné a obtížné dokončit celý projekt kvůli vysokému počtu samostatných softwarových knihoven požadovaných během testovací fáze. Zůstává však účinnou technikou při vytváření kauzálních modelů-na podporu toho QuantumBlack nedávno vydal naši nejnovější nabídku s otevřeným zdrojovým kódem CausalNex. Tento software knihovna poskytuje mnohem efektivnější proces a pomůže modely se zabránilo falešné závěry a v konečném důsledku produkovat více inteligentní a působivých analytics zásahy.

kauzalita se stále více dostává pod mikroskop a je to téma, které jsme odhodláni v budoucnu dále zkoumat, a to jak s kauzálním, tak širším výzkumem. Například, v červnu představíme dokument na AISTATS, který upravuje žádné slzy, aby se kromě intra-časových vztahů naučil strukturu proměnných v čase. Mezitím Zůstaňte informováni o nadcházejícím vývoji CausalNex.