ok és okozat azonosítása ok-okozati érveléssel

QuantumBlack, egy McKinsey vállalat

követés

február 11, 2020 * 7 perc olvasás

Ben Horsburgh-Jr fő ML mérnök, QuantumBlack

decemberben a QuantumBlack csapat elég szerencsés volt ahhoz, hogy részt vegyen a NeurIPS 2019-ben Vancouverben, ahol egy expo workshopot szerveztünk, amely feltárta, hogyan kell telepíteni az ok-okozati következtetés és megerősítés tanulás olyan modellek létrehozására, amelyek figyelembe veszik az okot és az okozatot.

ez az ülés nagyon népszerűnek bizonyult, ezért meg akartuk osztani a kulcsfontosságú elemeket azokkal, akik nem tudtak részt venni. A következő két közepes cikkben megvizsgáljuk, hogy az adatkutatók hogyan tudják kihasználni mind az ok-okozati érvelést, mind a megerősítő tanulást olyan modellek felépítésére, amelyek tiszteletben tartják az okot és az okozatot.

az ok-okozati Vakfolt

a fejlett elemzéseket gyakran alkalmazzák annak eldöntésére, hogy hol kell beavatkozni a cél befolyásolása érdekében. Számos hagyományos ML módszertan azonban a lineáris regressziótól a mély tanulásig nem veszi figyelembe az ok-okozati összefüggést, ehelyett csak az adatpontok közötti korrelációt modellezi. Megállapíthatják, hogy kapcsolat van a változók között anélkül, hogy meghatároznák, mi ez a kapcsolat, vagy hogyan befolyásolják egymást.

ez drasztikus hatással lehet a modell javasolt beavatkozására, hígítva a beavatkozások hatékonyságát, vagy akár teljesen irreleváns ajánlásokat is előállíthat. Például egy nem ok-okozati modell, amelynek célja az aszály enyhítése, felismerheti, hogy kapcsolat van a növekvő aszály és a növekvő fagylalteladások között, de dühösen arra a következtetésre juthat, hogy a fagylalt betiltása enyhítené az aszályt.

az ok-okozati modellezésben az ML-t egy grafikus hálózatként megjelenített kezdeti struktúra létrehozására használják, amely kiemeli a jellemzők közötti észlelt kapcsolatot. Ezt azután a domain szakértői felülvizsgálják, akik frissíthetik a struktúrát, hogy kiemeljék, hogy az egyes funkciók hogyan befolyásolják a másikat — példánkban, egy öntözési szakértő kiemeli, hogy a hozzáférhető ivóvíz sokkal pontosabb vezető lenne az aszály enyhítésében, mint a fagylalt betiltása.

ez a folyamat oksági érvelés néven ismert, és ez a cikk a telepítéshez szükséges három fázis mindegyikét lefedi.

1.fázis: struktúra tanulás

az oksági modelleket tájékoztatni kell a jellemzők közötti oksági struktúráról. Egy ideális világban egy domain szakértő bevinné ezt a struktúrát, de ez gyakran megvalósíthatatlan — egy mindössze 50 változóval rendelkező modellhez kevesebb mint 2500 ok-okozati összefüggést kellene figyelembe venni és megmagyarázni.

sőt, az ok-okozati láncok még bonyolultabbá teszik az amúgy is időigényes folyamatot — az egyik tulajdonság megváltoztatása hatással lehet a másikra, ami viszont befolyásolja a másikat. Könnyű figyelmen kívül hagyni ezeket a láncokat, amikor kézzel építik a szerkezeteket, és még könnyebb tévesen ciklikus, csirke-tojás láncokat létrehozni, amelyeket aztán nehéz megjavítani.

a legújabb fejlesztések, különösen a Dag-k könny nélküli közzététele a NeurIPS 2018-ban, javították az ezeket a hálózatokat felépítő struktúratanulási algoritmusok hatékonyságát és pontosságát. Egyszerűsítették a folyamatot, és elkerülték a csirke-tojás paradoxon struktúrákat. Fontos, hogy nem erősítik meg az ok-okozati összefüggést-becsülik. A nem kísérleti adatokkal végzett munka során iteratív, együttműködési folyamatra van szükség az előrejelzések ellenőrzéséhez, és a tartomány szakértőinek felül kell vizsgálniuk és ellenőrizniük kell a szerkezet ok-okozati összefüggéseit, kereszthivatkozásokat kell összevetni a tiszteletben tartott ágazatspecifikus publikációkkal, felmérésekkel és szélesebb körű szakértői véleményekkel. Ez az adatok és a módszer bővítése a domain szakértők bemenetével lehetővé teszi számunkra, hogy lépést tegyünk az ok-okozati értelmezés felé.

ez a folyamat segít tájékozódni a betekintésről — az OK-hatásokat, amelyeket a tudósok meglepőnek találhatnak, a szakértők gyakran jól értik, és még azokat is, amelyek meglepik a szakértőket, néha jól értik mások a saját területükön, és szélesebb anyagok keresésével ellenőrizhetők.

a strukturált adattípus csomópontokat (információt tároló változókat) és éleket (információt is tároló csomópontok közötti irányított kapcsolatokat) tartalmaz. A legtöbb szerkezeti tanulási algoritmus élsúlyokat ad ki, amelyek hasznosak az adattudósok és a szakértők közötti beszélgetések irányításához. Az élek bemutatása a legmagasabbtól a legalacsonyabb súlyig segít az adatkutatóknak egy még hatékonyabb felülvizsgálati folyamat vezetésében, de vigyáznunk kell arra, hogy ne tulajdonítsunk túl sok értelmezést a súlyoknak — ezek általában nem valószínűségek vagy értékek, amelyeket az emberek értelmezhetnek. Sőt, néha még az alacsony súlyú élek is fontosak lehetnek, de a statisztikai tesztelés nehéz.

miután azonosítottuk az okokat, továbbhaladhatunk a viselkedésük megtanulásához.

2. fázis: Valószínűségi tanulás

a strukturált tanulás azonosíthatja, hogy a kávé árát valamilyen módon befolyásolja a népsűrűség, de nem fogja konkrétan meghatározni, hogyan — nem tudja jelezni, hogy a növekvő népesség növeli vagy csökkenti-e az árat, vagy hogy van-e összetettebb kapcsolat a játékban.

a valószínűségi tanulás becslése szerint az egyes okok mennyire vezetik az egyes hatásokat az alapul szolgáló feltételes valószínűségi eloszlások (CPD) megtanulásával. Minden CPD leírja az OK valószínűségét, figyelembe véve annak hatásait.

megállapítottuk, hogy a diszkrét CPD-k praktikusabbak, mint a folyamatos CPD-k. A folyamatos eloszlások gyakran a Gauss-eloszlásokra korlátozódnak, ezért sok kapcsolat leírásával küzdenek. A diszkrét CPD-K bármilyen eloszlási formát leírhatnak, bár kisebb pontossággal, és sok könyvtár széles körben támogatja őket.

felhasználhatjuk a domain szakértőket a választáshoz. Az adatkutatóknak és a domain szakértőknek már az elején meg kell állapodniuk az adatok diszkretizálási stratégiájáról. Figyelembe véve a projekt céljait, meg kell határoznia, hogy milyen diszkretizálásra van szükség. Például, ha a projekt összehasonlításokat igényel, akkor a százalékos diszkretizálás valószínűleg megfelel.

ennek ellenére legyen óvatos, hogy elkerülje a CPD-k túlzott diszkrecionizálását, mivel minden valószínűségi becslést le kell írni, és gyorsan felhalmozódhatnak. Három bináris okú bináris hatás esetén a CPD-nek 16 lehetséges eshetőséget kell becsülnie. Egy 10 állapotú és három okú hatás esetében, mindegyiknek megvan a maga 10 állapota, 10 000 lehetséges eshetőséget kell megbecsülni. A lehetőségeknél kevesebb mintával rendelkező kis adatkészletek esetében a legtöbb eshetőséget soha nem fogják megfigyelni, és azok, amelyek vannak, nem lesznek jól ábrázolva. De még nagy adatkészletek esetén is, a túlzott diszkretizálás azt jelenti, hogy a CPD-k számos nagyon valószínűtlen eshetőséget tartalmaznak. Ez hígítja a modell teljesítményét és növeli a számítási időt.

a tanult valószínűségeket mind az adattudósnak, mind a domain szakértőknek értékelniük kell. Adattudósok számára, kezelje ezt standard osztályozási problémaként-tanulja meg a modell valószínűségeit egy edzőkészlet segítségével, majd értékelje, hogy a tesztkészlet segítségével mennyire pontosak a valószínűségi előrejelzések egy adott csomópontra.

eközben a tartomány szakértői elolvashatják a CPD táblákat és a sense-check értékeket. Gyakran ez az, ahol a valószínűtlenebb valószínűségek kiküszöbölhetők.

3.fázis: következtetés

mostanra megértettük az adatkészletünk ok-okozati összefüggéseinek szerkezetét és a kapcsolatok viselkedését. Ez lehetővé teszi számunkra, hogy következtetéseket vonjunk le — lényegében a cselekvések és elméletek tesztelését a válasz felmérésére.

a következtetés felosztható megfigyelési és intervenciós szakaszokra. Megfigyelési következtetésben megfigyelhetjük bármely változó(ok) állapotát, majd megkérdezhetjük, hogy ennek megváltoztatása hogyan befolyásolja bármely más változó bármely más állapotának valószínűségét. Más változók valószínűségének lekérdezése az összes ok-okozati összefüggés kijátszásával történik, matematikailag a valószínűségek marginalizálásával érhető el a CPD-k felett. Erre példa lehet egy belvárosi kávézó megfigyelése, és arra a következtetésre jutni, hogy valószínűleg drága kereskedelmi bérleti díjat fog fizetni — és ezt követően egy kávé ára valószínűleg magas lesz.

az intervenciós következtetésben beavatkozhatunk bármely változó(ok) állapotába, megváltoztatva állapotainak valószínűségét bármire, amit választunk, és hatékonyan megkérdezzük: mi lenne, ha X más lenne? Például feltételezhetjük, hogy az alkalmazottak öt helyett négy napot dolgoznak, majd megfigyelhetjük, hogy ez milyen hatással van a termelékenységre.

érzékenységi elemzéssel lehet eldönteni, hogy hol a legmegfelelőbb a beavatkozás. Minden alkalommal, amikor megfigyeljük, láthatjuk, hogy ez hogyan befolyásolja a megváltoztatni kívánt cél állapotát. Ha több ezer különálló, finom megfigyelést végeznénk az összes változón, meg tudnánk becsülni, mely változókra a legérzékenyebb a célpontunk. Ez az érzékenységi elemzés alapja, bár hatékonyabb eszközök vannak ennek elérésére.

az Érzékenységelemzés különösen hatékony eszköz, mivel segít megérteni, hogy hova kell összpontosítani az erőfeszítéseket. Érzékeny okok miatt nem mindig lehet beavatkozni — például nincs értelme megváltoztatni az ügyfél címét, mivel nincs mód arra, hogy az esetleges modellünk ezt ellenőrizze. Ezek az érzékenyebb okok azonban szerepet játszhatnak a feltételes beavatkozások meghatározásában.

az ML fejlesztései elősegíthették a struktúra létrehozásának egyszerűsítését, de az emberek — különösen az adattudósok és a domain szakértők — közötti együttműködési, hibrid tanulási folyamat továbbra is alapvető fontosságú, ha túlmutatnak a korreláción az ok-okozati összefüggések azonosítása érdekében.

a kihívások továbbra is ok-okozati érveléssel járnak, és időigényes és nehéz lehet egy teljes projekt befejezése a tesztelési szakaszban szükséges különálló szoftverkönyvtárak nagy száma miatt. Az oksági modellek felépítésekor azonban továbbra is hatékony technika marad-ennek alátámasztására a QuantumBlack nemrégiben kiadta legújabb nyílt forráskódú kínálatunkat, a CausalNex-et. Ez a Szoftverkönyvtár sokkal egyszerűbb folyamatot biztosít, és segít a modelleknek elkerülni a hamis következtetéseket, és végül intelligensebb és hatásosabb elemzési beavatkozásokat eredményez.

az ok-okozati összefüggés egyre inkább a mikroszkóp alá kerül, és ez egy olyan téma, amelyet elkötelezettek vagyunk a jövőben, mind a CausalNex, mind a szélesebb körű kutatások terén. Például, júniusban bemutatunk egy cikket az AISTATS-on, amely nem módosítja a könnyeket, hogy megtanulja a változók időbeli szerkezetét az időbeli kapcsolatok mellett. Eközben, ne maradjon naprakész a közelgő CausalNex fejlesztések.