identyfikacja przyczyny i skutku z rozumowaniem przyczynowo-skutkowym
Ben Horsburgh-Jr Principal ML Engineer, QuantumBlack
w grudniu zespół QuantumBlack miał szczęście wziąć udział w NeurIPS 2019 w Vancouver, gdzie zorganizowaliśmy warsztaty expo, w których zbadaliśmy, jak wdrożyć przyczynę wnioskowanie i wzmacnianie uczenie się generowania modeli uwzględniających przyczynę i skutek.
ta sesja okazała się bardzo popularna, dlatego chcieliśmy podzielić się kluczowymi elementami z tymi, którzy nie byli w stanie uczestniczyć. W kolejnych dwóch średnich artykułach zbadamy, w jaki sposób naukowcy zajmujący się danymi mogą wykorzystać zarówno rozumowanie Przyczynowe, jak i uczenie się wzmacniające do budowania modeli, które szanują przyczynę i skutek.
przyczynowy ślepy Punkt
zaawansowana analiza jest często wdrażana w celu podjęcia decyzji, gdzie należy dokonać interwencji, aby wpłynąć na cel. Jednak wiele tradycyjnych metodologii ML, od regresji liniowej do głębokiego uczenia się, nie bierze pod uwagę przyczynowości, a zamiast tego modeluje tylko korelację między punktami danych. Mogą zidentyfikować, że istnieje związek między zmiennymi, bez określania, czym jest ten związek lub w jaki sposób wpływają na siebie nawzajem.
może to mieć drastyczny wpływ na sugerowaną interwencję modelu, osłabiając skuteczność interwencji lub nawet tworząc całkowicie nieistotne zalecenia. Na przykład model bez przyczynowy mający na celu złagodzenie suszy może uznać, że istnieje związek między rosnącą suszą a rosnącą sprzedażą lodów, ale może zawzięcie stwierdzić, że zakaz stosowania lodów łagodzi suszę.
w modelowaniu przyczynowym ML jest używany do tworzenia początkowej struktury, wizualizowanej jako sieć graficzna, która podkreśla postrzeganą zależność między cechami. Jest to następnie sprawdzane przez ekspertów ds. domen, którzy mogą zaktualizować strukturę, aby podkreślić, w jaki sposób każda funkcja wpływa na drugą — w naszym przykładzie ekspert ds. nawadniania podkreśliłby, że dostępna woda pitna byłaby o wiele dokładniejszym czynnikiem łagodzącym suszę niż zakazywanie lodów.
ten proces jest znany jako rozumowanie przyczynowe i ten artykuł obejmie każdą z trzech faz wymaganych do jego wdrożenia.
Faza 1: Uczenie Się struktury
modele Przyczynowe muszą być informowane o strukturze przyczynowej między cechami. W idealnym świecie ekspert domenowy wprowadzałby tę strukturę, ale często jest to niewykonalne-model z zaledwie 50 zmiennymi wymagałby nieco mniej niż 2500 związków przyczynowo-skutkowych do rozważenia i wyjaśnienia.
co więcej, łańcuchy przyczynowo-skutkowe sprawiają, że i tak czasochłonny proces jest jeszcze bardziej złożony-zmiany w jednej funkcji mogą wpływać na inną, co z kolei wpływa na inną. Łatwo jest przeoczyć te łańcuchy podczas ręcznego budowania konstrukcji, a jeszcze łatwiej stworzyć cykliczne łańcuchy z jajkiem kurzym, które są następnie trudne do naprawienia.
ostatnie postępy, w szczególności Publikacja DAGs bez łez w NeurIPS 2018, poprawiły wydajność i dokładność algorytmów uczenia się struktur, które budują te sieci. Usprawnili proces i uniknęli struktur paradoksu kurzego z jajkiem. Co ważne, nie potwierdzają one przyczynowości-oceniają ją. Praca z danymi nieeksperymentalnymi wymaga iteracyjnego procesu współpracy w celu weryfikacji prognoz, a eksperci domenowi są zobowiązani do przeglądu i weryfikacji przyczynowości struktury, porównywania relacji z szanowanymi publikacjami branżowymi, ankietami i szerszymi opiniami ekspertów. To właśnie augmentacja danych i metod z wkładem ekspertów ds. domen pozwala nam zrobić krok w kierunku interpretacji przyczynowej.
proces ten pomaga informować insights — cause-effects, które naukowcy danych mogą znaleźć zaskakujące są często dobrze rozumiane przez ekspertów, a nawet te, które zaskakują ekspertów, są czasami dobrze rozumiane przez innych w swojej dziedzinie i mogą być zweryfikowane poprzez wyszukiwanie szerszych materiałów.
ustrukturyzowany typ danych będzie zawierał węzły (zmienne, które przechowują informacje) i krawędzie (skierowane połączenia między węzłami, które również mogą przechowywać informacje). Większość algorytmów uczenia się struktury wyprowadza wagi krawędzi, które są przydatne do kierowania rozmowami między naukowcami danych i ekspertami. Prezentowanie krawędzi od najwyższej do najniższej wagi pomaga naukowcom danych prowadzić jeszcze bardziej efektywny proces przeglądu, ale powinniśmy uważać, aby nie przywiązywać zbyt dużej ilości interpretacji do wag-zwykle nie są to prawdopodobieństwa ani wartości, które są interpretowalne przez ludzi. Co więcej, nawet krawędzie o niskiej wadze mogą być czasami ważne, ale testy statystyczne są trudne.
kiedy już ustalimy, jakie są przyczyny, możemy przejść do nauki, jak się zachowują.
Faza 2: Uczenie się prawdopodobieństwa
struktura uczenie się może zidentyfikować, że na cenę kawy wpływa w jakiś sposób gęstość zaludnienia, ale nie określi konkretnie, w jaki sposób — nie jest w stanie wskazać, czy rosnąca populacja zwiększa lub zmniejsza cenę, lub czy istnieje bardziej złożona relacja.
uczenie się prawdopodobieństwa szacuje, ile każda przyczyna napędza każdy efekt, ucząc się podstawowych warunkowych rozkładów prawdopodobieństwa (CPD). Każdy CPD opisuje prawdopodobieństwo przyczyny, biorąc pod uwagę stan jego skutków.
odkryliśmy, że dyskretne CPD są bardziej praktyczne niż ciągłe CPD. Rozkłady ciągłe są często ograniczone do rozkładów Gaussa i dlatego trudno jest opisać wiele relacji. Dyskretne CPD mogą opisywać dowolny kształt dystrybucji, choć z mniejszą precyzją i są szeroko wspierane przez wiele bibliotek.
możemy skorzystać z ekspertów ds. domen, aby dokonać wyboru. Analitycy danych i eksperci ds. domeny powinni na początku uzgodnić strategię dyskretyzacji danych. Biorąc pod uwagę cele projektu, należy określić, jaka dyskrecja jest wymagana. Na przykład, jeśli twój projekt wymaga porównania mają być wykonane, a następnie dyskrecja percentyla prawdopodobnie pasuje.
mając to na uwadze, należy uważać, aby uniknąć nadmiernej dyskrecji CPD, ponieważ wszystkie szacunki prawdopodobieństwa muszą być opisane i mogą szybko się gromadzić. W przypadku efektu binarnego z trzema przyczynami binarnymi, CPD musiałoby oszacować 16 możliwych zdarzeń. Dla efektu z 10 stanami i trzema przyczynami, każdy z własnymi Stanami 10, należy oszacować 10 000 możliwych zdarzeń. W przypadku małych zbiorów danych z mniejszą liczbą próbek niż możliwości, większość przypadków nigdy nie będzie obserwowana, a te, które nie będą dobrze reprezentowane. Ale nawet w przypadku dużych zbiorów danych, nadmierna dyskrecja oznacza, że CPD będą zawierały wiele wysoce nieprawdopodobnych zdarzeń. Zmniejszy to moc modelu i wydłuży czas obliczeń.
wyuczone prawdopodobieństwa powinny być oceniane zarówno przez analityków danych, jak i ekspertów ds. domeny. Dla analityków danych traktuj to jako standardowy problem klasyfikacji-poznaj prawdopodobieństwa modelu za pomocą zestawu treningowego, a następnie oceń, jak dokładne są prognozy probabilistyczne dla danego węzła za pomocą zestawu testowego.
tymczasem eksperci w dziedzinie domeny mogą odczytywać tabele CPD i wartości kontroli zmysłów. Często jest to miejsce, w którym można wyeliminować bardziej nieprawdopodobne prawdopodobieństwa.
Faza 3: wnioskowanie
już teraz rozumiemy strukturę relacji przyczynowo-skutkowych naszego zbioru danych i jak zachowują się relacje. Umożliwia nam to wnioskowanie-zasadniczo testowanie działań i teorii w celu oceny reakcji.
wnioskowanie można podzielić na obserwacyjne i interwencyjne. W wnioskowaniu obserwacyjnym, możemy obserwować stan dowolnej zmiennej(s), a następnie zapytać, jak zmiana tego wpłynie na prawdopodobieństwo dowolnego innego stanu dowolnej innej zmiennej. Kwestionowanie prawdopodobieństwa innych zmiennych odbywa się poprzez odtwarzanie wszystkich związków przyczynowo-skutkowych, osiągniętych matematycznie przez marginalizowanie prawdopodobieństwa nad CPDs. Przykładem może być obserwacja kawiarni w centrum miasta i stwierdzenie, że może ona ponieść kosztowny czynsz komercyjny — a następnie cena kawy może być wysoka.
w wnioskowaniu interwencyjnym możemy interweniować na stan dowolnej zmiennej(zmiennych), zmieniając prawdopodobieństwo jej stanów na dowolne, które wybierzemy i skutecznie zadając pytanie ” co jeśli X był inny?”Na przykład możemy postawić hipotezę, że pracownicy pracują przez cztery dni tygodnia zamiast pięciu, a następnie obserwować wpływ, jaki ma to na wydajność.
podjęcie decyzji, gdzie interwencja jest najodpowiedniejsza, można osiągnąć poprzez analizę wrażliwości. Za każdym razem, gdy dokonujemy obserwacji, widzimy, jak wpływa to na stan celu, który chcemy zmienić. Gdybyśmy mieli zrobić tysiące oddzielnych, subtelnych obserwacji we wszystkich zmiennych, moglibyśmy oszacować, na które zmienne nasz cel jest najbardziej wrażliwy. Jest to podstawa analizy wrażliwości, chociaż istnieją bardziej skuteczne sposoby jej osiągnięcia.
Analiza wrażliwości jest szczególnie potężnym narzędziem, ponieważ pomaga nam zrozumieć, na czym skupić wysiłki. Nie zawsze jest możliwe interweniowanie w delikatnych sprawach-na przykład nie ma sensu zmieniać adresu klienta, ponieważ nie ma możliwości kontrolowania tego przez nasz ewentualny model. Jednak te bardziej wrażliwe przyczyny mogą odgrywać rolę w określaniu interwencji warunkowych.
rozwój ML mógł pomóc w usprawnieniu tworzenia struktur, ale wspólny, hybrydowy proces uczenia się między ludźmi-w szczególności naukowcami danych i ekspertami w dziedzinie-jest nadal fundamentalny, gdy wykraczamy poza korelację w celu identyfikacji przyczynowości.
wyzwania pozostają z rozumowaniem przyczynowym i może to być czasochłonne i trudne do ukończenia pełnego projektu ze względu na dużą liczbę oddzielnych bibliotek oprogramowania wymaganych w fazie testowania. Jednak nadal jest to skuteczna technika przy budowaniu modeli przyczynowych — aby to wesprzeć, QuantumBlack opublikował ostatnio naszą najnowszą ofertę open source, CausalNex. Ta Biblioteka oprogramowania zapewnia znacznie bardziej usprawniony proces i pomaga modelom unikać fałszywych wniosków i ostatecznie tworzyć bardziej inteligentne i wpływowe interwencje analityczne.
przyczynowość coraz częściej znajduje się pod mikroskopem i jest to temat, który chcemy zgłębić w przyszłości, zarówno dzięki CausalNex, jak i szerszym badaniom. Na przykład w czerwcu zaprezentujemy artykuł na aistats, który modyfikuje NO TEARS, aby poznać strukturę zmiennych w czasie oprócz relacji wewnątrzczasowych. W międzyczasie, bądź na bieżąco z nadchodzącymi wydarzeniami CausalNex.