Wykres przyczynowy - Causal graph

W statystyce, ekonometrii, epidemiologii, genetyce i pokrewnych dyscyplinach wykresy przyczynowe (znane również jako diagramy ścieżek , przyczynowe sieci bayesowskie lub DAGs ) są probabilistycznymi modelami graficznymi używanymi do kodowania założeń dotyczących procesu generowania danych.

Wykresy przyczynowe można wykorzystać do komunikacji i wnioskowania. Jako narzędzia komunikacyjne, wykresy zapewniają formalną i przejrzystą reprezentację przyczynowych założeń, które badacze mogą chcieć przekazać i bronić. Jako narzędzia wnioskowania, wykresy umożliwiają naukowcom szacowanie wielkości efektów na podstawie danych nieeksperymentalnych, uzyskiwanie testowalnych implikacji zakodowanych założeń, testowanie wiarygodności zewnętrznej oraz zarządzanie brakującymi danymi i błędami selekcji.

Wykresy przyczyn zostały po raz pierwszy użyte przez genetyka Sewalla Wrighta w rubryce „diagramy ścieżek”. Zostały one później przyjęte przez socjologów i, w mniejszym stopniu, przez ekonomistów. Modele te były początkowo ograniczone do równań liniowych o stałych parametrach. Współczesne osiągnięcia rozszerzyły modele graficzne o analizę nieparametryczną, a tym samym osiągnęły ogólność i elastyczność, które przekształciły analizę przyczynową w informatyce, epidemiologii i naukach społecznych.

Budowa i terminologia

Wykres przyczynowy można narysować w następujący sposób. Każda zmienna w modelu ma odpowiedni wierzchołek lub węzeł, a strzałka jest rysowana od zmiennej X do zmiennej Y za każdym razem, gdy ocenia się, że Y odpowiada na zmiany w X, gdy wszystkie inne zmienne są utrzymywane na stałym poziomie. Zmienne połączone Y poprzez bezpośrednie strzałki nazywane rodziców z Y lub „bezpośrednie przyczyny Y ” i jest oznaczony Pa (Y) .

Modele przyczynowe często zawierają „warunki błędu” lub „pominięte czynniki”, które reprezentują wszystkie niezmierzone czynniki, które wpływają na zmienną Y, gdy Pa(Y) są utrzymywane na stałym poziomie. W większości przypadków terminy związane z błędami są wykluczone z wykresu. Jeśli jednak autor wykresu podejrzewa, że ​​warunki błędu dowolnych dwóch zmiennych są zależne (np. obie zmienne mają nieobserwowaną lub ukrytą wspólną przyczynę), wówczas między nimi rysowany jest dwukierunkowy łuk. Zatem obecność zmiennych latentnych jest brana pod uwagę poprzez korelacje, jakie indukują między składnikami błędu, reprezentowanymi przez dwukierunkowe łuki.

Podstawowe narzędzia

Podstawowym narzędziem analizy graficznej jest d-separacja , która pozwala naukowcom określić, poprzez inspekcję, czy struktura przyczynowa implikuje, że dwa zestawy zmiennych są niezależne, biorąc pod uwagę trzeci zestaw. W modelach rekurencyjnych bez skorelowanych terminów błędów (czasami nazywanych Markoviańskimi ), te warunkowe niezależności reprezentują wszystkie testowalne implikacje modelu.

Przykład

Załóżmy, że chcemy oszacować wpływ uczęszczania do elitarnej uczelni na przyszłe zarobki. Zwykłe regresowanie zarobków na podstawie oceny uczelni nie da obiektywnego oszacowania efektu docelowego, ponieważ elitarne uczelnie są wysoce selektywne, a uczęszczający do nich studenci prawdopodobnie będą mieli kwalifikacje do dobrze płatnej pracy przed rozpoczęciem nauki w szkole. Zakładając, że związki przyczynowe są liniowe, tę podstawową wiedzę można wyrazić w poniższej specyfikacji modelu równań strukturalnych (SEM).

Model 1

gdzie reprezentuje kwalifikacje danej osoby przed ukończeniem studiów, reprezentuje kwalifikacje po ukończeniu studiów, zawiera atrybuty reprezentujące jakość uczęszczanej uczelni oraz wynagrodzenie danej osoby.

Rysunek 1: Niezidentyfikowany model z ukrytymi zmiennymi ( i ) pokazanymi wyraźnie
Rysunek 2: Niezidentyfikowany model z podsumowaniem zmiennych ukrytych

Rysunek 1 to wykres przyczynowy, który przedstawia tę specyfikację modelu. Każda zmienna w modelu ma odpowiadający jej węzeł lub wierzchołek na wykresie. Dodatkowo dla każdego równania rysowane są strzałki od zmiennych niezależnych do zmiennych zależnych. Te strzałki odzwierciedlają kierunek przyczynowości. W niektórych przypadkach możemy oznaczyć strzałkę odpowiednim współczynnikiem strukturalnym, jak na rysunku 1.

Jeśli i są nieobserwowanymi lub ukrytymi zmiennymi, ich wpływ na i można przypisać ich błędnym terminom. Usuwając je uzyskujemy następującą specyfikację modelu:

Model 2

Informacje podstawowe określone przez Model 1 sugerują, że składnik błędu , , jest skorelowany ze składnikiem błędu C , . W rezultacie dodamy dwukierunkowy łuk między S i C , jak na rysunku 2.

Rysunek 3: Zidentyfikowany model z ukrytymi zmiennymi ( i ) pokazanymi wyraźnie
Rysunek 4: Zidentyfikowany model z podsumowaniem zmiennych ukrytych

Ponieważ jest skorelowana z , a zatem , to endogenny i nie jest określony we wzorze 2. Jednakże, jeśli to siłę stosowania jednostki College, jak pokazano na Figurze 3, to otrzymamy następujący wzór:

Model 3

Usuwając zmienne latentne ze specyfikacji modelu otrzymujemy:

Model 4

z skorelowane z .

Teraz jest identyfikowany i można go oszacować za pomocą regresji on i . Można to zweryfikować za pomocą kryterium jednodrzwiowego , niezbędnego i wystarczającego warunku graficznego do identyfikacji współczynników strukturalnych, np. za pomocą regresji.

Bibliografia