Współliniowość — Multicollinearity

W statystycznych , Współliniowość (również współliniowości ) jest zjawiskiem, w którym jeden czynnikiem zmienna w wielokrotnej regresji modelu można przewidzieć liniowo od innych z dużym stopniem dokładności. W tej sytuacji oszacowania współczynników regresji wielokrotnej mogą zmieniać się chaotycznie w odpowiedzi na niewielkie zmiany w modelu lub danych. Wielokoliniowość nie zmniejsza mocy predykcyjnej ani wiarygodności modelu jako całości, przynajmniej w obrębie przykładowego zestawu danych; wpływa tylko na obliczenia dotyczące poszczególnych predyktorów . Oznacza to, że wielowymiarowy model regresji z współliniowymi predyktorami może wskazywać, jak dobrze cały zestaw predyktorów przewiduje zmienną wynikową , ale może nie dawać poprawnych wyników dotyczących żadnego indywidualnego predyktora lub tego, które predyktory są nadmiarowe w stosunku do innych.

Należy zauważyć, że w stwierdzeniach założeń leżących u podstaw analiz regresji, takich jak zwykłe najmniejszych kwadratów , wyrażenie „brak współliniowości” zwykle odnosi się do braku doskonałej współliniowości, która jest dokładną (niestochastyczną) relacją liniową między predyktorami. W takim przypadku data matrix ma mniej niż pełnej rangi , a więc macierz chwila nie może zostać odwrócony . W tych okolicznościach dla ogólnego modelu liniowego zwykły estymator najmniejszych kwadratów nie istnieje.

W każdym razie wielowspółliniowość jest cechą macierzy danych, a nie podstawowego modelu statystycznego .

Definicja

Kolinearność to liniowa zależność między dwiema zmiennymi objaśniającymi . Dwie zmienne są idealnie współliniowe, jeśli istnieje między nimi dokładna zależność liniowa. Na przykład i są idealnie współliniowe, jeśli istnieją parametry i takie, że dla wszystkich obserwacji i mamy

Wielokolinearność odnosi się do sytuacji, w której więcej niż dwie zmienne objaśniające w modelu regresji wielorakiej są ściśle liniowo powiązane. Mamy doskonałą współliniowość, jeśli, na przykład, jak w powyższym równaniu, korelacja między dwiema zmiennymi niezależnymi jest równa 1 lub -1. W praktyce rzadko spotykamy się z idealną współliniowością w zbiorze danych. Częściej problem współliniowości pojawia się, gdy istnieje przybliżona zależność liniowa między dwiema lub więcej zmiennymi niezależnymi.

Obraz wielokoliniowości.

Matematycznie zbiór zmiennych jest doskonale wielowspółliniowy, jeśli istnieje jedna lub więcej dokładnych zależności liniowych między niektórymi zmiennymi. Na przykład możemy mieć

trzymanie dla wszystkich obserwacji i , gdzie są stałymi i jest i- obserwacją k- tej zmiennej objaśniającej. Możemy zbadać jeden problem spowodowany wielowspółliniowością, badając proces próby uzyskania oszacowań parametrów równania regresji wielorakiej

W zwykłych najmniejszych kwadratów oszacowania obejmują inwersję macierzy

gdzie

to macierz N × ( k +1), gdzie N to liczba obserwacji, a k to liczba zmiennych objaśniających (przy czym N musi być większe lub równe k +1). Jeśli między zmiennymi niezależnymi istnieje dokładna zależność liniowa (doskonała wielowspółliniowość), co najmniej jedna z kolumn X jest kombinacją liniową pozostałych, a więc ranga X (a zatem X T X) jest mniejsza niż k +1, a macierz X T X nie będzie odwracalna.

Doskonała współliniowość jest dość powszechna podczas pracy z nieprzetworzonymi zestawami danych, które często zawierają nadmiarowe informacje. Jednak po zidentyfikowaniu i usunięciu nadmiarowości, prawie wielokoliniowe zmienne często pozostają ze względu na korelacje nieodłącznie związane z badanym systemem. W takim przypadku zamiast powyższego równania mamy to równanie w zmodyfikowanej postaci z członem błędu :

W tym przypadku nie ma dokładnej liniowej zależności między zmiennymi, ale zmienne są prawie idealnie wielowspółliniowe, jeśli wariancja jest mała dla pewnego zestawu wartości dla 's. W tym przypadku macierz X T X ma odwrotność, ale jest źle uwarunkowana tak, że dany algorytm komputerowy może, ale nie musi być w stanie obliczyć przybliżoną odwrotność, a jeśli to zrobi, wynikowa odwrotność może być bardzo wrażliwa na niewielkie odchylenia w danych (z powodu powiększonych efektów błędu zaokrąglania lub niewielkich odchyleń w próbkowanych punktach danych), a zatem mogą być bardzo niedokładne lub bardzo zależne od próbki.

Wykrycie

Wskaźniki wskazujące, że w modelu może występować współliniowość, obejmują:

  1. Duże zmiany w szacowanych współczynnikach regresji po dodaniu lub usunięciu zmiennej predykcyjnej
  2. Nieistotne współczynniki regresji dla zmienionych zmiennych w regresji wielokrotnej, ale odrzucenie wspólnej hipotezy, że wszystkie te współczynniki wynoszą zero (przy użyciu testu F )
  3. Jeżeli regresja wielowymiarowa wykryje nieistotny współczynnik danego objaśnienia, natomiast prosta regresja liniowa zmiennej objaśnianej na tej zmiennej objaśniającej wykazuje, że jej współczynnik jest istotnie różny od zera, to sytuacja ta wskazuje na wielowspółliniowość w regresji wielowymiarowej.
  4. Niektórzy autorzy sugerowali formalną tolerancję wykrywania lub współczynnik inflacji wariancji (VIF) dla współliniowości: gdzie jest współczynnikiem determinacji regresji eksplanatora j na wszystkich innych eksplanatorach. Tolerancja mniejsza niż 0,20 lub 0,10 i/lub VIF 5 lub 10 i więcej wskazuje na problem wielokoliniowości.

  5. Test Farrara-Glaubera : Jeśli okaże się, że zmienne są ortogonalne, nie ma współliniowości; jeśli zmienne nie są ortogonalne, to występuje przynajmniej pewien stopień współliniowości. C. Robert Wichers twierdził, że test korelacji cząstkowej Farrara–Glaubera jest nieskuteczny, ponieważ dana korelacja cząstkowa może być zgodna z różnymi wzorcami wielowspółliniowości. Test Farrara-Glaubera został również skrytykowany przez innych badaczy.
  6. Test numeru stanu : Standardową miarą złego uwarunkowania w macierzy jest wskaźnik stanu. Wskazuje to, że inwersja macierzy jest niestabilna numerycznie przy liczbach o skończonej precyzji (standardowy komputer pływa i podwaja ). Wskazuje to na potencjalną czułość obliczonej odwrotności na małe zmiany w oryginalnej macierzy. Numer warunku jest obliczany przez znalezienie pierwiastka kwadratowego z maksymalnej wartości własnej podzielonej przez minimalną wartość własną macierzy projektu . Jeśli liczba warunku jest wyższa niż 30, regresja może mieć poważną wielokoliniowość; wielokolinearność istnieje, jeśli dodatkowo dwie lub więcej zmiennych związanych z wysoką liczbą warunków ma wyjaśnione wysokie proporcje wariancji. Jedną z zalet tej metody jest to, że pokazuje również, które zmienne powodują problem.
  7. Zakłócanie danych . Wielokoliniowość można wykryć, dodając do danych losowy szum i wielokrotnie powtarzając regresję i obserwując, jak bardzo zmieniają się współczynniki.
  8. Konstrukcja macierzy korelacji między zmiennymi objaśniającymi dostarczy wskazówek co do prawdopodobieństwa, że ​​dana para zmiennych prawostronnych powoduje problemy wielokoliniowości. Wartości korelacji (elementy poza przekątną) wynoszące co najmniej 0,4 są czasami interpretowane jako wskazujące na problem wielowspółliniowości. Ta procedura jest jednak bardzo problematyczna i nie może być zalecana. Intuicyjnie korelacja opisuje związek dwuwymiarowy, podczas gdy kolinearność jest zjawiskiem wielowymiarowym.

Konsekwencje

Jedną z konsekwencji wysokiego stopnia współliniowości jest to, że nawet jeśli macierz jest odwracalna, algorytm komputerowy może nie uzyskać przybliżonej odwrotności, a jeśli ją otrzyma, może być liczbowo niedokładny. Ale nawet w obecności dokładnej matrycy pojawiają się następujące konsekwencje.

W obecności współliniowości oszacowanie wpływu jednej zmiennej na zmienną zależną przy jednoczesnym kontrolowaniu innych jest mniej precyzyjne, niż gdyby predyktory nie były ze sobą skorelowane. Zwykła interpretacja współczynnika regresji polega na tym, że zapewnia oszacowanie efektu zmiany o jedną jednostkę zmiennej niezależnej , przy zachowaniu stałych pozostałych zmiennych. Jeśli jest silnie skorelowana z inną zmienną niezależną , w danym zbiorze danych, to mamy zbiór obserwacji, dla których i mamy określoną liniową zależność stochastyczną. Nie mamy zbioru obserwacji, dla których wszystkie zmiany w są niezależne od zmian w , więc mamy nieprecyzyjne oszacowanie wpływu niezależnych zmian w .

W pewnym sensie zmienne współliniowe zawierają te same informacje o zmiennej zależnej. Jeśli nominalnie „różne” miary faktycznie określają ilościowo to samo zjawisko, to są one zbędne. Ewentualnie, jeśli zmiennym przypisuje się różne nazwy i być może stosują różne liczbowe skale pomiarowe, ale są ze sobą silnie skorelowane, wówczas cierpią na nadmiarowość.

Jedną z cech współliniowości jest to, że błędy standardowe współczynników, których to dotyczy, są zwykle duże. W takim przypadku sprawdzenie hipotezy, że współczynnik jest równy zero, może prowadzić do nieodrzucenia fałszywej hipotezy zerowej o braku wpływu wyjaśniacza, błąd typu II .

Innym problemem związanym z wielowspółliniowością jest to, że małe zmiany danych wejściowych mogą prowadzić do dużych zmian w modelu, a nawet do zmiany znaku oszacowań parametrów.

Zasadniczą niebezpieczeństwo takiej redundancji danych jest to, że przeuczenia w analizie regresji modeli. Najlepsze modele regresji to te, w których zmienne predyktorów silnie korelują ze zmienną zależną (wyniku), ale korelują ze sobą najwyżej w minimalnym stopniu. Taki model jest często nazywany „niskoszumowym” i będzie statystycznie odporny (to znaczy, że będzie przewidywał wiarygodnie w wielu próbkach zestawów zmiennych pochodzących z tej samej populacji statystycznej).

Dopóki podstawowa specyfikacja jest poprawna, wielokoliniowość nie wpływa na wyniki; po prostu generuje duże błędy standardowe w powiązanych zmiennych niezależnych. Co ważniejsze, zwykłym zastosowaniem regresji jest pobranie współczynników z modelu, a następnie zastosowanie ich do innych danych. Ponieważ wielokoliniowość powoduje nieprecyzyjne oszacowanie wartości współczynników, wynikowe predykcje poza próbą również będą nieprecyzyjne. A jeśli wzór współliniowości w nowych danych różni się od tego w dopasowanych danych, taka ekstrapolacja może wprowadzić duże błędy w przewidywaniach.

Środki zaradcze

  1. Upewnij się, że nie wpadłeś w pułapkę zmienną fikcyjną ; uwzględnienie zmiennej fikcyjnej dla każdej kategorii (np. lato, jesień, zima i wiosna) oraz uwzględnienie stałego wyrazu w regresji razem gwarantują doskonałą współliniowość.
  2. Spróbuj zobaczyć, co się stanie, jeśli do oszacowania użyjesz niezależnych podzbiorów danych i zastosujesz te szacunki do całego zestawu danych. Teoretycznie powinieneś uzyskać nieco wyższą wariancję z mniejszych zbiorów danych użytych do estymacji, ale oczekiwanie wartości współczynników powinno być takie samo. Oczywiście obserwowane wartości współczynników będą się różnić, ale spójrz na to, jak bardzo się różnią.
  3. Pozostaw model bez zmian, pomimo współliniowości. Obecność współliniowości nie wpływa na wydajność ekstrapolacji dopasowanego modelu na nowe dane, pod warunkiem, że zmienne predyktorów mają ten sam wzorzec współliniowości w nowych danych, co w danych, na których oparty jest model regresji.
  4. Usuń jedną ze zmiennych. Zmienna objaśniająca może zostać pominięta, aby stworzyć model o znaczących współczynnikach. Jednak tracisz informacje (ponieważ upuściłeś zmienną). Pominięcie odpowiedniej zmiennej skutkuje obciążonymi oszacowaniami współczynników dla pozostałych zmiennych objaśniających, które są skorelowane ze zmienną pominiętą.
  5. Uzyskaj więcej danych, jeśli to możliwe. To jest preferowane rozwiązanie. Więcej danych może dać dokładniejsze oszacowania parametrów (z niższymi błędami standardowymi), co widać na podstawie wzoru na wariancję współczynnika inflacji dla wariancji oszacowania współczynnika regresji pod względem wielkości próby i stopnia współliniowości.
  6. Środek średniej zmiennych predykcyjnych. Generowanie wyrażeń wielomianowych (np. for , , , itd.) lub interakcyjnych (np. , itd.) może powodować pewną współliniowość, jeśli dana zmienna ma ograniczony zakres (np. [2,4]). Wyśrodkowanie średniej wyeliminuje ten szczególny rodzaj wielowspółliniowości. Jednak generalnie nie ma to żadnego wpływu. Może być przydatny w przezwyciężaniu problemów wynikających z zaokrąglania i innych kroków obliczeniowych, jeśli nie jest używany starannie zaprojektowany program komputerowy.
  7. Standaryzuj swoje niezależne zmienne. Może to pomóc w ograniczeniu fałszywych oznaczeń indeksu stanu powyżej 30.
  8. Zasugerowano również, że przy użyciu wartości Shapleya , narzędzia teorii gier , model może uwzględniać efekty wielokoliniowości. Wartość Shapleya przypisuje wartość każdemu predyktorowi i ocenia wszystkie możliwe kombinacje ważności.
  9. Można zastosować regresję grzbietową lub regresję głównych składowych lub regresję metodą częściowych najmniejszych kwadratów .
  10. Jeżeli skorelowane eksplanatory są różnymi opóźnionymi wartościami tego samego podstawowego eksplanatora, wówczas można zastosować technikę rozproszonego opóźnienia , nakładając ogólną strukturę na względne wartości współczynników, które mają być oszacowane.

Występowanie

Analiza przeżycia

Wielokolinearność może stanowić poważny problem w analizie przeżycia . Problem polega na tym, że zmienne towarzyszące zmieniające się w czasie mogą zmieniać swoją wartość na osi czasu badania. Zaleca się specjalną procedurę oceny wpływu współliniowości na wyniki.

Stopy procentowe dla różnych terminów do terminu zapadalności

W różnych sytuacjach można postawić hipotezę, że różne stopy procentowe o różnych terminach do terminu zapadalności mają wpływ na pewne decyzje gospodarcze, takie jak ilość pieniędzy lub innego aktywa finansowego do utrzymywania lub wielkość nakładów inwestycyjnych do zaangażowania. , w tym te różne stopy procentowe, ogólnie stworzy istotny problem wielokolinearności, ponieważ stopy procentowe mają tendencję do wspólnego ruchu. Jeśli w rzeczywistości każda ze stóp procentowych ma swój odrębny wpływ na zmienną zależną, oddzielenie ich skutków może być niezwykle trudne.

Rozbudowa

Pojęcie kolinearności bocznej rozszerza tradycyjny pogląd na wielokoliniowość, obejmujący również kolinearność między zmiennymi objaśniającymi i kryterialnymi (tj. objaśnianymi), w tym sensie, że mogą one mierzyć prawie to samo.

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki