Regresja liniowa - Linear regression

W statystycznych , regresji liniowej jest liniowe podejście do modelowania zależność pomiędzy skalarnej reakcji i jednej lub więcej zmiennych objaśniających (znany również jako zmiennych niezależnych i zależnych ). Przypadek jednej zmiennej objaśniającej nazywamy prostą regresją liniową ; dla więcej niż jednego procesu nazywa się to wielokrotną regresją liniową . Termin ten różni się od wielowymiarowej regresji liniowej , w której przewiduje się wiele skorelowanych zmiennych zależnych, a nie pojedynczą zmienną skalarną.

W regresji liniowej zależności są modelowane przy użyciu liniowych funkcji predykcyjnych, których nieznane parametry modelu są szacowane na podstawie danych . Takie modele nazywane są modelami liniowymi . Najczęściej zakłada się , że warunkowa średnia odpowiedzi przy danych wartościach zmiennych objaśniających (lub predyktorów) jest funkcją afiniczną tych wartości; rzadziej stosuje się medianę warunkową lub inny kwantyl . Podobnie jak wszystkie formy analizy regresji , regresja liniowa koncentruje się na warunkowym rozkładzie prawdopodobieństwa odpowiedzi dla wartości predyktorów, a nie na łącznym rozkładzie prawdopodobieństwa wszystkich tych zmiennych, co jest domeną analizy wielowymiarowej .

Regresja liniowa była pierwszym rodzajem analizy regresji, który został poddany rygorystycznym badaniom i był szeroko stosowany w zastosowaniach praktycznych. Wynika to z faktu, że modele zależne liniowo od swoich nieznanych parametrów są łatwiejsze do dopasowania niż modele nieliniowo powiązane ze swoimi parametrami oraz dlatego, że właściwości statystyczne otrzymanych estymatorów są łatwiejsze do określenia.

Regresja liniowa ma wiele praktycznych zastosowań. Większość aplikacji należy do jednej z następujących dwóch szerokich kategorii:

  • Jeśli celem jest przewidywanie , prognozowanie lub redukcja błędów, można zastosować regresję liniową w celu dopasowania modelu predykcyjnego do obserwowanego zestawu danych wartości odpowiedzi i zmiennych objaśniających. Po opracowaniu takiego modelu, jeśli dodatkowe wartości zmiennych objaśniających zostaną zebrane bez towarzyszącej wartości odpowiedzi, dopasowany model można wykorzystać do prognozy odpowiedzi.
  • Jeśli celem jest wyjaśnienie zmienności zmiennej odpowiedzi, którą można przypisać zmienności zmiennych objaśniających, można zastosować analizę regresji liniowej w celu ilościowego określenia siły związku między odpowiedzią a zmiennymi objaśniającymi, a w szczególności w celu ustalenia, czy niektóre zmienne objaśniające mogą w ogóle nie mieć liniowego związku z odpowiedzią lub w celu określenia, które podzbiory zmiennych objaśniających mogą zawierać nadmiarowe informacje o odpowiedzi.

Modele regresji liniowej są często dopasowywane przy użyciu metody najmniejszych kwadratów , ale można je również dopasowywać w inny sposób, na przykład poprzez minimalizację „niedopasowania” w jakiejś innej normie (jak w przypadku regresji z najmniejszymi odchyleniami bezwzględnymi ) lub poprzez zminimalizowanie karanego wersja funkcji kosztu najmniejszych kwadratów jak w regresji grzbietu ( L 2 – kara normowa) i lasso ( L 1 – kara normowa). I odwrotnie, podejście najmniejszych kwadratów może być użyte do dopasowania modeli, które nie są modelami liniowymi. Tak więc, chociaż terminy „najmniejsze kwadraty” i „model liniowy” są ze sobą ściśle powiązane, nie są synonimami.

Sformułowanie

W regresji liniowej zakłada się , że obserwacje ( czerwone ) są wynikiem losowych odchyleń ( zielony ) od leżącej u ich podstaw relacji ( niebieski ) między zmienną zależną ( y ) a zmienną niezależną ( x ).

Mając zestaw danych składający się z n jednostek statystycznych , model regresji liniowej zakłada, że ​​związek między zmienną zależną y a wektorem p regresorów x jest liniowy . Zależność ta jest modelowana przez składnik zakłócający lub zmienną błędu ε — nieobserwowaną zmienną losową, która dodaje „szum” do liniowej relacji między zmienną zależną a regresorami. W ten sposób model przyjmuje postać

gdzie T oznacza transpozycję , tak że x i T β jest iloczynem skalarnym między wektorami x i oraz β .

Często te n równań jest ułożone razem i zapisane w notacji macierzowej jako

gdzie

Notacja i terminologia

  • jest wektorem zaobserwowanych wartości zmiennej zwanej regressand , zmiennej endogennego , zmienną odpowiedzi , mierzonej zmiennej , zmienna kryterium , czy zmienna zależna . Ta zmienna jest również czasami nazywana zmienną przewidywaną , ale nie należy jej mylić z wartościami przewidywanymi , które są oznaczone . Decyzja, która zmienna w zbiorze danych jest modelowana jako zmienna zależna, a które są modelowane jako zmienne niezależne, może opierać się na założeniu, że wartość jednej ze zmiennych jest spowodowana przez inne zmienne lub ma na nie bezpośredni wpływ. Alternatywnie może istnieć przyczyna operacyjna, aby modelować jedną ze zmiennych w kategoriach pozostałych, w którym to przypadku nie ma potrzeby domniemania związku przyczynowego.
  • mogą być postrzegane jako matrycy rząd-wektorów lub n -wymiarowej wektorów kolumnowych , które są znane jako regresorów , zmiennych zewnętrznych , zmienne objaśniające , współzmiennych , zmiennych wejściowych , predyktorami lub zmiennych niezależnych (nie mylić z koncepcją z niezależnych zmiennych losowych ). Matryca jest czasami nazywana macierzą projektu .
    • Zwykle jako jeden z regresorów uwzględniana jest stała. W szczególności dla . Odpowiadający mu element
    β nazywa się wyrazem wolnym . Wiele procedur wnioskowania statystycznego dla modeli liniowych wymaga obecności wyrazu wolnego, więc często jest on uwzględniany, nawet jeśli rozważania teoretyczne sugerują, że jego wartość powinna wynosić zero.
  • Czasami jeden z regresorów może być nieliniową funkcją innego regresora lub danych, jak w przypadku regresji wielomianowej i regresji segmentowej . Model pozostaje liniowy, dopóki jest liniowy w wektorze parametrów β .
  • Wartości x ij mogą być postrzegane albo jako obserwowane wartości zmiennych losowych X j albo jako stałe wartości wybrane przed obserwowaniem zmiennej zależnej. Obie interpretacje mogą być odpowiednie w różnych przypadkach i zazwyczaj prowadzą do tych samych procedur szacowania; jednak w tych dwóch sytuacjach stosuje się różne podejścia do analizy asymptotycznej.
  • jest -wymiarowym wektorem parametrów , gdzie jest wyrazem przecięcia (jeśli jest uwzględniony w modelu — w przeciwnym razie jest p- wymiarowy). Jego elementy nazywane są efektami lub współczynnikami regresji (chociaż ten ostatni termin jest czasem zarezerwowany dla szacowanych efektów). W prostych regresji liniowej , p = 1, a współczynnik jest znany jako nachylenie regresji. Estymacja statystyczna i wnioskowanie w regresji liniowej koncentruje się na β . Elementy tego wektora parametrów są interpretowane jako pochodne cząstkowe zmiennej zależnej względem różnych zmiennych niezależnych.
  • jest wektorem wartości . Ta część modelu nazywany jest określenie błędu , zaburzenia termin , lub czasami hałas (w przeciwieństwie do „Sygnał” dostarczonych przez resztę modelu). Ta zmienna obejmuje wszystkie inne czynniki, które wpływają na zmienną zależną y inne niż regresory x . Związek między składnikiem błędu a regresorami, na przykład ich korelacją , jest kluczowym czynnikiem przy formułowaniu modelu regresji liniowej, ponieważ określi odpowiednią metodę estymacji.
  • Dopasowanie modelu liniowego do danego zestawu danych zwykle wymaga oszacowania współczynników regresji w taki sposób, aby zminimalizować składnik błędu . Na przykład często używa się sumy kwadratów błędów jako miary minimalizacji.

    Przykład

    Rozważmy sytuację, w której mała piłka jest rzucił się w powietrzu, a następnie mierzymy jego wysokość wznoszenia h í w różnych momentach w czasie t I . Fizyka mówi nam, że ignorując opór, związek można modelować jako

    gdzie β 1 określa prędkość początkową piłki, β 2 jest proporcjonalna do grawitacji standardowej , a ε i wynika z błędów pomiarowych. Regresji liniowej można użyć do oszacowania wartości β 1 i β 2 na podstawie zmierzonych danych. Model ten jest nieliniowy w zmiennej czasowej, ale jest liniowy w parametrach β 1 i β 2 ; jeśli weźmiemy regresory x i  = ( x i 1 , x i 2 ) = ( t i , t i 2 ), model przyjmuje postać standardową

    Założenia

    Standardowe modele regresji liniowej ze standardowymi technikami estymacji zawierają szereg założeń dotyczących zmiennych predykcyjnych, zmiennych odpowiedzi i ich relacji. Opracowano liczne rozszerzenia, które pozwalają na rozluźnienie (tzn. zredukowanie do słabszej formy) każdego z tych założeń, a w niektórych przypadkach całkowite wyeliminowanie. Generalnie te rozszerzenia sprawiają, że procedura estymacji jest bardziej złożona i czasochłonna, a także może wymagać większej ilości danych w celu stworzenia równie precyzyjnego modelu.

    Przykład regresji wielomianowej sześciennej, która jest rodzajem regresji liniowej. Chociaż regresja wielomianowa dopasowuje model nieliniowy do danych, jako problem estymacji statystycznej jest ona liniowa, w tym sensie, że funkcja regresji E( y | x ) jest liniowa w przypadku nieznanych parametrów estymowanych na podstawie danych . Z tego powodu regresja wielomianowa jest uważana za szczególny przypadek wielokrotnej regresji liniowej .

    Poniżej przedstawiono główne założenia przyjęte przez standardowe modele regresji liniowej ze standardowymi technikami szacowania (np. zwykłe metody najmniejszych kwadratów ):

    • Słaba egzogeniczność . Zasadniczo oznacza to, że zmienne predykcyjne x można traktować jako wartości stałe, a nie zmienne losowe . Oznacza to na przykład, że zakłada się, że zmienne predykcyjne są wolne od błędów, czyli nie są zanieczyszczone błędami pomiaru. Chociaż założenie to nie jest realistyczne w wielu sytuacjach, porzucenie go prowadzi do znacznie trudniejszych modeli błędów w zmiennych .
    • Liniowość . Oznacza to, że średnia zmiennej odpowiedzi jest kombinacją liniową parametrów (współczynników regresji) i zmiennych predykcyjnych. Zauważ, że to założenie jest znacznie mniej restrykcyjne, niż mogłoby się wydawać. Ponieważ zmienne predykcyjne są traktowane jako wartości stałe (patrz powyżej), liniowość jest w rzeczywistości tylko ograniczeniem parametrów. Same zmienne predykcyjne mogą być dowolnie przekształcane iw rzeczywistości można dodać wiele kopii tej samej podstawowej zmiennej predykcyjnej, z których każda jest transformowana w inny sposób. Technika ta jest używana na przykład w regresji wielomianowej , która wykorzystuje regresję liniową do dopasowania zmiennej odpowiedzi jako arbitralnej funkcji wielomianowej (do danej rangi) zmiennej predykcyjnej. Przy tak dużej elastyczności modele, takie jak regresja wielomianowa, często mają „zbyt dużą moc”, ponieważ mają tendencję do nadmiernego dopasowania danych. W rezultacie, pewien rodzaj regularyzacji musi być zwykle stosowany, aby zapobiec nieuzasadnionym rozwiązaniom wychodzącym z procesu szacowania. Typowymi przykładami są regresja grzbietowa i regresja lassa . Można również zastosować bayesowską regresję liniową , która ze swej natury jest mniej lub bardziej odporna na problem overfittingu. (W rzeczywistości regresja grzbietowa i regresja lassa mogą być postrzegane jako szczególne przypadki Bayesowskiej regresji liniowej, z określonymi typami wcześniejszych rozkładów umieszczonymi na współczynnikach regresji).
    • Stała wariancja (aka homoskedastyczność ). Oznacza to, że wariancja błędów nie zależy od wartości zmiennych predykcyjnych. Zatem zmienność odpowiedzi dla danych stałych wartości predyktorów jest taka sama, niezależnie od tego, jak duże lub małe są odpowiedzi. Często tak nie jest, ponieważ zmienna, której średnia jest duża, zazwyczaj ma większą wariancję niż zmienna, której średnia jest mała. Na przykład osoba, której przewidywany dochód wynosi 100 000 USD, może z łatwością mieć rzeczywisty dochód w wysokości 80 000 USD lub 120 000 USD — tj. odchylenie standardowe około 20 000 USD — podczas gdy inna osoba z przewidywanym dochodem wynoszącym 10 000 USD prawdopodobnie nie będzie miała takiego samego odchylenia standardowego 20 000 USD. , ponieważ oznaczałoby to, że ich rzeczywisty dochód może wahać się od -10 000 do 30 000 USD. (W rzeczywistości, jak to pokazuje, w wielu przypadkach — często w tych samych przypadkach, w których założenie o błędach o rozkładzie normalnym nie jest skuteczne — należy przewidzieć, że wariancja lub odchylenie standardowe będzie proporcjonalna do średniej, a nie stała.) Brak homoskedastyczności jest zwany heteroskedastycznością . Aby sprawdzić to założenie, wykres reszt w porównaniu z wartościami przewidywanymi (lub wartościami każdego indywidualnego predyktora) można zbadać pod kątem „efektu wachlarza” (tj. rosnącego lub malejącego pionowego rozrzutu podczas ruchu od lewej do prawej na wykresie). . Wykres reszt bezwzględnych lub kwadratów względem wartości przewidywanych (lub każdego predyktora) można również zbadać pod kątem trendu lub krzywizny. Można również zastosować testy formalne; zobacz Heteroskedastyczność . Obecność heteroskedastyczności spowoduje zastosowanie ogólnego „średniego” oszacowania wariancji zamiast takiego, które uwzględnia prawdziwą strukturę wariancji. Prowadzi to do mniej precyzyjnych (ale w przypadku zwykłych najmniejszych kwadratów , nieobciążonych) oszacowań parametrów i obciążonych błędów standardowych, co prowadzi do mylących testów i oszacowań przedziałów. Błąd średniokwadratowy dla modelu będzie też źle. Różne techniki estymacji, w tym ważone najmniejszych kwadratów i użycie błędów standardowych zgodnych z heteroskedastycznością, mogą poradzić sobie z heteroskedastycznością w dość ogólny sposób. Techniki Bayesowskiej regresji liniowej można również stosować, gdy zakłada się, że wariancja jest funkcją średniej. W niektórych przypadkach możliwe jest również rozwiązanie problemu poprzez zastosowanie transformacji do zmiennej odpowiedzi (np. dopasowanie logarytmu zmiennej odpowiedzi przy użyciu modelu regresji liniowej, co oznacza, że ​​sama zmienna odpowiedzi ma raczej rozkład logarytmiczny niż normalny niż rozkład normalny ).
    • Aby sprawdzić naruszenia założeń liniowości, stałej wariancji i niezależności błędów w modelu regresji liniowej, reszty są zazwyczaj wykreślane względem przewidywanych wartości (lub każdego z poszczególnych predyktorów). Pozornie losowy rozrzut punktów wokół poziomej linii środkowej w punkcie 0 jest idealny, ale nie może wykluczyć pewnych rodzajów naruszeń, takich jak autokorelacja błędów lub ich korelacja z jedną lub kilkoma współzmiennymi.
      Niezależność błędów . Zakłada się, że błędy zmiennych odpowiedzi nie są ze sobą skorelowane. (Rzeczywista niezależność statystyczna jest silniejszym warunkiem niż zwykły brak korelacji i często nie jest potrzebna, chociaż można ją wykorzystać, jeśli wiadomo, że jest skuteczna). Niektóre metody, takie jak uogólniona metoda najmniejszych kwadratów, są w stanie poradzić sobie z błędami skorelowanymi, chociaż zazwyczaj wymagają znacznie więcej danych, o ile nie zostanie zastosowana jakaś regularyzacja w celu odchylenia modelu w kierunku zakładania nieskorelowanych błędów. Bayesowska regresja liniowa jest ogólnym sposobem radzenia sobie z tym problemem.
    • Brak idealnej współliniowości w predyktorach. W przypadku standardowych metod estymacji metodą najmniejszych kwadratów macierz projektu X musi mieć pełny rząd kolumny p ; poza tym doskonałym Współliniowość istnieje predyktorami, czyli istnieje liniowa zależność między dwiema lub więcej zmiennych predykcyjnych. Może to być spowodowane przypadkowym powieleniem zmiennej w danych, zastosowaniem liniowej transformacji zmiennej wraz z oryginałem (np. te same pomiary temperatury wyrażone w stopniach Fahrenheita i Celsjusza) lub włączeniem do modelu liniowej kombinacji wielu zmiennych, takich jak ich średnia. Może się to również zdarzyć, jeśli dostępnych jest zbyt mało danych w porównaniu z liczbą parametrów, które mają być oszacowane (np. mniej punktów danych niż współczynników regresji). Bliskie naruszenia tego założenia, gdzie predyktory są silnie, ale nie doskonale skorelowane, mogą zmniejszyć precyzję oszacowań parametrów (patrz Współczynnik inflacji wariancji ). W przypadku idealnej współliniowości wektor parametrów β będzie nieidentyfikowalny — nie ma jednoznacznego rozwiązania. W takim przypadku tylko niektóre parametry mogą być zidentyfikowane (tj. ich wartości mogą być estymowane tylko w pewnej liniowej podprzestrzeni pełnej przestrzeni parametrów R p ). Zobacz regresję metodą cząstkowych najmniejszych kwadratów . Opracowano metody dopasowywania modeli liniowych do współliniowości, z których niektóre wymagają dodatkowych założeń, takich jak „rzadkość efektu” — że duża część efektów jest dokładnie równa zeru. Należy zauważyć, że bardziej kosztowne obliczeniowo iterowane algorytmy do estymacji parametrów, takie jak te stosowane w uogólnionych modelach liniowych , nie mają tego problemu.

    Poza tymi założeniami kilka innych właściwości statystycznych danych silnie wpływa na wydajność różnych metod szacowania:

    • Statystyczna zależność między terminami błędu i regresorami odgrywa ważną rolę w określaniu, czy procedura estymacji ma pożądane właściwości próbkowania, takie jak bezstronność i spójność.
    • Rozmieszczenie lub rozkład prawdopodobieństwa zmiennych predykcyjnych x ma duży wpływ na precyzję oszacowań β . Próbkowanie i projektowanie eksperymentów to wysoce rozwinięte poddziedziny statystyki, które dostarczają wskazówek do zbierania danych w taki sposób, aby uzyskać precyzyjne oszacowanie β .

    Interpretacja

    Zestawy danych w kwartecie Anscombe są zaprojektowane tak, aby miały w przybliżeniu taką samą linię regresji liniowej (jak również prawie identyczne średnie, odchylenia standardowe i korelacje), ale graficznie bardzo się różnią. Ilustruje to pułapki polegające wyłącznie na dopasowanym modelu w celu zrozumienia związku między zmiennymi.

    Dopasowany model regresji liniowej może być użyty do identyfikacji związku między pojedynczą predykcyjną zmienną x j a zmienną odpowiedzi y, gdy wszystkie inne predyktory w modelu są „utrzymywane na stałym poziomie”. W szczególności, interpretacja p j jest spodziewane zmiany Y do zmiany jednej jednostki na x j gdy inne zmienne są unieruchomione, to znaczy, wartość oczekiwaną z częściowej pochodnej z y względem x j . To jest czasami nazywane niepowtarzalny efekt z x j w y . W przeciwieństwie do tego niewielki wpływ na x j w y może być oceniana za pomocą współczynnika korelacji lub prostą regresji liniowej modelu obejmujące jedynie x j do Y ; Ten efekt jest całkowita pochodną z y względem x j .

    Interpretując wyniki regresji należy zachować ostrożność, ponieważ niektóre regresory mogą nie dopuszczać do zmian marginalnych (takich jak zmienne obojętne lub termin wyrazu wolnego), podczas gdy inne nie mogą być utrzymywane jako stałe (przypomnijmy przykład ze wstępu: byłoby to niemożliwe). "utrzymać t i ustalone" i jednocześnie zmienić wartość t i 2 ).

    Możliwe, że unikalny efekt może być prawie zerowy, nawet jeśli efekt marginalny jest duży. Może to sugerować, że jakaś inna współzmienna przechwytuje wszystkie informacje w x j , tak że gdy ta zmienna znajdzie się w modelu, nie ma wkładu x j w zmienność w y . Odwrotnie, unikalny efekt x j może być duży, podczas gdy jego marginalny efekt jest prawie zerowy. Stałoby się tak, gdyby inne współzmienne wyjaśniały dużą część zmienności y , ale wyjaśniają głównie zmienność w sposób, który jest komplementarny do tego, co jest uchwycone przez x j . W tym przypadku uwzględnienie innych zmiennych w modelu zmniejsza część zmienności y niezwiązaną z x j , wzmacniając w ten sposób pozorny związek z x j .

    Znaczenie wyrażenia „utrzymywane na stałym poziomie” może zależeć od tego, jak powstają wartości zmiennych predykcyjnych. Jeśli eksperymentator bezpośrednio ustawia wartości zmiennych predykcyjnych zgodnie z planem badania, porównania będące przedmiotem zainteresowania mogą dosłownie odpowiadać porównaniom między jednostkami, których zmienne predykcyjne zostały „ustalone” przez eksperymentatora. Alternatywnie, wyrażenie „utrzymany na stałe” może odnosić się do selekcji, która ma miejsce w kontekście analizy danych. W tym przypadku „utrzymujemy zmienną stałą”, ograniczając naszą uwagę do podzbiorów danych, które mają wspólną wartość dla danej zmiennej predykcyjnej. Jest to jedyna interpretacja „utrzymany na stałe”, którą można zastosować w badaniu obserwacyjnym.

    Pojęcie „unikalnego efektu” jest atrakcyjne podczas badania złożonego systemu, w którym na zmienną odpowiedzi wpływa wiele powiązanych ze sobą składników. W niektórych przypadkach można to dosłownie zinterpretować jako przyczynowy efekt interwencji, który jest powiązany z wartością zmiennej predykcyjnej. Argumentowano jednak, że w wielu przypadkach analiza regresji wielokrotnej nie wyjaśnia relacji między zmiennymi predykcyjnymi a zmienną odpowiedzi, gdy predyktory są ze sobą skorelowane i nie są przypisane zgodnie z projektem badania.

    Rozszerzenia

    Opracowano liczne rozszerzenia regresji liniowej, które pozwalają na rozluźnienie niektórych lub wszystkich założeń podstawowego modelu.

    Prosta i wielokrotna regresja liniowa

    Przykład prostej regresji liniowej , która ma jedną zmienną niezależną

    Najprostszy przypadek pojedynczej skalarnej zmiennej predykcyjnej x i pojedynczej skalarnej zmiennej odpowiedzi y jest znany jako prosta regresja liniowa . Rozszerzenie na zmienne predyktorów wielokrotnych i/lub wektorowych (oznaczonych dużą literą X ) jest znane jako wielowymiarowa regresja liniowa , znana również jako wielowymiarowa regresja liniowa (nie mylić z wielowymiarową regresją liniową ).

    Wielokrotna regresja liniowa to uogólnienie prostej regresji liniowej na przypadek więcej niż jednej zmiennej niezależnej oraz szczególny przypadek ogólnych modeli liniowych, ograniczony do jednej zmiennej zależnej. Podstawowym modelem wielokrotnej regresji liniowej jest

    dla każdej obserwacji i = 1, ... , n .

    W powyższym wzorze bierzemy pod uwagę n obserwacji jednej zmiennej zależnej ip zmiennych niezależnych. Zatem Y i jest i- obserwacją zmiennej zależnej, X ij jest i- obserwacją j- tej zmiennej niezależnej, j = 1, 2, ..., p . Wartości β j reprezentują parametry, które mają zostać oszacowane, a ε i jest i- tym niezależnym błędem normalnym o identycznym rozkładzie.

    W bardziej ogólnej wielowymiarowej regresji liniowej istnieje jedno równanie o powyższej postaci dla każdej z m > 1 zmiennych zależnych, które mają ten sam zestaw zmiennych objaśniających, a zatem są szacowane jednocześnie ze sobą:

    dla wszystkich obserwacji indeksowanych jako i = 1, ... , n oraz dla wszystkich zmiennych zależnych indeksowanych jako j = 1, ... , m .

    Prawie wszystkie modele regresji w świecie rzeczywistym zawierają wiele predyktorów, a podstawowe opisy regresji liniowej są często formułowane w kategoriach modelu regresji wielorakiej. Zauważ jednak, że w tych przypadkach zmienna odpowiedzi y jest nadal skalarem. Inny termin, wielowymiarowa regresja liniowa , odnosi się do przypadków, w których y jest wektorem, czyli tak samo jak ogólna regresja liniowa .

    Ogólne modele liniowe

    Ogólny model liniowy uważa sytuację, gdy zmienna odpowiedź nie jest skalarne (dla każdej obserwacji), ale wektor, y í . Nadal zakładana jest warunkowa liniowość , przy czym macierz B zastępuje wektor β klasycznego modelu regresji liniowej. Opracowano wielowymiarowe analogi zwykłych najmniejszych kwadratów (OLS) i uogólnionych najmniejszych kwadratów (GLS). „Ogólne modele liniowe” są również nazywane „wielowymiarowymi modelami liniowymi”. To nie to samo, co wielowymiarowe modele liniowe (zwane również „wieloma modelami liniowymi”).

    Modele heteroskedastyczne

    Stworzono różne modele, które pozwalają na heteroskedastyczność , tj. błędy dla różnych zmiennych odpowiedzi mogą mieć różne wariancje . Na przykład ważone najmniejszych kwadratów to metoda szacowania modeli regresji liniowej, gdy zmienne odpowiedzi mogą mieć różne wariancje błędu, prawdopodobnie z błędami skorelowanymi. (Patrz również ważony metodą najmniejszych kwadratów i uogólnione najmniejszych kwadratów ). Heteroskedastyczność spójne błędy standardowe jest ulepszony sposób użycia z nieskorelowanych ale potencjalnie heteroskedastyczny błędów.

    Uogólnione modele liniowe

    Uogólnione modele liniowe (GLM) stanowią ramy do modelowania zmiennych odpowiedzi, które są ograniczone lub dyskretne. Jest to używane na przykład:

    • podczas modelowania ilości dodatnich (np. cen lub populacji), które różnią się na dużą skalę — które lepiej opisuje się za pomocą rozkładu skośnego, takiego jak rozkład logarytmiczno-normalny lub rozkład Poissona (chociaż GLM nie są używane do danych logarytmicznie normalnych, zamiast tego zmienna jest po prostu przekształcana za pomocą funkcji logarytmicznej);
    • podczas modelowania danych kategorycznych , takich jak wybór danego kandydata w wyborach (co lepiej opisuje rozkład Bernoulliego / rozkład dwumianowy dla wyborów binarnych lub rozkład kategoryczny / rozkład wielomianowy dla wyborów wieloczynnikowych), gdzie istnieje stała liczba wyborów, których nie można uporządkować w sensowny sposób;
    • podczas modelowania danych porządkowych , np. oceny w skali od 0 do 5, gdzie różne wyniki mogą być uporządkowane, ale sama wielkość może nie mieć żadnego bezwzględnego znaczenia (np. ocena 4 może nie być „dwa razy lepsza” w żadnym celu sens jako ocena 2, ale po prostu wskazuje, że jest lepsza niż 2 lub 3, ale nie tak dobra jak 5).

    Uogólnione modele liniowe pozwalają na dowolną funkcję łączenia , g , która wiąże średnią zmiennej (zmiennych) odpowiedzi z predyktorami: . Funkcja łączenia jest często powiązana z rozkładem odpowiedzi, aw szczególności zazwyczaj powoduje przekształcenie między zakresem predyktora liniowego a zakresem zmiennej odpowiedzi.

    Oto kilka typowych przykładów GLM:

    Modele jednoindeksowe dopuszczają pewien stopień nieliniowości w relacji między x i y , zachowując centralną rolę predyktora liniowego βx jak w klasycznym modelu regresji liniowej. W pewnych warunkach zwykłe zastosowanie OLS do danych z modelu jednoindeksowego pozwoli konsekwentnie oszacować β aż do stałej proporcjonalności.

    Hierarchiczne modele liniowe

    Hierarchiczne modele liniowe (lub regresja wielopoziomowa ) organizują dane w hierarchię regresji, na przykład gdzie A jest regresowane na B , a B jest regresowane na C . Jest często używany tam, gdzie interesujące zmienne mają naturalną strukturę hierarchiczną, na przykład w statystykach edukacyjnych, gdzie uczniowie są zagnieżdżeni w salach lekcyjnych, sale lekcyjne są zagnieżdżone w szkołach, a szkoły są zagnieżdżone w niektórych grupach administracyjnych, takich jak okręg szkolny. Zmienna odpowiedzi może być miarą osiągnięć uczniów, taką jak wynik testu, a różne współzmienne będą zbierane na poziomie klasy, szkoły i okręgu szkolnego.

    Błędy w zmiennych

    Modele błędów w zmiennych (lub „modele błędów pomiarowych”) rozszerzają tradycyjny model regresji liniowej, umożliwiając obserwację zmiennych predykcyjnych X z błędem. Ten błąd powoduje, że standardowe estymatory β stają się obciążone. Ogólnie rzecz biorąc, formą obciążenia jest tłumienie, co oznacza, że ​​efekty są napięte w kierunku zera.

    Inni

    • W teorii Dempstera-Shafera , a w szczególności liniowej funkcji przekonań , model regresji liniowej może być reprezentowany jako macierz częściowo przemiatana, którą można łączyć z podobnymi macierzami reprezentującymi obserwacje i innymi zakładanymi rozkładami normalnymi i równaniami stanu. Kombinacja macierzy ukosowanych lub nieskośnych zapewnia alternatywną metodę szacowania modeli regresji liniowej.

    Metody szacowania

    Opracowano wiele procedur do estymacji parametrów i wnioskowania w regresji liniowej. Metody te różnią się prostotą obliczeniową algorytmów, obecnością rozwiązania w formie zamkniętej, odpornością na rozkłady gruboogonowe oraz założeniami teoretycznymi potrzebnymi do walidacji pożądanych właściwości statystycznych, takich jak spójność i wydajność asymptotyczna .

    Poniżej podsumowano niektóre z bardziej powszechnych technik estymacji dla regresji liniowej.

    Estymacja metodą najmniejszych kwadratów i powiązane techniki

    Ilustracja Francisa Galtona z 1886 roku przedstawiająca korelację między wzrostem dorosłych a ich rodzicami. Obserwacja, że ​​wzrost dorosłych dzieci ma tendencję do mniejszego odchylania się od średniego wzrostu niż ich rodzice, sugerowała koncepcję „ regresji w kierunku średniej ”, nadając regresji swoją nazwę. „Miejsce poziomych stycznych punktów” przechodzącej przez najbardziej lewostronne i skrajnie prawych punktów elipsy (która jest krzywą poziom w dwuwymiarowym rozkładu normalnego oszacować na podstawie danych) jest OLS oszacowania regresji wysokościach rodziców na wysokości dzieci, natomiast „miejsce pionowych punktów stycznych” to oszacowanie OLS regresji wzrostu dzieci na wzrost rodziców. Główną osią elipsy jest oszacowanie TLS .

    Zakładając, że zmienna niezależna to , a parametry modelu to , to predykcja modelu byłaby

    .

    Jeśli zostanie rozszerzone do, to stanie się iloczynem skalarnym parametru i zmiennej niezależnej, tj.

    .

    W ustawieniu najmniejszych kwadratów optymalny parametr definiuje się jako taki, który minimalizuje sumę średniej kwadratowej straty:

    Teraz umieszczając zmienne niezależne i zależne w macierzach i odpowiednio, funkcję straty można przepisać jako:

    Ponieważ strata jest wypukła, optymalne rozwiązanie leży w gradiencie zerowym. Gradient funkcji straty to (przy użyciu konwencji układu Denominator ):

    Ustawienie gradientu na zero daje optymalny parametr:

    Uwaga: Aby udowodnić, że otrzymane jest rzeczywiście minimum lokalnym, należy jeszcze raz zróżnicować, aby otrzymać macierz Hessów i wykazać, że jest ona określona dodatnio. Zapewnia to twierdzenie Gaussa-Markowa .

    Liniowe metody najmniejszych kwadratów obejmują głównie:

    Szacowanie maksymalnego prawdopodobieństwa i powiązane techniki

    • Maksymalna oszacowanie prawdopodobieństwa mogą być wykonywane, gdy rozkład względem błędów jest znana należeć do pewnej rodziny parametrycznej ƒ θ z rozkładów prawdopodobieństwa . Gdy f θ jest rozkładem normalnym z zerową średnią i wariancją θ, wynikowe oszacowanie jest identyczne z oszacowaniem OLS. Oszacowania GLS są oszacowaniami największej prawdopodobieństwa, gdy ε podąża za wielowymiarowym rozkładem normalnym ze znaną macierzą kowariancji .
    • Regresja grzbietowa i inne formy penalizowanego oszacowania, takie jak regresja Lasso , celowo wprowadzają błąd systematyczny do oszacowania β w celu zmniejszenia zmienności oszacowania. Uzyskane szacunki mają zwykle niższy średni błąd kwadratowy niż szacunków OLS, szczególnie gdy Współliniowość jest obecny lub gdy przeuczenia jest problem. Zwykle stosuje się je, gdy celem jest przewidzenie wartości zmiennej odpowiedzi y dla wartości predyktorów x , które nie zostały jeszcze zaobserwowane. Metody te nie są tak powszechnie stosowane, gdy celem jest wnioskowanie, ponieważ trudno jest wyjaśnić stronniczość.
    • Regresja najmniejszego odchylenia bezwzględnego (LAD) jest solidną techniką estymacji , ponieważ jest mniej czuła na obecność wartości odstających niż OLS (ale jest mniej wydajna niż OLS, gdy nie ma wartości odstających). Jest to równoważne oszacowaniu największej wiarygodności wmodelu rozkładu Laplace'a dla ε .
    • Estymacja adaptacyjna . Jeżeli założymy, że składniki błędu są niezależne od regresorów, to optymalnym estymatorem jest dwustopniowy MLE, w którym pierwszy krok służy do nieparametrycznego oszacowania rozkładu składnika błędu.

    Inne techniki szacowania

    Porównanie estymatora Theila–Sena (kolor czarny) i prostej regresji liniowej (kolor niebieski) dla zbioru punktów z wartościami odstającymi.
    • Bayesowska regresja liniowa stosuje ramy statystyki bayesowskiej do regresji liniowej. (Patrz także Bayesowska wielowymiarowa regresja liniowa .) W szczególności zakłada się, że współczynniki regresji β są zmiennymi losowymi o określonym wcześniejszym rozkładzie . Wcześniejszy rozkład może wpływać na rozwiązania współczynników regresji w sposób podobny (ale bardziej ogólny niż) do regresji grzbietowej lub regresji lasso . Ponadto, proces estymacji bayesowskiej nie daje oszacowania pojedynczego punktu dla „najlepszych” wartości współczynników regresji, ale cały rozkład a posteriori , całkowicie opisujący niepewność otaczającą wielkość. Można to wykorzystać do oszacowania „najlepszych” współczynników przy użyciu średniej, mody, mediany, dowolnego kwantyla (patrz regresja kwantylowa ) lub dowolnej innej funkcji rozkładu a posteriori.
    • Regresja kwantylowa skupia się na warunkowych kwantylach y przy danym X , a nie na warunkowej średniej y przy danym X . Regresja kwantylowa liniowa modeluje określony kwantyl warunkowy, na przykład medianę warunkową, jako funkcję liniową β T x predyktorów.
    • Modele mieszane są szeroko stosowane do analizowania relacji regresji liniowej obejmujących dane zależne, gdy zależności mają znaną strukturę. Typowe zastosowania modeli mieszanych obejmują analizę danych obejmujących powtarzane pomiary, takie jak dane podłużne lub dane uzyskane z próbkowania klastrowego. Na ogół są one dopasowane jakomodele parametryczne , wykorzystujące maksymalną wiarogodność lub estymację bayesowską. W przypadku, gdy błędy są modelowane jako normalne zmienne losowe, istnieje ścisły związek między modelami mieszanymi a uogólnionymi najmniejszymi kwadratami. Estymacja efektów stałych jest alternatywnym podejściem do analizy tego typu danych.
    • Regresja głównych składowych (PCR) jest używana, gdy liczba zmiennych predykcyjnych jest duża lub gdy istnieją silne korelacje między zmiennymi predykcyjnymi. Ta dwuetapowa procedura najpierw redukuje zmienne predyktorów za pomocą analizy głównych składowych, a następnie wykorzystuje zredukowane zmienne w dopasowaniu regresji OLS. Chociaż często działa to dobrze w praktyce, nie ma ogólnego teoretycznego powodu, aby najbardziej informacyjna funkcja liniowa zmiennych predykcyjnych znajdowała się wśród dominujących głównych składników wielowymiarowego rozkładu zmiennych predykcyjnych. Częściowej regresji najmniejszych kwadratów jest rozszerzenie metody PCR, które nie cierpią z powodu wspomnianego braku.
    • Regresja najmniejszych kątów to procedura estymacji modeli regresji liniowej, która została opracowana do obsługi wielowymiarowych wektorów współzmiennych, potencjalnie z większą liczbą współzmiennych niż obserwacje.
    • Thiel-Sen estymator jest prosty estymacja odporna techniką wybiera nachylenie linii dopasowania się mediana zboczy linii z parami punktów próbkowania. Ma podobne właściwości wydajności statystycznej do prostej regresji liniowej, ale jest znacznie mniej wrażliwy na wartości odstające .
    • Wprowadzono inne niezawodne techniki estymacji, w tym podejście α-obciętej średniej oraz estymatory L-, M-, S- i R- .

    Aplikacje

    Regresja liniowa jest szeroko stosowana w naukach biologicznych, behawioralnych i społecznych do opisywania możliwych relacji między zmiennymi. Jest to jedno z najważniejszych narzędzi stosowanych w tych dyscyplinach.

    Linia trendu

    Linia trendu reprezentuje trend, długoterminowy ruch danych szeregów czasowych po uwzględnieniu innych składników. Informuje, czy określony zestaw danych (np. PKB, ceny ropy lub ceny akcji) wzrósł lub zmalał na przestrzeni czasu. Linię trendu można po prostu narysować wzrokowo przez zestaw punktów danych, ale dokładniej ich położenie i nachylenie oblicza się przy użyciu technik statystycznych, takich jak regresja liniowa. Linie trendu są zazwyczaj liniami prostymi, chociaż niektóre odmiany wykorzystują wielomiany wyższego stopnia w zależności od pożądanego stopnia krzywizny linii.

    Linie trendu są czasami używane w analityce biznesowej, aby pokazać zmiany danych w czasie. Ma to tę zaletę, że jest proste. Linie trendu są często używane do twierdzenia, że ​​określone działanie lub wydarzenie (takie jak szkolenie lub kampania reklamowa) spowodowało zaobserwowane zmiany w danym momencie. Jest to prosta technika i nie wymaga grupy kontrolnej, projektu eksperymentalnego ani skomplikowanej techniki analitycznej. Jednak cierpi na brak naukowej wiarygodności w przypadkach, w których inne potencjalne zmiany mogą wpłynąć na dane.

    Epidemiologia

    Wczesne dowody łączące palenie tytoniu ze śmiertelnością i zachorowalnością pochodziły z badań obserwacyjnych wykorzystujących analizę regresji. Aby zredukować fałszywe korelacje podczas analizy danych obserwacyjnych, badacze zazwyczaj włączają do swoich modeli regresji kilka zmiennych oprócz zmiennej będącej przedmiotem zainteresowania. Na przykład w modelu regresji, w którym palenie papierosów jest zmienną niezależną głównego zainteresowania, a zmienną zależną jest długość życia mierzona w latach, naukowcy mogą uwzględnić wykształcenie i dochód jako dodatkowe zmienne niezależne, aby zapewnić, że każdy zaobserwowany wpływ palenia na długość życia jest nie ze względu na te inne czynniki społeczno-ekonomiczne . Jednak nigdy nie jest możliwe uwzględnienie wszystkich możliwych zmiennych zakłócających w analizie empirycznej. Na przykład hipotetyczny gen może zwiększyć śmiertelność, a także spowodować, że ludzie będą więcej palić. Z tego powodu randomizowane kontrolowane próby często są w stanie wygenerować bardziej przekonujące dowody na związki przyczynowe niż można uzyskać za pomocą analiz regresji danych obserwacyjnych. Gdy kontrolowane eksperymenty nie są wykonalne, warianty analizy regresji, takie jak regresja zmiennych instrumentalnych, mogą być wykorzystane do próby oszacowania związków przyczynowych na podstawie danych obserwacyjnych.

    Finanse

    Model wyceny aktywów kapitałowych wykorzystuje regresję liniową oraz koncepcję beta do analizy i kwantyfikacji systematycznego ryzyka inwestycji. Wynika to bezpośrednio ze współczynnika beta modelu regresji liniowej, który wiąże zwrot z inwestycji ze zwrotem ze wszystkich ryzykownych aktywów.

    Ekonomia

    Regresja liniowa jest dominującym narzędziem empirycznym w ekonomii . Na przykład służy do przewidywania wydatków konsumpcyjnych , stałych wydatków inwestycyjnych , inwestycji w zapasy , zakupów eksportowych danego kraju , wydatków na import , popytu na utrzymywanie płynnych aktywów , popytu na pracę i podaży pracy .

    Nauka o środowisku

    Regresja liniowa znajduje zastosowanie w szerokim zakresie zastosowań w naukach o środowisku. W Kanadzie program monitorowania wpływu na środowisko wykorzystuje analizy statystyczne badań ryb i bentosu w celu pomiaru wpływu ścieków z celulozowni lub kopalni metali na ekosystem wodny.

    Nauczanie maszynowe

    Regresja liniowa odgrywa ważną rolę w poddziedzinie sztucznej inteligencji znanej jako uczenie maszynowe . Algorytm regresji liniowej jest jednym z podstawowych nadzorowanych algorytmów uczenia maszynowego ze względu na jego względną prostotę i dobrze znane właściwości.

    Historia

    Regresja liniowa najmniejszych kwadratów, jako sposób na znalezienie dobrego przybliżonego dopasowania liniowego do zbioru punktów, została przeprowadzona przez Legendre'a (1805) i Gaussa (1809) w celu przewidywania ruchu planet. Quetelet był odpowiedzialny za upowszechnienie procedury i szerokie jej zastosowanie w naukach społecznych.

    Zobacz też

    Bibliografia

    Cytaty

    Źródła

    • Cohen, J., Cohen P., West, SG i Aiken, LS (2003). Zastosowana analiza regresji/korelacji wielokrotnej dla nauk behawioralnych . (2nd ed.) Hillsdale, NJ: Lawrence Erlbaum Associates
    • Karola Darwina . Zmienność zwierząt i roślin udomowionych . (1868) (Rozdział XIII opisuje to, co wiedziano o powrocie w czasach Galtona. Darwin używa terminu „rewersja”).
    • Draper, NR; Smith, H. (1998). Stosowana analiza regresji (3rd ed.). Johna Wileya. Numer ISBN 978-0-471-17082-2.
    • Francisa Galtona. „Regresja ku przeciętności w dziedzicznej postawie”, Journal of the Anthropological Institute , 15:246-263 (1886). (Faks pod adresem: [1] )
    • Robert S. Pindyck i Daniel L. Rubinfeld (1998, wyd. 4). Modele ekonometryczne i prognozy ekonomiczne , rozdz. 1 (Wstęp, w tym dodatki dotyczące operatorów Σ i wyprowadzania szacunków parametrów) i Dodatek 4.3 (regresja wielokrotna w postaci macierzy).

    Dalsza lektura

    Zewnętrzne linki