Regresja częściowych najmniejszych kwadratów — Partial least squares regression

Regresja częściowych najmniejszych kwadratów ( regresja PLS ) jest metodą statystyczną , która ma pewien związek z regresją głównych składowych ; zamiast znajdowania hiperpłaszczyzn o maksymalnej wariancji między odpowiedzią a zmiennymi niezależnymi, znajduje model regresji liniowej , rzutując zmienne przewidywane i zmienne obserwowalne na nową przestrzeń. Ponieważ zarówno dane X, jak i Y są rzutowane na nowe przestrzenie, rodzina metod PLS jest znana jako dwuliniowe modele czynnikowe. Analiza dyskryminacyjna cząstkowych najmniejszych kwadratów (PLS-DA) jest wariantem stosowanym, gdy Y jest kategoryczne.

PLS służy do znajdowania podstawowych relacji między dwiema macierzami ( X i Y ), tj. podejścia ze zmienną latentną do modelowania struktur kowariancji w tych dwóch przestrzeniach. Model PLS spróbuje znaleźć kierunek wielowymiarowy w przestrzeni X, który wyjaśnia maksymalny kierunek wariancji wielowymiarowej w przestrzeni Y. Regresja PLS jest szczególnie odpowiednia, gdy macierz predyktorów ma więcej zmiennych niż obserwacji oraz gdy występuje wielokoliniowość między wartościami X. Natomiast standardowa regresja w tych przypadkach zawiedzie (chyba że jest uregulowana ).

Częściowe najmniejsze kwadraty wprowadził szwedzki statystyk Herman OA Wold , który następnie opracował ją wraz z synem Svante Woldem. Alternatywnym terminem dla PLS (i bardziej poprawnym według Svante Wolda) jest projekcja na struktury ukryte , ale w wielu obszarach nadal dominuje termin cząstkowych najmniejszych kwadratów . Chociaż pierwotne zastosowania dotyczyły nauk społecznych, regresja PLS jest obecnie najszerzej stosowana w chemometrii i dziedzinach pokrewnych. Znajduje również zastosowanie w bioinformatyce , sensometrii , neuronauce i antropologii .

Model bazowy

Ogólny model leżący u podstaw wielowymiarowego PLS to

{\ Displaystyle X = TP ^ {\ operatorname {T}} + E}

{\ Displaystyle Y = UQ ^ {\ operatorname {T}} + F}

gdzie $X$ jest macierzą predyktorów, $Y$ jest macierzą odpowiedzi; $T$ i $U$ są macierzami, które są odpowiednio projekcjami $X$ ( wynik X , macierz składowa lub czynnikowa ) i projekcjami $Y$ ( wyniki Y ); $P$ i $Q$ to odpowiednio i ortogonalne macierze obciążenia ; a macierze $E$ i $F$ są terminami błędu, zakładanymi jako niezależne losowe zmienne normalne o identycznym rozkładzie. Rozkłady $X$ i $Y$ są dokonywane tak, aby zmaksymalizować kowariancję między $T$ i $U$ . $n\razy m$ $n\razy p$ $n\razy l$ $m\razy l$ $p\razy l$

Algorytmy

Istnieje szereg wariantów PLS do szacowania macierzy współczynnika i obciążenia $T, U, P$ i $Q$ . Większość z nich buduje szacunki regresji liniowej między $X$ i $Y$ jako . Niektóre algorytmy PLS są odpowiednie tylko w przypadku, gdy $Y$ jest wektorem kolumnowym, podczas gdy inne zajmują się ogólnym przypadkiem macierzy $Y$ . Algorytmy różnią się również tym, czy szacują macierz czynników $T$ jako macierz ortogonalną (czyli ortonormalną ), czy nie. Ostateczna prognoza będzie taka sama dla wszystkich tych odmian PLS, ale składniki będą się różnić. ${\ Displaystyle Y = X {\ tylda {B}} + {\ tylda {B}} _ {0}}$

PLS1

PLS1 jest szeroko stosowany algorytm odpowiednie dla wektora $Y$ przypadku. Szacuje $T$ jako macierz ortonormalną. W pseudokodzie jest to wyrażone poniżej (wielkie litery to macierze, małe litery to wektory, jeśli są indeksowane w indeksie górnym, a skalary, jeśli są indeksowane)

 1 function PLS1( $X, y, l$ )
 2      $X^{(0)}\gets X$ 
 3      $w^{(0)}\gets X^{\mathrm {T} }y/||X^{\mathrm {T} }y||$ , an initial estimate of  $w$ .
 4     for  $k=0$  to  $l-1$ 
 5          $t^{(k)}\gets X^{(k)}w^{(k)}$ 
 6          $t_{k}\gets {t^{(k)}}^{\mathrm {T} }t^{(k)}$  (note this is a scalar)
 7          $t^{(k)}\gets t^{(k)}/t_{k}$ 
 8          $p^{(k)}\gets {X^{(k)}}^{\mathrm {T} }t^{(k)}$ 
 9          $q_{k}\gets {y}^{\mathrm {T} }t^{(k)}$  (note this is a scalar)
10         if  $q_{k}=0$ 
11              $l\gets k$ , break the for loop
12         if  $k<(l-1)$ 
13              $X^{(k+1)}\gets X^{(k)}-t_{k}t^{(k)}{p^{(k)}}^{\mathrm {T} }$ 
14              $w^{(k+1)}\gets {X^{(k+1)}}^{\mathrm {T} }y$ 
15     end for
16     define  $W$  to be the matrix with columns  $w^{(0)},w^{(1)},...,w^{(l-1)}$ .
       Do the same to form the  $P$  matrix and  $q$  vector.
17      $B\gets W{(P^{\mathrm {T} }W)}^{-1}q$ 
18      $B_{0}\gets q_{0}-{P^{(0)}}^{\mathrm {T} }B$ 
19     return  $B,B_{0}$

Ta forma algorytmu nie wymaga centrowania wejść $X$ i $Y$ , ponieważ jest to realizowane domyślnie przez algorytm. W algorytmie tym występuje „deflacja” macierzy $X$ (odejmowanie ), ale deflacja wektora $y$ nie jest wykonywana, ponieważ nie jest konieczna (można wykazać, że deflacja $y$ daje takie same wyniki, jak brak deflacji). Zmienna podawana przez użytkownika $l$ jest limitem liczby czynników ukrytych w regresji; jeśli jest równy rangowi macierzy $X$ , algorytm da oszacowania regresji metodą najmniejszych kwadratów dla $B$ i ${\ Displaystyle t_ {k} t ^ {(k)} {p ^ {(k)}} ^ {\ operator {T}}}$ $B_{0}$

Rozszerzenia

W 2002 roku opublikowano nową metodę nazwaną rzutami ortogonalnymi na struktury latentne (OPLS). W OPLS dane zmiennych ciągłych są dzielone na informacje predykcyjne i nieskorelowane. Prowadzi to do lepszej diagnostyki, a także do łatwiejszej interpretacji wizualizacji. Jednak zmiany te tylko poprawiają interpretowalność, a nie przewidywalność modeli PLS. L-PLS rozszerza regresję PLS do 3 połączonych bloków danych. Podobnie OPLS-DA (Analiza Dyskryminacyjna) może być zastosowana podczas pracy ze zmiennymi dyskretnymi, jak w badaniach klasyfikacyjnych i biomarkerowych.

W 2015 roku metoda cząstkowych najmniejszych kwadratów była związana z procedurą zwaną trójprzebiegowym filtrem regresji (3PRF). Zakładając, że liczba obserwacji i zmiennych jest duża, 3PRF (a zatem PLS) jest asymptotycznie normalny dla „najlepszej” prognozy wynikającej z liniowego modelu czynnika ukrytego. W danych giełdowych wykazano, że PLS zapewnia dokładne prognozy poza próbą dotyczące zwrotów i wzrostu przepływów pieniężnych.

Wersja PLS oparta na dekompozycji wartości singularnej (SVD) zapewnia wydajną pamięć, która może być wykorzystana do rozwiązywania problemów wielowymiarowych, takich jak powiązanie milionów markerów genetycznych z tysiącami funkcji obrazowania w genetyce obrazowania na sprzęcie klasy konsumenckiej.

Korelacja PLS (PLSC) to kolejna metodologia związana z regresją PLS, która została wykorzystana w neuroobrazowaniu, a ostatnio w naukach o sporcie, do ilościowego określenia siły związku między zestawami danych. Zazwyczaj PLSC dzieli dane na dwa bloki (podgrupy), z których każdy zawiera jedną lub więcej zmiennych, a następnie wykorzystuje dekompozycję według wartości osobliwych (SVD) w celu ustalenia siły jakiegokolwiek związku (tj. ilości udostępnianych informacji), które mogą istnieć między dwie podgrupy składowe. Czyni to za pomocą SVD do określenia bezwładności (tj. sumy wartości osobliwych) macierzy kowariancji rozważanych podgrup.

Zobacz też

Dalsza lektura

Kramer, R. (1998). Techniki chemometryczne do analizy ilościowej . Marcela-Dekkera. Numer ISBN 978-0-8247-0198-7.
Frank, Ildiko E.; Friedman, Jerome H. (1993). „Statystyczne spojrzenie na niektóre narzędzia regresji chemometrii”. Technometria . 35 (2): 109–148. doi : 10.1080/00401706.1993.10485033 .
Haenleina, Michaela; Kaplan, Andreas M. (2004). „Przewodnik dla początkujących do częściowej analizy najmniejszych kwadratów”. Zrozumienie statystyk . 3 (4): 283–297. doi : 10.1207/s15328031us0304_4 .
Henselera, Joerga; Fassotto, Georg (2005). „Testowanie efektów moderowania w modelach ścieżek PLS. Ilustracja dostępnych procedur”. Cytowanie dziennika wymaga |journal=( pomoc )
Lingjærde, ole-chrześcijanin; Christophersen, Nils (2000). „Struktura skurczu częściowych najmniejszych kwadratów”. Skandynawski Dziennik Statystyczny . 27 (3): 459–473. doi : 10.1111/1467-9469.00201 .
Tenenhaus, Michel (1998). La Régression PLS: Théorie et Pratique. Paryż: Technip .
rosipal, rzymski; Kramer, Nicole (2006). „Przegląd i najnowsze postępy w częściowych najmniejszych kwadratów, w podprzestrzeni, utajonej strukturze i technikach wyboru funkcji”: 34-51. Cytowanie dziennika wymaga |journal=( pomoc )
Helland, Inge S. (1990). „Regresja PLS i modele statystyczne”. Skandynawski Dziennik Statystyczny . 17 (2): 97–114. JSTOR 4616159 .
Wold, Herman (1966). „Oszacowanie głównych składników i powiązanych modeli przez iteracyjne najmniejszych kwadratów”. W Krishnaiaah, PR (red.). Analiza wielowymiarowa . Nowy Jork: prasa akademicka. s. 391-420.
Wold, Herman (1981). Podejście stałopunktowe do systemów współzależnych . Amsterdam: Holandia Północna.
Wold, Herman (1985). „Częściowo najmniejszych kwadratów”. W Kotz Samuel; Johnson, Norman L. (red.). Encyklopedia nauk statystycznych . 6 . Nowy Jork: Wiley. s. 581-591.
Wold, Svante; Ruhe, Aksel; Wold, Herman; Dunn, WJ (1984). „Problem kolinearności w regresji liniowej. podejście metodą najmniejszych kwadratów (PLS) do uogólnionych odwrotności”. SIAM Czasopismo Informatyki Naukowej i Statystycznej . 5 (3): 735–743. doi : 10.1137/0905052 .
Garthwaite, Paul H. (1994). „Interpretacja częściowych najmniejszych kwadratów”. Dziennik Amerykańskiego Towarzystwa Statystycznego . 89 (425): 122-7. doi : 10.1080/01621459.1994.10476452 . JSTOR 2291207 .
Wang, H., wyd. (2010). Podręcznik częściowych najmniejszych kwadratów . Numer ISBN 978-3-540-32825-4.
Kamień, M.; Brooks, RJ (1990). „Regresja kontinuum: sprawdzana krzyżowo, sekwencyjnie skonstruowana prognoza obejmująca zwykłe najmniejsze kwadraty, częściowe najmniejszych kwadratów i regresję głównych składowych”. Dziennik Królewskiego Towarzystwa Statystycznego, Seria B . 52 (2): 237–269. JSTOR 2345437 .

Bibliografia

Zewnętrzne linki

Krótkie wprowadzenie do regresji PLS i jej historii

Languages

In other projects