Analiza głównych składowych - Principal component analysis

PCA wielowymiarowego rozkładu Gaussa wyśrodkowanego na (1,3) z odchyleniem standardowym wynoszącym 3 w przybliżeniu w kierunku (0,866, 0,5) i 1 w kierunku ortogonalnym. Wektory podane są wektory z macierzy kowariancji skalowana przez pierwiastek kwadratowy z odpowiadającym wartości własnej, i przesuwany, więc ich ogony przy średniej.

Te zasadnicze elementy ze zbioru punktów w przestrzeni rzeczywistym współrzędnych są sekwencją wektor jednostkowy , gdzie -ty wektora jest kierunek linii, która najlepiej pasuje do danych, będąc prostopadłe do pierwszych wektorów. Tutaj najlepiej dopasowana linia jest zdefiniowana jako taka, która minimalizuje średnią kwadratową odległość od punktów do linii . Kierunki te stanowią bazę ortonormalną, w której poszczególne wymiary danych są liniowo nieskorelowane . Analiza głównych składowych ( PCA ) to proces obliczania głównych składników i wykorzystywania ich do zmiany podstawy danych, czasami przy użyciu tylko kilku pierwszych głównych składników i ignorując pozostałe.

PCA służy do eksploracyjnej analizy danych oraz tworzenia modeli predykcyjnych . Jest powszechnie używany do redukcji wymiarów poprzez rzutowanie każdego punktu danych tylko na kilka pierwszych głównych komponentów w celu uzyskania danych o niższych wymiarach, przy jednoczesnym zachowaniu jak największej zmienności danych. Pierwszy główny składnik można równoważnie zdefiniować jako kierunek, który maksymalizuje wariancję przewidywanych danych. -Ty Główny składnik może być stosowany w kierunku prostopadłym do pierwszych podstawowych elementów, które maksymalizuje wariancji prognozowanych danych.

Z każdego celu można wykazać, że głównymi składnikami są wektory własne macierzy kowariancji danych . W związku z tym główne składniki są często obliczane przez dekompozycję własną macierzy kowariancji danych lub dekompozycję macierzy danych na wartości osobliwe . PCA jest najprostszą z prawdziwych analiz wielowymiarowych opartych na wektorach własnych i jest ściśle związana z analizą czynnikową . Analiza czynnikowa zazwyczaj obejmuje bardziej specyficzne dla dziedziny założenia dotyczące podstawowej struktury i rozwiązuje wektory własne o nieco innej macierzy. PCA jest również związane z analizą korelacji kanonicznej (CCA) . CCA definiuje układy współrzędnych, które optymalnie opisują kowariancję krzyżową między dwoma zestawami danych, podczas gdy PCA definiuje nowy ortogonalny układ współrzędnych, który optymalnie opisuje wariancję w pojedynczym zestawie danych. Zaproponowano również wytrzymałe i oparte na normie L1 warianty standardowego PCA.

Historia

PCA został wynaleziony w 1901 przez Karla Pearsona jako analogia do twierdzenia o osi głównej w mechanice; później został niezależnie opracowany i nazwany przez Harolda Hotellinga w latach 30. XX wieku. W zależności od obszaru zastosowania nazywana jest również dyskretną transformatą Karhunena-Loève'a (KLT) w przetwarzaniu sygnału , transformatą Hotellinga w wielowymiarowej kontroli jakości, właściwym rozkładem ortogonalnym (POD) w inżynierii mechanicznej, rozkładem wartości osobliwych (SVD) X (wynaleziony w ostatniej ćwierci XIX wieku), dekompozycja wartości własnej (EVD) X T X w algebrze liniowej, analiza czynnikowa (omówienie różnic między PCA a analizą czynnikową patrz rozdz. 7 Principal Component Analysis ), Twierdzenie Eckarta–Younga (Harman, 1960) lub empiryczne funkcje ortogonalne (EOF) w naukach meteorologicznych, empiryczna dekompozycja funkcji własnych (Sirovich, 1987), analiza składowych empirycznych (Lorenz, 1956), mody quasiharmoniczne (Brooks i in., 1988), rozkład spektralny w hałasie i drganiach oraz empiryczna analiza modalna w dynamice konstrukcji.

Intuicja

PCA można traktować jako dopasowanie p- wymiarowej elipsoidy do danych, gdzie każda oś elipsoidy reprezentuje główny składnik. Jeśli jakaś oś elipsoidy jest mała, to wariancja wzdłuż tej osi również jest mała.

Aby znaleźć osie elipsoidy, musimy najpierw odjąć średnią każdej zmiennej ze zbioru danych, aby wyśrodkować dane wokół początku. Następnie obliczamy macierz kowariancji danych i obliczamy wartości własne i odpowiadające im wektory własne tej macierzy kowariancji. Następnie musimy znormalizować każdy z ortogonalnych wektorów własnych, aby przekształcić je w wektory jednostkowe. Po wykonaniu tej czynności każdy z wzajemnie ortogonalnych wektorów własnych jednostkowych można interpretować jako oś elipsoidy dopasowanej do danych. Ten wybór bazy przekształci naszą macierz kowariancji w formę diagonalizowaną z elementami diagonalnymi reprezentującymi wariancję każdej osi. Proporcję wariancji, którą reprezentuje każdy wektor własny, można obliczyć, dzieląc wartość własną odpowiadającą temu wektorowi własnemu przez sumę wszystkich wartości własnych.

Detale

PCA definiuje się jako ortogonalną transformację liniową, która przekształca dane do nowego układu współrzędnych, tak że największa wariancja w pewnym odwzorowaniu skalarnym danych leży na pierwszej współrzędnej (zwanej pierwszą główną składową), druga największa wariancja na druga współrzędna i tak dalej.

Rozważmy macierz danych , X , z kolumnową zerową średnią empiryczną (średnia próbki z każdej kolumny została przesunięta do zera), gdzie każdy z n wierszy reprezentuje inne powtórzenie eksperymentu, a każda z p kolumn daje określony rodzaj funkcji (powiedzmy, wyniki z konkretnego czujnika).

Matematycznie, transformacja jest zdefiniowana przez zbiór rozmiarów z p -wymiarowego wektora masy lub współczynników , które mapują każdego wektora rzędu od X do nowego wektora główny składnik wyników , podanych

w taki sposób, że poszczególne zmienne o t uważane przez zestaw danych kolejno dziedziczyć maksymalnego możliwego odchylenia od X , przy czym każdy wektor współczynnika W ograniczone być wektorem jednostkowym (gdzie zazwyczaj dobiera się mniejszą niż zmniejszenie wymiarowości).

Pierwszy składnik

Aby zmaksymalizować wariancję, pierwszy wektor wag w (1) musi zatem spełniać

Równoważnie zapisanie tego w formie macierzowej daje

Ponieważ w (1) zostało zdefiniowane jako wektor jednostkowy, równoważnie również spełnia

Wielkość do maksymalizacji można określić jako iloraz Rayleigha . Standardowym wynikiem dla dodatniej półokreślonej macierzy takiej jak X T X jest to, że maksymalna możliwa wartość ilorazu jest największą wartością własną macierzy, która występuje, gdy w jest odpowiadającym jej wektorem własnym .

Po znalezieniu w (1) pierwszy główny składnik wektora danych x ( i ) może być podany jako wynik t 1( i ) = x ( i )w (1) w przekształconych współrzędnych lub jako odpowiedni wektor w oryginalnych zmiennych { x ( i )w (1) } w (1) .

Dalsze komponenty

K komponent -ty można znaleźć poprzez odjęcie pierwszej k  - 1 główne komponenty z X :

a następnie znalezienie wektora wag, który wydobywa maksymalną wariancję z tej nowej macierzy danych

Okazuje się, że daje to pozostałe wektory własne X T X , z maksymalnymi wartościami wielkości w nawiasach określonymi przez odpowiadające im wartości własne. Zatem wektory wag są wektorami własnymi X T X .

W k -tej głównym składnikiem wektora danych X ( I ) można zatem jako wynik t k ( i ) = x ( I )W ( K ), w transformowanych współrzędnych lub odpowiedniego wektora w przestrzeni oryginalne zmienne, { x ( i )w ( k ) } w ( k ) , gdzie w ( k ) jest k wektorem własnym X T X .

Pełny rozkład głównych składowych X można zatem podać jako

gdzie W jest p -by- p macierzą wag, których kolumny są wektorami własnymi X T X . Transpozycja W jest czasami nazywana transformacją wybielającą lub sferyczną . Kolumny W pomnożone przez pierwiastek kwadratowy odpowiednich wartości własnych, czyli wektory własne przeskalowane przez wariancje, nazywane są ładunkami w PCA lub w analizie czynnikowej.

Kowariancje

Sam X T X można uznać za proporcjonalny do macierzy kowariancji próbki empirycznej zbioru danych X T .

Przykładowa kowariancja Q między dwoma różnymi głównymi składnikami w zbiorze danych jest dana przez:

gdzie właściwość wartości własnej w ( k ) została użyta do przejścia z linii 2 do linii 3. Jednak wektory własne w ( j ) i w ( k ) odpowiadające wartościom własnym symetrycznej macierzy są ortogonalne (jeśli wartości własne są różne), lub można ortogonalizować (jeśli wektory mają taką samą powtarzalną wartość). Produkt w końcowej linii jest zatem zerowy; nie ma kowariancji próbki między różnymi głównymi składnikami w zestawie danych.

Innym sposobem scharakteryzowania transformacji głównych składowych jest zatem transformacja do współrzędnych, które diagonalizują macierz kowariancji próbki empirycznej.

W postaci macierzy można zapisać empiryczną macierz kowariancji dla pierwotnych zmiennych

Empiryczna macierz kowariancji między głównymi składnikami staje się

gdzie Λ jest macierzą diagonalną o wartości własnych X ( k ), z X, T, X . λ ( k ) jest równa sumie kwadratów w zbiorze danych skojarzonym z każdym składnikiem k , to znaczy λ ( k ) = Σ i t k 2 ( i ) = Σ i ( x ( i )w ( k ) ) 2 .

Redukcja wymiarowości

Transformacja T = X W mapuje wektor danych x ( i ) z oryginalnej przestrzeni p zmiennych do nowej przestrzeni p zmiennych, które nie są skorelowane w zbiorze danych. Jednak nie wszystkie główne składniki muszą być zachowane. Przechowywanie tylko pierwszych głównych składowych L , wytworzonych przy użyciu tylko pierwszych wektorów własnych L , daje obcięte przekształcenie

gdzie macierz T L ma teraz n wierszy, ale tylko L kolumn. Innymi słowy, PCA uczy się transformacji liniowej, w której kolumny macierzy p × L tworzą ortogonalną bazę dla cech L (składników reprezentacji t ), które są zdekorelowane. Konstruując wszystkie przekształcone macierze danych z tylko L kolumnami, ta macierz punktacji maksymalizuje wariancję oryginalnych danych, które zostały zachowane, minimalizując jednocześnie całkowity błąd rekonstrukcji do kwadratu lub .

Wykres rozrzutu analizy głównych składowych haplotypów Y-STR obliczono z wartości liczby powtórzeń dla 37 markerów STR na chromosomie Y od 354 osobników. PCA z powodzeniem znalazła liniowe kombinacje różnych markerów, które oddzielają różne klastry odpowiadające różnym liniom pochodzenia genetycznego chromosomu Y.

Taka redukcja wymiarowości może być bardzo przydatnym krokiem do wizualizacji i przetwarzania wielowymiarowych zestawów danych, przy jednoczesnym zachowaniu jak największej zmienności w zestawie danych. Na przykład wybranie L  = 2 i zachowanie tylko pierwszych dwóch głównych składników powoduje znalezienie płaszczyzny dwuwymiarowej w wysokowymiarowym zbiorze danych, w którym dane są najbardziej rozłożone, więc jeśli dane zawierają klastry, mogą one również być najbardziej rozłożone, a zatem najbardziej widoczne do wykreślenia na dwuwymiarowym diagramie; podczas gdy jeśli dwa kierunki przez dane (lub dwie oryginalne zmienne) są wybierane losowo, skupienia mogą być znacznie mniej rozłożone od siebie i mogą w rzeczywistości znacznie częściej nakładać się na siebie, czyniąc je nie do odróżnienia.

Podobnie w analizie regresji , im większa liczba dozwolonych zmiennych objaśniających , tym większa szansa na nadmierne dopasowanie modelu, co prowadzi do wyciągnięcia wniosków, których nie można uogólnić na inne zbiory danych. Jednym z podejść, zwłaszcza gdy istnieją silne korelacje między różnymi możliwymi zmiennymi objaśniającymi, jest zredukowanie ich do kilku głównych składników, a następnie przeprowadzenie wobec nich regresji, metoda zwana regresją głównych składników .

Redukcja wymiarowości może być również odpowiednia, gdy zmienne w zbiorze danych są zaszumione. Jeśli każda kolumna zbioru danych zawiera niezależny szum gaussowski o identycznym rozkładzie, to kolumny T będą również zawierać szum gaussowski o identycznym rozkładzie (taki rozkład jest niezmienny pod wpływem macierzy W , którą można traktować jako wielowymiarową obrót osi współrzędnych). Jednak gdy większa część całkowitej wariancji jest skoncentrowana w kilku pierwszych głównych składnikach w porównaniu z tą samą wariancją szumu, proporcjonalny wpływ szumu jest mniejszy — kilka pierwszych składników osiąga wyższy stosunek sygnału do szumu . PCA może zatem skutkować koncentracją znacznej części sygnału na kilku pierwszych głównych składowych, które mogą być użytecznie wychwycone przez redukcję wymiarowości; podczas gdy późniejsze główne elementy mogą być zdominowane przez hałas, a więc usuwane bez większych strat. Jeśli zbiór danych nie jest zbyt duży, ważność głównych komponentów można przetestować za pomocą parametrycznego ładowania początkowego , jako pomocy w określeniu, ile głównych komponentów należy zachować.

Rozkład według wartości osobliwych

Transformacja głównych składowych może być również powiązana z inną faktoryzacją macierzy, rozkładem wartości osobliwych (SVD) X ,

Tutaj Σ jest n -by- p prostokątną macierzą diagonalną liczb dodatnich σ ( k ) , zwaną wartościami osobliwymi X ; U jest macierzą n -by- n , której kolumny są ortogonalnymi wektorami jednostkowymi o długości n, zwanymi lewymi wektorami osobliwymi X ; a W jest p -by- p, którego kolumny są ortogonalnymi wektorami jednostkowymi o długości p i są nazywane prawymi wektorami osobliwymi X .

Biorąc pod uwagę tę faktoryzację, można zapisać macierz X T X

gdzie jest kwadratową macierzą diagonalną z wartościami osobliwymi X i odciętymi nadmiarowymi zerami, która spełnia . Porównanie z faktoryzacji wektor własny X T X ustala, że odpowiednie pojedyncze wektory W z X jest równoważne wektory własne X, T, X , podczas gdy wartości singularnych Ď ( k ) o są równe pierwiastkowego wartości własnych X ( k ) z X T X .

Korzystając z rozkładu na wartości osobliwe, można zapisać macierz punktacji T

więc każda kolumna T jest dana przez jeden z lewych osobliwych wektorów X pomnożony przez odpowiednią wartość osobliwą. Ta forma jest także polarny dekompozycja z T .

Istnieją wydajne algorytmy do obliczania SVD X bez konieczności tworzenia macierzy X T X , więc obliczenie SVD jest obecnie standardowym sposobem obliczania analizy głównych składowych z macierzy danych, chyba że wymagana jest tylko garstka składowych.

Podobnie jak w przypadku eigen-rozkładu ściętego n x L matryca wynik T L może być uzyskane rozważając tylko pierwszy L największe WARTOŚCIAMI w liczbie pojedynczej i liczbie pojedynczej ich wektory:

Obcięcie macierzy M lub T przy użyciu obciętego rozkładu według wartości osobliwych w ten sposób daje obciętą macierz, która jest najbliższą możliwą macierzą rzędu L do macierzy pierwotnej, w sensie różnicy między tymi dwoma o najmniejszej możliwej normie Frobeniusa , wynik znany jako twierdzenie Eckarta–Younga [1936].

Dalsze rozważania

Przy danym zbiorze punktów w przestrzeni euklidesowej pierwsza składowa główna odpowiada prostej przechodzącej przez wielowymiarową średnią i minimalizuje sumę kwadratów odległości punktów od prostej. Drugi główny składnik odpowiada tej samej koncepcji po odjęciu od punktów całej korelacji z pierwszym głównym składnikiem. Wartości osobliwe (w Σ ) są pierwiastkami kwadratowymi wartości własnych macierzy X T X . Każda wartość własna jest proporcjonalna do części „wariancji” (bardziej poprawnie sumy kwadratów odległości punktów od ich wielowymiarowej średniej), która jest związana z każdym wektorem własnym. Suma wszystkich wartości własnych jest równa sumie kwadratów odległości punktów od ich wielowymiarowej średniej. PCA zasadniczo obraca zbiór punktów wokół ich średniej w celu dostosowania do głównych składowych. Przenosi to jak najwięcej wariancji (przy użyciu transformacji ortogonalnej) do kilku pierwszych wymiarów. Dlatego wartości w pozostałych wymiarach są zwykle małe i mogą zostać usunięte przy minimalnej utracie informacji (patrz poniżej ). PCA jest często używany w ten sposób do redukcji wymiarów . PCA wyróżnia się tym, że jest optymalną transformacją ortogonalną dla zachowania podprzestrzeni, która ma największą „wariancję” (jak zdefiniowano powyżej). Zaleta ta jednak wiąże się z ceną większych wymagań obliczeniowych w porównaniu, na przykład, i gdy ma to zastosowanie, z dyskretną transformatą kosinusową , a w szczególności z DCT-II, który jest po prostu znany jako „DCT”. Techniki nieliniowej redukcji wymiarowości wydają się być bardziej wymagające obliczeniowo niż PCA.

PCA jest wrażliwy na skalowanie zmiennych. Jeśli mamy tylko dwie zmienne i mają one tę samą wariancję próby i są dodatnio skorelowane, to PCA pociągnie za sobą obrót o 45° i „wagi” (są to cosinusy rotacji) dla dwóch zmiennych w odniesieniu do głównej składnik będzie równy. Ale jeśli pomnożymy wszystkie wartości pierwszej zmiennej przez 100, wtedy pierwszy główny składnik będzie prawie taki sam jak ta zmienna, z niewielkim udziałem drugiej zmiennej, podczas gdy drugi składnik będzie prawie wyrównany z drugą pierwotną zmienną. Oznacza to, że ilekroć różne zmienne mają różne jednostki (takie jak temperatura i masa), PCA jest nieco arbitralną metodą analizy. (Inne wyniki uzyskano by, gdyby używano na przykład stopni Fahrenheita, a nie Celsjusza.) Oryginalna praca Pearsona była zatytułowana „Na liniach i płaszczyznach najściślejszego dopasowania do układów punktów w przestrzeni” – „w przestrzeni” implikuje fizyczną przestrzeń euklidesową, gdzie takie obawy nie powstają. Jednym ze sposobów uczynienia PCA mniej arbitralnym jest użycie zmiennych skalowanych tak, aby mieć wariancję jednostkową, poprzez standaryzację danych, a zatem użycie macierzy autokorelacji zamiast macierzy autokowariancji jako podstawy dla PCA. Jednak to kompresuje (lub rozszerza) fluktuacje we wszystkich wymiarach przestrzeni sygnału do wariancji jednostkowej.

Odejmowanie średniej (inaczej „centrowanie średniej”) jest niezbędne do wykonania klasycznej analizy PCA, aby zapewnić, że pierwszy główny składnik opisuje kierunek maksymalnej wariancji. Jeśli odejmowanie średniej nie jest wykonywane, pierwszy główny składnik może zamiast tego odpowiadać mniej więcej średniej danych. Do znalezienia bazy minimalizującej błąd średniokwadratowy aproksymacji danych potrzebna jest średnia zerowa .

Wyśrodkowanie średniej nie jest konieczne, jeśli przeprowadza się analizę głównych składowych na macierzy korelacji, ponieważ dane są już wyśrodkowane po obliczeniu korelacji. Korelacje wyprowadza się z iloczynu krzyżowego dwóch standardowych wyników (wyników Z) lub momentów statystycznych (stąd nazwa: Korelacja Produkt-Moment Pearsona ). Zobacz także artykuł Kromreya i Fostera-Johnsona (1998) „Mean-centering in Modered Regression: Much Ado About Nothing”.

PCA jest popularną podstawową techniką rozpoznawania wzorców . Nie jest jednak zoptymalizowany pod kątem rozdzielności klas. Została ona jednak wykorzystana do określenia odległości między dwiema lub więcej klasami poprzez obliczenie środka masy dla każdej klasy w przestrzeni głównych składowych i podanie odległości euklidesowej między środkiem masy dwóch lub więcej klas. Liniowa analiza dyskryminacyjna jest alternatywne, które są zoptymalizowane dla klasy wyodrębnienia.

Tabela symboli i skrótów

Symbol Oznaczający Wymiary Indeksy
macierz danych, składająca się ze zbioru wszystkich wektorów danych, jeden wektor na wiersz
liczba wektorów wierszowych w zbiorze danych skalarny
liczba elementów w każdym wektorze wiersza (wymiar) skalarny
liczba wymiarów w podprzestrzeni zredukowanej wymiarowo, skalarny
wektor średnich empirycznych , jedna średnia dla każdej kolumny j macierzy danych
wektor empirycznych odchyleń standardowych , jedno odchylenie standardowe dla każdej kolumny j macierzy danych
wektor wszystkich jedynek
odchylenia od średniej z każdej kolumny j macierzy danych
z-scores , obliczone przy użyciu średniej i odchylenia standardowego dla każdego wiersza m macierzy danych
macierz kowariancji
macierz korelacji
Matryca składa się z zestawu wszystkich wektorów własnych o C , jeden wektor własny na kolumnę
przekątnej matryca składa się z zestawu wszystkich wartości własnych o C wzdłuż jej głównej Diagonal i 0 dla wszystkich innych elementów
macierz wektorów bazowych, jeden wektor na kolumnę, gdzie każdy wektor bazowy jest jednym z wektorów własnych C , a wektory w W są podzbiorem tych w V
macierz składająca się z n wektorów wierszowych, gdzie każdy wektor jest rzutem odpowiedniego wektora danych z macierzy X na wektory bazowe zawarte w kolumnach macierzy W .

Właściwości i ograniczenia PCA

Nieruchomości

Niektóre właściwości PCA obejmują:

Właściwość 1 : Dla dowolnej liczby całkowitejq, 1 ≤qp, rozważ ortogonalnątransformację liniową
gdzie jest q-elementowym wektorem i jest macierzą ( q × p ) i niech będzie macierzą wariancji - kowariancji dla . Następnie ślad , oznaczony , jest maksymalizowany przez , gdzie składa się z pierwszych q kolumn , jest transpozycją .
Właściwość 2 : Rozważ ponownietransformację ortonormalną
z i zdefiniowana jak poprzednio. Następnie jest minimalizowany poprzez przyjęcie where składa się z ostatnich q kolumn .

Statystyczna implikacja tej właściwości polega na tym, że kilka ostatnich komputerów nie jest po prostu nieustrukturyzowanymi pozostałościami po usunięciu ważnych komputerów. Ponieważ te ostatnie komputery mają możliwie najmniejsze wariancje, są one przydatne same w sobie. Mogą pomóc w wykryciu nieoczekiwanych prawie stałych relacji liniowych między elementami x , a także mogą być przydatne w regresji , w wyborze podzbioru zmiennych z x oraz w wykrywaniu wartości odstających.

Własność 3 : (Rozkład spektralny Σ )

Zanim przyjrzymy się jego zastosowaniu, najpierw przyjrzymy się elementom ukośnym ,

Wtedy, być może, główną implikacją statystyczną wyniku jest to, że nie tylko możemy rozłożyć połączone wariancje wszystkich elementów x na malejące składowe ze względu na każdy PC, ale także możemy rozłożyć całą macierz kowariancji na składki z każdego PC. Chociaż nie jest to ściśle malejące, elementy woli mają tendencję do zmniejszania się wraz ze wzrostem, podobnie jak nierosnące przy zwiększaniu , podczas gdy elementy woli mają tendencję do pozostawania w przybliżeniu w tym samym rozmiarze z powodu ograniczeń normalizacyjnych: .

Ograniczenia

Jak zauważono powyżej, wyniki PCA zależą od skalowania zmiennych. Można to wyleczyć, skalując każdą cechę przez jej odchylenie standardowe, tak aby otrzymać bezwymiarowe cechy z jednostkową wariancją.

Możliwość zastosowania PCA, jak opisano powyżej, jest ograniczona pewnymi (milczącymi) założeniami przyjętymi w jego wyprowadzeniu. W szczególności PCA może uchwycić korelacje liniowe między cechami, ale zawodzi, gdy to założenie zostanie naruszone (patrz Rysunek 6a w odnośniku). W niektórych przypadkach transformacje współrzędnych mogą przywrócić założenie liniowości, a następnie można zastosować PCA (patrz kernel PCA ).

Innym ograniczeniem jest proces usuwania średniej przed skonstruowaniem macierzy kowariancji dla PCA. W dziedzinach takich jak astronomia wszystkie sygnały są nieujemne, a proces usuwania średniej zmusi średnią niektórych ekspozycji astrofizycznych do wartości zerowej, co w konsekwencji powoduje niefizyczne ujemne strumienie. wielkość sygnałów. Alternatywną metodą jest nieujemna faktoryzacja macierzy skupiająca się tylko na elementach nieujemnych w macierzach, co dobrze nadaje się do obserwacji astrofizycznych. Zobacz więcej w Relacja między PCA a nieujemną faktoryzacją macierzy .

PCA jest wadą, jeśli dane nie zostały ustandaryzowane przed zastosowaniem PCA. PCA przekształca oryginalne dane w dane, które są istotne dla głównych składników tych danych, co oznacza, że ​​nowe zmienne danych nie mogą być interpretowane w ten sam sposób, w jaki były oryginalne. Są to liniowe interpretacje pierwotnych zmiennych. Ponadto, jeśli PCA nie zostanie wykonane prawidłowo, istnieje duże prawdopodobieństwo utraty informacji.

PCA opiera się na modelu liniowym. Jeśli zestaw danych zawiera ukryty w sobie wzorzec, który jest nieliniowy, PCA może w rzeczywistości skierować analizę w całkowicie przeciwnym kierunku postępu. Naukowcy z Kansas State University odkryli, że błąd próbkowania w ich eksperymentach miał wpływ na stronniczość wyników PCA. „Jeżeli liczba badanych lub bloków jest mniejsza niż 30 i/lub badacza interesuje się komputerami poza pierwszymi, może być lepiej najpierw skorygować korelację szeregową, zanim przeprowadzi się PCA”. Naukowcy z Kansas State odkryli również, że PCA może być „poważnie obciążona, jeśli struktura autokorelacji danych nie jest prawidłowo obsługiwana”.

PCA i teoria informacji

Ogólnie rzecz biorąc, redukcja wymiarowości powoduje utratę informacji. Redukcja wymiarowości oparta na PCA ma tendencję do minimalizowania utraty informacji w niektórych modelach sygnału i szumu.

Przy założeniu, że

to znaczy, że wektor danych jest sumą pożądanego sygnału niosącego informację i sygnału szumu, można wykazać, że PCA może być optymalny dla redukcji wymiarowości, z punktu widzenia teorii informacji.

W szczególności Linsker wykazał, że jeśli jest szumem gaussowskim i jest szumem gaussowskim z macierzą kowariancji proporcjonalną do macierzy tożsamości, PCA maksymalizuje wzajemną informację między pożądaną informacją a wyjściem o zmniejszonej wymiarowości .

Jeśli szum jest nadal gaussowski i ma macierz kowariancji proporcjonalną do macierzy tożsamości (to znaczy, że składowe wektora są iid ), ale sygnał niosący informacje jest niegaussowski (co jest powszechnym scenariuszem), PCA przynajmniej minimalizuje górną granicę utraty informacji , która jest zdefiniowana jako

Optymalność PCA jest również zachowana, jeśli szum jest iid i co najmniej bardziej gaussowski (w sensie rozbieżności Kullbacka-Leiblera ) niż sygnał niosący informacje . Ogólnie rzecz biorąc, nawet jeśli powyższy model sygnału jest spełniony, PCA traci swoją informacyjno-teoretyczną optymalność, gdy tylko szum staje się zależny.

Obliczanie PCA metodą kowariancji

Poniżej znajduje się szczegółowy opis PCA przy użyciu metody kowariancji (patrz również tutaj ) w przeciwieństwie do metody korelacji.

Celem jest przekształcenie danego zbioru danych X o wymiarze p na alternatywny zbiór danych Y o mniejszym wymiarze L . Równoważnie poszukujemy macierzy Y , gdzie Y jest transformatą Karhunena-Loève'a (KLT) macierzy X :

Uporządkuj zbiór danych

Załóżmy, że masz dane składające się z zestawu obserwacji p zmiennych i chcesz zredukować dane tak, aby każdą obserwację można było opisać za pomocą tylko L zmiennych, L < p . Załóżmy dalej, że dane są uporządkowane jako zbiór n wektorów danych, z których każdy reprezentuje pojedynczą zgrupowaną obserwację p zmiennych.

  • Pisz jako wektory wierszowe, każdy z elementami p .
  • Umieść wektory wierszy w pojedynczej macierzy X o wymiarach n × p .
Oblicz średnią empiryczną
  • Znajdź średnią empiryczną wzdłuż każdej kolumny j = 1, ...,  p .
  • Umieść obliczone wartości średnie w empirycznym wektorze średniej u o wymiarach p × 1.
Oblicz odchylenia od średniej

Odejmowanie średniej jest integralną częścią rozwiązania w kierunku znalezienia podstawy składowej głównej, która minimalizuje błąd średniokwadratowy aproksymacji danych. W związku z tym postępujemy centrując dane w następujący sposób:

  • Odejmij empiryczny wektor średniej od każdego wiersza macierzy danych X .
  • Przechowuj dane odjęte od średniej w macierzy n × p B .
    gdzie h jest wektorem kolumnowym n × 1 wszystkich jedynek:

W niektórych aplikacjach każda zmienna (kolumna B ) może być również skalowana tak, aby miała wariancję równą 1 (patrz Z-score ). Ten krok wpływa na obliczone główne składniki, ale czyni je niezależnymi od jednostek używanych do pomiaru różnych zmiennych.

Znajdź macierz kowariancji
  • Znajdź p × p empiryczną macierz kowariancji C z macierzy B :
    gdzie jest sprzężony operator transpozycji . Jeśli B składa się wyłącznie z liczb rzeczywistych, co ma miejsce w wielu zastosowaniach, „transpozycja sprzężona” jest taka sama jak transpozycja regularna .
  • Uzasadnieniem użycia n − 1 zamiast n do obliczenia kowariancji jest poprawka Bessela .
Znajdź wektory własne i wartości własne macierzy kowariancji
  • Obliczania macierzy V z wektorów własnych , które diagonalizes macierzy kowariancji C :
    gdzie D jest macierzą diagonalną o wartości własnych o C . Ten krok zazwyczaj obejmuje użycie algorytmu komputerowego do obliczania wektorów własnych i wartości własnych . Algorytmy te są łatwo dostępne jako podkomponenty większości systemów algebr macierzowych , takich jak SAS , R , MATLAB , Mathematica , SciPy , IDL ( Interactive Data Language ) lub GNU Octave oraz OpenCV .
  • Macierz D przyjmie postać macierzy diagonalnej p × p , gdzie
    jest j wartością własną macierzy kowariancji C , oraz
  • Macierzy V , również wymiar p x p zawiera p wektory kolumnowe, z których każdy o długości P , stanowiące p wektorów własnych macierzy kowariancji C .
  • Wartości własne i wektory własne są uporządkowane i sparowane. Wartość własna j odpowiada j wektorowi własnemu .
  • Macierz V oznacza macierz prawych wektorów własnych (w przeciwieństwie do lewych wektorów własnych). Ogólnie rzecz biorąc, macierz prawych wektorów własnych nie musi być (sprzężoną) transpozycją macierzy lewych wektorów własnych.
Zmień kolejność wektorów własnych i wartości własnych
  • Posortuj kolumny macierzy wektorów własnych V i macierzy wartości własnych D w kolejności malejącej wartości własnej.
  • Upewnij się, że zachowałeś prawidłowe pary między kolumnami w każdej macierzy.
Oblicz skumulowaną zawartość energii dla każdego wektora własnego
  • Wartości własne reprezentują rozkład energii danych źródłowych na każdy z wektorów własnych, przy czym wektory własne stanowią podstawę danych. Skumulowana zawartość energii g dla j wektora własnego jest sumą zawartości energii we wszystkich wartościach własnych od 1 do j :
Wybierz podzbiór wektorów własnych jako wektory bazowe
  • Zapisz pierwsze L kolumny V jako macierz p × L W :
    gdzie
  • Użyj wektora g jako wskazówki przy wyborze odpowiedniej wartości dla L . Celem jest wybranie jak najmniejszej wartości L przy jednoczesnym osiągnięciu rozsądnie wysokiej wartości g w ujęciu procentowym. Na przykład możesz chcieć wybrać L, aby skumulowana energia g przekraczała pewien próg, na przykład 90 procent. W takim przypadku wybierz najmniejszą wartość L taką, że
Projektuj dane na nowej podstawie
  • Przewidywane punkty danych to wiersze macierzy

Oznacza to, że pierwsza kolumna to rzutowanie punktów danych na pierwszy główny składnik, druga kolumna to rzutowanie na drugi główny składnik itd.

Wyprowadzenie PCA metodą kowariancji

Niech X będzie d- wymiarowym wektorem losowym wyrażonym jako wektor kolumnowy. Bez utraty ogólności załóżmy, że X ma zerową średnią.

Chcemy znaleźć się d × d ortonormalną macierzy transformacji P tak, że PX ma przekątną macierzy kowariancji (czyli PX jest losowy wektor ze wszystkimi jego odrębnych elementów parami nieskorelowane).

Szybkie obliczenia przy założeniu, że plony jednostkowe:

W związku z tym obowiązuje wtedy i tylko wtedy, gdy były diagonalizowalne przez .

Jest to bardzo konstruktywne, ponieważ cov( X ) na pewno jest nieujemną macierzą określoną, a zatem gwarantuje się diagonalizowalność przez pewną macierz unitarną.

Obliczenia bez kowariancji

W praktycznych implementacjach, zwłaszcza w przypadku danych wysokowymiarowych (duże p ), naiwna metoda kowariancji jest rzadko stosowana, ponieważ nie jest wydajna ze względu na wysokie koszty obliczeniowe i pamięciowe jawnego wyznaczenia macierzy kowariancji. Podejście bez kowariancji pozwala uniknąć operacji np 2 jawnego obliczania i przechowywania macierzy kowariancji X T X , zamiast tego wykorzystuje jedną z metod bezmacierzowych , na przykład opartą na funkcji oceniającej iloczyn X T (X r) po koszcie od 2 NP operacji.

Obliczenia iteracyjne

Jeden ze sposobów efektywnego obliczenia pierwszego głównego składnika pokazano w poniższym pseudokodzie, dla macierzy danych X o zerowej średniej, bez obliczania macierzy kowariancji.

r = a random vector of length p
r = r / norm(r)
do c times:
      s = 0 (a vector of length p)
      for each row x in X
            s = s + (xr) x
      λ = rTs // λ is the eigenvalue
      error = |λ ⋅ rs|
      r = s / norm(s)
      exit if error < tolerance
return λ, r

Ten algorytm iteracji potęgowej po prostu oblicza wektor X T (X r) , normalizuje i umieszcza wynik z powrotem w r . Wartość własna jest aproksymowana przez r T (X T X) r , który jest ilorazem Rayleigha na wektorze jednostkowym r dla macierzy kowariancji X T X . Jeśli największa osobliwa wartość jest dobrze oddzielona od następnej największej, wektor r zbliża się do pierwszego głównego składnika X w liczbie iteracji c , która jest mała w stosunku do p , przy całkowitym koszcie 2cnp . Iteracji mocy zbieżności można przyspieszyć bez zauważalnego pogorszenia mały koszt iteracji za pomocą bardziej zaawansowanych metod matrycy wolne , takie jak lanczos algorytmu lub miejscowo Optymalne bloku prekondycjonowane Koniugat nachylenia ( LOBPCG metody).

Kolejne składowe główne mogą być obliczane pojedynczo za pomocą deflacji lub jednocześnie jako blok. W pierwszym podejściu niedokładności w już obliczonych przybliżonych składowych głównych addytywnie wpływają na dokładność później obliczonych składowych głównych, zwiększając w ten sposób błąd przy każdym nowym obliczeniu. To drugie podejście w metodzie potęgi blokowej zastępuje pojedyncze wektory r i s wektorami blokowymi, macierzami R i S . Każda kolumna R przybliża jeden z głównych głównych składników, podczas gdy wszystkie kolumny są iterowane jednocześnie. Główną kalkulacją jest ocena produktu X T (XR) . Zaimplementowane na przykład w LOBPCG efektywne blokowanie eliminuje kumulację błędów, pozwala na wykorzystanie wysokopoziomowych funkcji produktu macierz-macierz BLAS i zazwyczaj prowadzi do szybszej konwergencji w porównaniu z techniką jednowektorową jeden po drugim.

Metoda NIPALS

Nieliniowa iteracyjna metoda cząstkowych najmniejszych kwadratów (NIPALS) jest odmianą klasycznej iteracji potęgowej z deflacją macierzy przez odejmowanie, zaimplementowaną do obliczania kilku pierwszych składowych w analizie składowej głównej lub analizie cząstkowych najmniejszych kwadratów . W przypadku bardzo wysokowymiarowych zestawów danych, takich jak te generowane w naukach *omicznych (na przykład genomika , metabolomika ), zwykle konieczne jest obliczenie tylko kilku pierwszych komputerów. Te nieliniowe iteracyjne częściowych najmniejszych kwadratów (NIPALS) algorytm aktualizacje iteracyjne przybliżenia czołowych wyników i obciążenia t 1 i R 1 T przez iteracji zasilania mnożenia w każdej iteracji o X na lewo i na prawo, to znaczy, obliczenie macierz kowariancji unika się, jak w wykonania matrycy wolnej od iteracji prądu do X, T, X , w stosunku do funkcji oceny produktu X , T (X R) = ((X R) T X) T .

Deflacji matrycy w wyniku odejmowania jest wykonywana przez odjęcie produkt zewnętrzną, t 1 R 1 T z X pozostawiając resztkowego przebicia matryca wykorzystywane do obliczenia kolejnych prowadzące PCS. W przypadku dużych macierzy danych lub macierzy, które mają wysoki stopień współliniowości kolumn, NIPALS cierpi z powodu utraty ortogonalności komputerów PC z powodu błędów zaokrąglania dokładności maszyn nagromadzonych w każdej iteracji i deflacji macierzy przez odejmowanie. Gram-Schmidt algorytm ponownego ortogonalizacji stosuje się zarówno w wynikach i obciążenia na każdym etapie iteracji w celu wyeliminowania tego utrata ortogonalności. Oparcie NIPALS na mnożeniu pojedynczych wektorów nie może korzystać z BLAS wysokiego poziomu i skutkuje powolną zbieżnością dla klastrowanych wiodących wartości osobliwych — oba te braki są rozwiązywane w bardziej wyrafinowanych, bezmacierzowych solwerach bloków, takich jak lokalnie optymalny blok wstępnie uwarunkowany gradient sprzężony ( LOBPCG ).

Szacowanie online/sekwencyjne

W sytuacji „online” lub „streaming” z danymi przychodzącymi kawałek po kawałku, a nie przechowywanymi w jednej partii, przydatne jest oszacowanie projekcji PCA, które można aktualizować sekwencyjnie. Można to zrobić wydajnie, ale wymaga różnych algorytmów.

PCA i zmienne jakościowe

W PCA często chcemy wprowadzać zmienne jakościowe jako elementy uzupełniające. Na przykład na roślinach zmierzono wiele zmiennych ilościowych. Dla tych roślin dostępne są pewne zmienne jakościowe, jak na przykład gatunek, do którego roślina należy. Dane te poddano PCA dla zmiennych ilościowych. W analizie wyników naturalne jest łączenie głównych składników ze zmiennymi jakościowo gatunkami . W tym celu powstają następujące wyniki.

  • Identyfikacja na płaszczyznach czynnikowych różnych gatunków, na przykład za pomocą różnych kolorów.
  • Przedstawienie na płaszczyznach czynnikowych środków ciężkości roślin należących do tego samego gatunku.
  • Dla każdego środka ciężkości i każdej osi, wartość p, aby ocenić istotność różnicy między środkiem ciężkości a początkiem.

Wyniki te nazywamy wprowadzeniem zmiennej jakościowej jako elementu uzupełniającego . Procedura ta jest szczegółowo opisana w i Husson, Lê & Pagès 2009 i Pagès 2013. Niewiele programów oferuje tę opcję w „automatyczny” sposób. Tak jest w przypadku SPAD-a, który historycznie, po pracach Ludovica Lebarta , jako pierwszy zaproponował tę opcję, oraz pakietu R FactoMineR .

Aplikacje

Finanse ilościowe

W finansach ilościowego , główny składnik analizy mogą być bezpośrednio stosowane do zarządzania ryzykiem z oprocentowania pochodnych portfelach. Handel wielokrotnymi instrumentami swapowymi, które zwykle są funkcją 30–500 innych rynkowych instrumentów swapowych z możliwością kwotowania, ma zostać zredukowany do zwykle 3 lub 4 głównych składników, reprezentujących ścieżkę stóp procentowych w ujęciu makro. Przekształcenie ryzyk, które mają być reprezentowane jako ładunki czynnikowe (lub mnożniki), zapewnia ocenę i zrozumienie wykraczające poza to, co jest dostępne do zwykłego zbiorczego przeglądania ryzyk w poszczególnych przedziałach 30–500.

PCA została również zastosowana do portfeli kapitałowych w podobny sposób, zarówno do ryzyka portfela , jak i do zwrotu z ryzyka . Jednym z zastosowań jest zmniejszenie ryzyka portfela, gdzie strategie alokacji są stosowane do „portfelów głównych” zamiast do akcji bazowych. Drugim jest zwiększenie zwrotu z portfela, wykorzystując główne elementy do wyboru akcji o potencjale wzrostu.

Neuronauka

W neuronauce wykorzystuje się wariant analizy głównych składowych w celu zidentyfikowania specyficznych właściwości bodźca, które zwiększają prawdopodobieństwo wygenerowania przez neuron potencjału czynnościowego . Ta technika jest znana jako analiza kowariancji wyzwalanej impulsami . W typowym zastosowaniu eksperymentator przedstawia proces białego szumu jako bodziec (zwykle albo jako bodziec czuciowy dla badanego, albo jako prąd wstrzykiwany bezpośrednio do neuronu) i rejestruje ciąg potencjałów czynnościowych lub skoków, wytwarzanych przez w rezultacie neuron. Przypuszczalnie pewne cechy bodźca sprawiają, że neuron jest bardziej podatny na skoki. W celu wyodrębnienia tych funkcji eksperymentator oblicza się macierz kowariancji z zespołem kolca wyzwalania , zbiór wszystkich bodźców (określone i dyskretyzowane w oknie czasowym skończonych, na ogół rzędu 100 ms), który bezpośrednio poprzedza skok. Te wektory z różnicy pomiędzy ostrzem wywoływane macierzy kowariancji i macierzy kowariancji wcześniejszym zespole bodźca (zbiór wszystkich bodźców określonym w tym samym przedziale czasowym długości), zatem wskazywać kierunki w przestrzeni bodźców, wzdłuż której wariancja zespół wyzwalany kolcami różnił się najbardziej od poprzedniego zespołu bodźców. W szczególności wektory własne o największych dodatnich wartościach własnych odpowiadają kierunkom, wzdłuż których wariancja zespołu wyzwalanego impulsem wykazała największą dodatnią zmianę w porównaniu z wariancją wcześniejszego. Ponieważ były to kierunki, w których zróżnicowanie bodźca prowadziło do skoku, są one często dobrymi przybliżeniami poszukiwanych istotnych cech bodźca.

W neuronauce PCA stosuje się również do rozpoznawania tożsamości neuronu na podstawie kształtu jego potencjału czynnościowego. Sortowanie kolców jest ważną procedurą, ponieważ pozakomórkowe techniki rejestrowania często wychwytują sygnały z więcej niż jednego neuronu. W sortowaniu pików najpierw używa się PCA, aby zmniejszyć wymiarowość przestrzeni przebiegów potencjału czynnościowego, a następnie przeprowadza analizę skupień, aby powiązać określone potencjały czynnościowe z poszczególnymi neuronami.

PCA jako technika redukcji wymiarów jest szczególnie odpowiednia do wykrywania skoordynowanych działań dużych zespołów neuronalnych. Została wykorzystana do wyznaczania zmiennych zbiorczych, czyli parametrów porządku podczas przejść fazowych w mózgu.

Związek z innymi metodami

Analiza korespondencji

Analiza korespondencji (CA) została opracowana przez Jean-Paul Benzécri i jest koncepcyjnie podobna do PCA, ale skaluje dane (które nie powinny być ujemne), tak aby wiersze i kolumny były traktowane jednakowo. Jest tradycyjnie stosowany do tabel awaryjnych . CA rozkłada statystykę chi-kwadrat skojarzoną z tą tabelą na czynniki ortogonalne. Ponieważ CA jest techniką opisową, można ją zastosować do tabel, dla których statystyka chi-kwadrat jest odpowiednia lub nie. Dostępnych jest kilka wariantów CA, w tym zdetrendowana analiza korespondencji i kanoniczna analiza korespondencji . Jednym ze specjalnych rozszerzeń jest analiza wielokrotnej korespondencji , którą można traktować jako odpowiednik analizy głównych składowych danych kategorycznych.

Analiza czynników

Analiza głównych składowych tworzy zmienne, które są liniowymi kombinacjami pierwotnych zmiennych. Nowe zmienne mają tę właściwość, że wszystkie zmienne są ortogonalne. Transformacja PCA może być pomocna jako etap wstępnego przetwarzania przed klastrowaniem. PCA to podejście skoncentrowane na wariancji, mające na celu odtworzenie całkowitej wariancji zmiennej, w którym komponenty odzwierciedlają zarówno wspólną, jak i unikalną wariancję zmiennej. PCA jest generalnie preferowany do celów redukcji danych (to znaczy przełożenia zmiennej przestrzeni na optymalną przestrzeń czynników), ale nie wtedy, gdy celem jest wykrycie utajonego konstruktu lub czynników.

Analiza czynnikowa jest podobna do analizy głównych składowych, w tym przypadku analiza czynnikowa obejmuje również liniowe kombinacje zmiennych. W odróżnieniu od PCA, analiza czynnikowa jest podejściem skoncentrowanym na korelacji, mającym na celu odtworzenie korelacji między zmiennymi, w którym czynniki „reprezentują wspólną wariancję zmiennych, z wyłączeniem wariancji unikalnej”. Jeśli chodzi o macierz korelacji, odpowiada to skupieniu się na wyjaśnieniu terminów poza przekątną (tj. wspólnej kowariancji), podczas gdy PCA koncentruje się na wyjaśnieniu terminów znajdujących się na przekątnej. Jednak jako wynik uboczny, próbując odtworzyć warunki po przekątnej, PCA ma również tendencję do stosunkowo dobrego dopasowania korelacji poza przekątną. Wyniki podane przez PCA i analizę czynnikową są bardzo podobne w większości sytuacji, ale nie zawsze tak jest i są pewne problemy, w których wyniki są znacząco różne. Analiza czynnikowa jest zwykle stosowana, gdy celem badań jest wykrycie struktury danych (tj. ukrytych konstrukcji lub czynników) lub modelowanie przyczynowe . Jeśli model czynnikowy zostanie błędnie sformułowany lub założenia nie zostaną spełnione, analiza czynnikowa da błędne wyniki.

K - oznacza grupowanie

Stwierdzono, że zrelaksowane rozwiązanie grupowania k- średnich , określone przez wskaźniki skupień, jest określone przez składowe główne, a podprzestrzeń PCA rozpięta przez kierunki główne jest identyczna z podprzestrzenią centroidu skupień. Jednak fakt, że PCA jest użytecznym złagodzeniem grupowania k -średnich, nie był nowym wynikiem i łatwo jest odkryć kontrprzykłady dla stwierdzenia, że ​​podprzestrzeń centroidów skupień jest rozpięta przez główne kierunki.

Nieujemna faktoryzacja macierzy

Wykresy ułamkowej wariancji resztowej (FRV) dla PCA i NMF; dla PCA wartości teoretyczne są wkładem resztowych wartości własnych. Dla porównania, krzywe FRV dla PCA osiągają płaskie plateau, gdzie żaden sygnał nie jest skutecznie wychwytywany; podczas gdy krzywe NMF FRV stale maleją, co wskazuje na lepszą zdolność do przechwytywania sygnału. Krzywe FRV dla NMF również zbiegają się do wyższych poziomów niż PCA, co wskazuje na mniejszą właściwość NMF.

Nieujemna faktoryzacja macierzy (NMF) to metoda redukcji wymiarów, w której wykorzystywane są tylko nieujemne elementy w macierzach, co jest zatem obiecującą metodą w astronomii w tym sensie, że sygnały astrofizyczne są nieujemne. Składniki PCA są względem siebie ortogonalne, podczas gdy wszystkie składniki NMF są nieujemne, a zatem tworzą bazę nieortogonalną.

W PCA udział każdego składnika jest oceniany na podstawie wielkości odpowiadającej mu wartości własnej, która jest równoważna z ułamkową wariancją rezydualną (FRV) w analizie danych empirycznych. W przypadku NMF jego składowe są uszeregowane wyłącznie na podstawie empirycznych krzywych FRV. Wykresy resztkowej ułamkowej wartości własnej, to znaczy w funkcji liczby składników przy danej sumie składników, dla PCA ma płaskie plateau, gdzie nie są zbierane żadne dane w celu usunięcia szumu quasi-statycznego, a następnie krzywe szybko spadły jako wskazanie nadmierne dopasowanie i wychwytywanie przypadkowych szumów. Krzywe FRV dla NMF maleją w sposób ciągły, gdy składowe NMF są konstruowane sekwencyjnie , co wskazuje na ciągłe przechwytywanie szumu quasi-statycznego; następnie zbiegają się do wyższych poziomów niż PCA, co wskazuje na mniej przesadną właściwość NMF.

Ikonografia korelacji

Często trudno jest zinterpretować główne składniki, gdy dane zawierają wiele zmiennych o różnym pochodzeniu lub gdy niektóre zmienne są jakościowe. Prowadzi to użytkownika PCA do delikatnego wyeliminowania kilku zmiennych. Jeżeli obserwacje lub zmienne mają nadmierny wpływ na kierunek osi, należy je usunąć, a następnie zaprojektować jako elementy uzupełniające. Ponadto należy unikać interpretacji odległości między punktami zbliżonymi do środka płaszczyzny silni.

Ikonografia korelacji - Geochemia aerozoli morskich

Ikonografia korelacji , a wręcz przeciwnie, co nie jest projekcją na systemie osi, nie ma tych wad. Dlatego możemy zachować wszystkie zmienne.

Zasadą diagramu jest podkreślenie „niezwykłych” korelacji macierzy korelacji linią ciągłą (korelacja dodatnia) lub linią przerywaną (korelacja ujemna).

Silna korelacja nie jest „niezwykła”, jeśli nie jest bezpośrednia, ale spowodowana wpływem trzeciej zmiennej. I odwrotnie, słabe korelacje mogą być „niezwykłe”. Na przykład, jeśli zmienna Y zależy od kilku zmiennych niezależnych, korelacje Y z każdą z nich są słabe, a mimo to „niezwykłe”.

Uogólnienia

Rzadki PCA

Szczególną wadą PCA jest to, że głównymi składnikami są zazwyczaj liniowe kombinacje wszystkich zmiennych wejściowych. Rzadki PCA przezwycięża tę wadę, znajdując kombinacje liniowe, które zawierają tylko kilka zmiennych wejściowych. Rozszerza klasyczną metodę analizy głównych składowych (PCA) o redukcję wymiarowości danych poprzez dodanie ograniczenia rzadkości do zmiennych wejściowych. Zaproponowano kilka podejść, w tym:

  • ramy regresji,
  • wypukła relaksacja/półokreślona struktura programowania,
  • uogólnione ramy metody zasilania
  • naprzemienne ramy maksymalizacji
  • zachłanne wyszukiwanie w przód i w tył i metody dokładne z wykorzystaniem technik branch-and-bound,
  • Bayesowskie ramy formułowania.

Metodologiczny i teoretyczny rozwój Sparse PCA oraz jego zastosowania w badaniach naukowych zostały niedawno omówione w artykule przeglądowym.

Nieliniowy PCA

Liniowy PKD a nieliniowymi Principal kolektorów do wizualizacji na raka piersi mikromacierzy danych: a) konfiguracji węzłów i 2d głównego powierzchni w 3D PCA liniowego kolektora. Zestaw danych jest zakrzywiony i nie można go odpowiednio odwzorować na głównej płaszczyźnie 2D; b) Rozkład w wewnętrznych nieliniowych współrzędnych powierzchni głównych 2D (ELMap2D) wraz z oszacowaniem gęstości punktów; c) To samo co b), ale dla liniowego rozdzielacza 2D PCA (PCA2D). „Podstawowy” podtyp raka piersi jest lepiej wizualizowany za pomocą ELMap2D, a niektóre cechy dystrybucji stają się lepiej rozdzielone w porównaniu z PCA2D. Rozmaitości główne są tworzone przez algorytm map elastycznych . Dane są dostępne do konkursu publicznego. Oprogramowanie jest dostępne do bezpłatnego niekomercyjnego użytku.

Większość nowoczesnych metod nieliniowej redukcji wymiarowości znajduje swoje teoretyczne i algorytmiczne korzenie w PCA lub K-średnich. Pierwotnym pomysłem Pearsona było pobranie linii prostej (lub płaszczyzny), która będzie „najlepiej dopasowana” do zbioru punktów danych. Trevor Hastie rozwinął tę koncepcję, proponując krzywe główne jako naturalne rozszerzenie geometrycznej interpretacji PCA, która jawnie konstruuje rozmaitość dla aproksymacji danych, a następnie rzutuje na nią punkty, jak pokazano na rys. Zobacz także algorytm mapy sprężystej i podstawowe analizy geodezyjne . Innym popularnym uogólnieniem jest PCA jądra , które odpowiada PCA wykonywanemu w odtwarzającej się przestrzeni Hilberta jądra związanej z jądrem określonym dodatnio.

W wieloliniowym uczeniu podprzestrzennym PCA jest uogólniane do wieloliniowego PCA (MPCA), które wyodrębnia cechy bezpośrednio z reprezentacji tensorowych. MPCA rozwiązuje się wykonując PCA iteracyjnie w każdym trybie tensora. MPCA został zastosowany do rozpoznawania twarzy, rozpoznawania chodu itp. MPCA jest dalej rozszerzany na nieskorelowane MPCA, nieujemne MPCA i solidne MPCA.

N- drożną analizę głównych składowych można przeprowadzić za pomocą modeli, takich jak dekompozycja Tuckera , PARAFAC , analiza wieloczynnikowa , analiza koinercji, STATIS i DISTATIS.

Solidny PCA

Chociaż PCA znajduje matematycznie optymalną metodę (jak minimalizowanie błędu kwadratowego), nadal jest wrażliwa na wartości odstające w danych, które powodują duże błędy, czego metoda stara się przede wszystkim uniknąć. Dlatego powszechną praktyką jest usuwanie wartości odstających przed obliczeniem PCA. Jednak w niektórych kontekstach wartości odstające mogą być trudne do zidentyfikowania. Na przykład w algorytmach eksploracji danych , takich jak klastrowanie korelacji , przypisanie punktów do klastrów i wartości odstających nie jest znane z góry. Niedawno zaproponowane uogólnienie PCA oparte na ważonej PCA zwiększa odporność poprzez przypisywanie różnych wag do obiektów danych na podstawie ich szacowanej trafności.

Zaproponowano również bardziej oporne warianty PCA, oparte na formulacjach normy L1 ( L1-PCA ).

Solidna analiza głównych składowych (RPCA) poprzez dekompozycję w macierzach niskiego rzędu i rzadkich jest modyfikacją PCA, która działa dobrze w odniesieniu do rażąco uszkodzonych obserwacji.

Podobne techniki

Niezależna analiza składników

Analiza niezależnych składowych (ICA) jest ukierunkowana na podobne problemy jak analiza głównych składowych, ale znajduje składowe separowalne addytywnie, a nie kolejne przybliżenia.

Analiza elementów sieci

Mając daną macierz , próbuje rozłożyć ją na dwie macierze, takie jak . Kluczową różnicą w stosunku do technik, takich jak PCA i ICA, jest to, że niektóre z wpisów są ograniczone do 0. Tutaj określane jest mianem warstwy regulacyjnej. Chociaż generalnie taka dekompozycja może mieć wiele rozwiązań, udowadniają one, że jeśli spełnione są następujące warunki:

  1. ma pełną rangę kolumny
  2. Każda kolumna musi mieć co najmniej zera, gdzie jest liczbą kolumn (lub alternatywnie liczbą rzędów ). Uzasadnieniem dla tego kryterium jest to, że w przypadku usunięcia węzła z warstwy regulacyjnej wraz ze wszystkimi dołączonymi do niego węzłami wyjściowymi, wynik nadal musi charakteryzować się macierzą łączności z pełną rangą kolumny.
  3. musi mieć pełną rangę wiersza.

wtedy rozkład jest unikalny aż do pomnożenia przez skalar.

Analiza dyskryminacyjna Analiza składowa

Analiza dyskryminacyjna głównych komponentów (DAPC) to wielowymiarowa metoda stosowana do identyfikowania i opisywania skupisk osobników spokrewnionych genetycznie. Zmienność genetyczna jest podzielona na dwa składniki: zmienność między grupami i wewnątrz grup, co maksymalizuje tę pierwszą. Liniowe dyskryminatory to liniowe kombinacje alleli, które najlepiej oddzielają klastry. Allele, które najbardziej przyczyniają się do tej dyskryminacji, to zatem te, które najbardziej różnią się między grupami. Wkład alleli do grupowań zidentyfikowanych przez DAPC może umożliwić identyfikację regionów genomu kierujących genetyczną rozbieżnością między grupami W DAPC dane są najpierw przekształcane przy użyciu analizy głównych komponentów (PCA), a następnie klastry są identyfikowane przy użyciu analizy dyskryminacyjnej (DA).

DAPC można zrealizować na R przy użyciu pakietu Adegenet. (więcej informacji: https://adegenet.r-forge.r-project.org/ )

Oprogramowanie/kod źródłowy

  • ALGLIB - biblioteka C++ i C# implementująca PCA i obcięte PCA
  • Analytica — wbudowana funkcja EigenDecomp oblicza główne składniki.
  • ELKI – zawiera PCA do projekcji, w tym solidne warianty PCA, a także algorytmy klastrowania oparte na PCA .
  • Gretl – analiza głównych składowych może być wykonana za pomocą pcapolecenia lub princomp()funkcji.
  • Julia – Obsługuje PCA z pcafunkcją w pakiecie MultivariateStats
  • KNIMEOparte na Javie oprogramowanie do porządkowania węzłów do analizy, w tym węzły o nazwie PCA, PCA compute, PCA Apply, PCA inverse ułatwiają to.
  • Mathematica — implementuje analizę głównych składników za pomocą polecenia PrincipalComponents przy użyciu zarówno metod kowariancji, jak i korelacji.
  • MathPHP – biblioteka matematyczna PHP z obsługą PCA.
  • MATLAB Statistics Toolbox – Funkcje princompi pca(R2012b) dają główne komponenty, podczas gdy funkcja pcaresdaje reszty i zrekonstruowaną macierz dla aproksymacji PCA niskiego rzędu.
  • Matplotlib – biblioteka Pythona posiada pakiet PCA w module .mlab.
  • mlpack — zapewnia implementację analizy głównych składników w C++ .
  • Biblioteka NAG — analiza głównych komponentów jest implementowana za pomocą g03aaprocedury (dostępnej w obu wersjach Biblioteki Fortran).
  • NMath — zastrzeżona biblioteka numeryczna zawierająca PCA dla .NET Framework .
  • GNU Octave – Wolne środowisko obliczeniowe w większości kompatybilne z MATLAB, funkcja princompdaje główny składnik.
  • Otwórz CV
  • Oracle Database 12c – Implementacja poprzez DBMS_DATA_MINING.SVDS_SCORING_MODEokreślenie wartości ustawieniaSVDS_SCORING_PCA
  • Orange (oprogramowanie) – integruje PCA ze swoim wizualnym środowiskiem programistycznym. PCA wyświetla wykres osypiska (stopień wyjaśnionej wariancji), w którym użytkownik może interaktywnie wybrać liczbę głównych składników.
  • Origin – Zawiera PCA w wersji Pro.
  • Qlucore – Komercyjne oprogramowanie do analizy danych wielowymiarowych z natychmiastową odpowiedzią przy użyciu PCA.
  • RDarmowy pakiet statystyczny, funkcje princompi prcompmogą być wykorzystane do analizy głównych składowych; prcompwykorzystuje rozkład według wartości osobliwych, który ogólnie zapewnia lepszą dokładność liczbową. Niektóre pakiety, które implementują PCA w R, obejmują, ale nie są ograniczone do: ade4, vegan, ExPosition, dimRed, i FactoMineR.
  • SAS – oprogramowanie autorskie; na przykład patrz
  • Scikit-learn – biblioteka Pythona do uczenia maszynowego zawierająca PCA, Probabilistic PCA, Kernel PCA, Sparse PCA i inne techniki w module dekompozycji.
  • Weka – biblioteka Java do uczenia maszynowego zawierająca moduły do ​​obliczania głównych komponentów.

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki