Redukcja wymiarowości - Dimensionality reduction

Redukcja wymiarów lub redukcja wymiarów to przekształcenie danych z przestrzeni wielowymiarowej w przestrzeń niskowymiarową, tak aby reprezentacja niskowymiarowa zachowała pewne znaczące właściwości oryginalnych danych, idealnie zbliżone do wymiaru wewnętrznego . Praca w przestrzeniach wielowymiarowych może być z wielu powodów niepożądana; surowe dane są często rzadkie w wyniku przekleństwa wymiarowości , a analiza danych jest zwykle niewykonalna obliczeniowo . Redukcja wymiarowości jest powszechna w dziedzinach, które zajmują się dużą liczbą obserwacji i/lub dużą liczbą zmiennych, takich jak przetwarzanie sygnałów , rozpoznawanie mowy , neuroinformatyka i bioinformatyka .

Metody są powszechnie podzielone na podejścia liniowe i nieliniowe. Podejścia można również podzielić na selekcję cech i ekstrakcję cech . Redukcja wymiarowa może być wykorzystywana do redukcji szumów , wizualizacji danych , analizy skupień lub jako etap pośredni ułatwiający inne analizy.

Wybór funkcji

Podejścia do wyboru cech próbują znaleźć podzbiór zmiennych wejściowych (zwanych również cechami lub atrybutami). Te trzy strategie to: strategia filtrowania (np. zysk informacji ), strategia wrappera (np. wyszukiwanie kierowane dokładnością) oraz strategia osadzona (wybrane cechy dodają lub są usuwane podczas budowania modelu w oparciu o błędy predykcji).

Analizę danych, taką jak regresja lub klasyfikacja, można przeprowadzić w ograniczonej przestrzeni dokładniej niż w oryginalnej przestrzeni.

Projekcja funkcji

Rzutowanie cech (zwane również wyodrębnianiem cech) przekształca dane z przestrzeni wielowymiarowej do przestrzeni o mniejszej liczbie wymiarów. Transformacja danych może być liniowa, jak w analizie głównych składowych (PCA), ale istnieje również wiele nieliniowych technik redukcji wymiarowości . W przypadku danych wielowymiarowych reprezentację tensorową można wykorzystać do redukcji wymiarowości poprzez wieloliniowe uczenie się podprzestrzeni .

Analiza głównych komponentów (PCA)

Główna technika liniowa redukcji wymiarowości, analiza głównych składowych, przeprowadza liniowe mapowanie danych do przestrzeni o niższych wymiarach w taki sposób, aby zmaksymalizować wariancję danych w reprezentacji niskowymiarowej. W praktyce konstruowana jest macierz kowariancji (a czasami korelacji ) danych i obliczane są wektory własne na tej macierzy. Wektory własne, które odpowiadają największym wartościom własnym (głównym składowym), mogą być teraz używane do rekonstrukcji dużej części wariancji oryginalnych danych. Co więcej, kilka pierwszych wektorów własnych można często interpretować w kategoriach zachowania fizycznego systemu na dużą skalę, ponieważ często dostarczają one zdecydowaną większość energii systemu, zwłaszcza w systemach niskowymiarowych. Mimo to należy to udowodnić w każdym przypadku, ponieważ nie wszystkie systemy wykazują takie zachowanie. Pierwotna przestrzeń (z wymiarem liczby punktów) została zmniejszona (z utratą danych, ale miejmy nadzieję, że zachowano najważniejszą wariancję) do przestrzeni rozpiętej przez kilka wektorów własnych.

Nieujemna faktoryzacja macierzy (NMF)

NMF rozkłada nieujemną macierz na iloczyn dwóch nieujemnych, co jest obiecującym narzędziem w dziedzinach, w których istnieją tylko sygnały nieujemne, takich jak astronomia. NMF jest dobrze znana od czasów zasady multiplikatywnej aktualizacji Lee i Seunga, która jest stale rozwijana: uwzględnianie niepewności, uwzględnianie brakujących danych i obliczeń równoległych, konstrukcja sekwencyjna, która prowadzi do stabilności i liniowości NMF, a także inne aktualizacje, w tym obsługa brakujących danych w przetwarzaniu obrazów cyfrowych .

Dzięki stabilnej podstawie komponentów podczas budowy i liniowemu procesowi modelowania, sekwencyjne NMF jest w stanie zachować strumień w bezpośrednim obrazowaniu struktur okołogwiazdowych w astromonii, jako jedna z metod wykrywania egzoplanet , zwłaszcza w bezpośrednim obrazowaniu dysków okołogwiazdowych . W porównaniu z PCA, NMF nie usuwa średniej macierzy, co prowadzi do niefizycznych nieujemnych strumieni; dlatego NMF jest w stanie zachować więcej informacji niż PCA, jak wykazali Ren i in.

PCA jądra

Analiza głównych składowych może być zastosowana w sposób nieliniowy za pomocą sztuczki jądra . Powstała technika umożliwia konstruowanie nieliniowych mapowań, które maksymalizują wariancję danych. Powstała technika nazywa się kernel PCA .

Jądro PCA oparte na grafie

Inne ważne techniki nieliniowe obejmują różnorodne techniki uczenia się , takie jak Isomap , lokalnie liniowe osadzenie (LLE), Hessian LLE, Laplaciańskie mapy własne oraz metody oparte na analizie przestrzeni stycznych. Techniki te konstruują niskowymiarową reprezentację danych przy użyciu funkcji kosztu, która zachowuje lokalne właściwości danych i mogą być postrzegane jako definiowanie jądra opartego na grafach dla jądra PCA.

Niedawno zaproponowano techniki, które zamiast definiowania stałego jądra, próbują nauczyć się jądra za pomocą programowania półdefiniowanego . Najbardziej widocznym przykładem takiej techniki jest rozwijanie maksymalnej wariancji (MVU). Główną ideą MVU ​​jest dokładne zachowanie wszystkich odległości w parach między najbliższymi sąsiadami (w wewnętrznej przestrzeni produktu), przy jednoczesnej maksymalizacji odległości między punktami, które nie są najbliższymi sąsiadami.

Alternatywnym podejściem do ochrony sąsiedztwa jest minimalizacja funkcji kosztu, która mierzy różnice między odległościami w przestrzeni wejściowej i wyjściowej. Ważnymi przykładami takich technik są: klasyczne skalowanie wielowymiarowe , które jest identyczne z PCA; Isomap , który wykorzystuje odległości geodezyjne w przestrzeni danych; mapy dyfuzji , które wykorzystują odległości dyfuzji w przestrzeni danych; t-distributed stochastic embedding sąsiada (t-SNE), co minimalizuje rozbieżność między rozkładami na parach punktów; i analiza składowych krzywoliniowych.

Innym podejściem do nieliniowej redukcji wymiarowości jest użycie autoenkoderów , specjalnego rodzaju sprzężonych do przodu sieci neuronowych z ukrytą warstwą wąskiego gardła . Trening koderów głębokich jest zwykle wykonywany przy użyciu zachłannego wstępnego treningu warstwowego (np. przy użyciu stosu ograniczonych maszyn Boltzmanna ), po którym następuje etap dostrajania oparty na propagacji wstecznej .

Liniowa analiza dyskryminacyjna (LDA)

Liniowa analiza dyskryminacyjna (LDA) jest uogólnieniem liniowego dyskryminatora Fishera, metody stosowanej w statystyce, rozpoznawaniu wzorców i uczeniu maszynowym w celu znalezienia liniowej kombinacji cech, która charakteryzuje lub oddziela dwie lub więcej klas obiektów lub zdarzeń.

Uogólniona analiza dyskryminacyjna (GDA)

GDA zajmuje się nieliniową analizą dyskryminacyjną przy użyciu operatora funkcji jądra. Podstawowa teoria jest zbliżona do maszyn wektorów nośnych (SVM), o ile metoda GDA zapewnia mapowanie wektorów wejściowych do wielowymiarowej przestrzeni cech. Podobnie jak w przypadku LDA, celem GDA jest znalezienie projekcji cech w przestrzeni o niższych wymiarach poprzez maksymalizację stosunku rozproszenia między klasami do rozproszenia wewnątrz klas.

Autokoder

Autoenkodery mogą być używane do uczenia się nieliniowych funkcji redukcji wymiarów i kodów wraz z funkcją odwrotną od kodowania do oryginalnej reprezentacji.

t-SNE

T-distributed Stochastic Neighbor Embedding (t-SNE) to technika nieliniowej redukcji wymiarowości przydatna do wizualizacji wielowymiarowych zbiorów danych. Nie jest zalecany do stosowania w analizach, takich jak grupowanie lub wykrywanie wartości odstających, ponieważ niekoniecznie zachowuje dobrze gęstości lub odległości.

UMAP

Aproksymacja i rzutowanie rozmaitości jednorodnych (UMAP) jest nieliniową techniką redukcji wymiarowości. Wizualnie jest podobny do t-SNE, ale zakłada, że ​​dane są równomiernie rozłożone na lokalnie połączonej rozmaitości riemannowskiej i że metryka riemannowska jest lokalnie stała lub w przybliżeniu stała lokalnie.

Redukcja wymiarów

W przypadku wielowymiarowych zbiorów danych (tj. o liczbie wymiarów większej niż 10), redukcja wymiaru jest zwykle przeprowadzana przed zastosowaniem algorytmu K-najbliższych sąsiadów (k-NN) w celu uniknięcia skutków przekleństwa wymiarowości .

Ekstrakcję cech i redukcję wymiarów można połączyć w jednym kroku przy użyciu technik analizy głównych składowych (PCA), liniowej analizy dyskryminacyjnej (LDA), analizy korelacji kanonicznej (CCA) lub nieujemnej faktoryzacji macierzy (NMF) jako następującego etapu przetwarzania wstępnego przez grupowanie przez K-NN na wektorach cech w przestrzeni o zredukowanych wymiarach. W uczeniu maszynowym proces ten nazywany jest również osadzaniem niskowymiarowym .

W przypadku bardzo wysokowymiarowych zestawów danych (np. podczas wyszukiwania podobieństwa w strumieniach wideo na żywo, danych DNA lub wielowymiarowych szeregach czasowych ) uruchomienie szybkiego przybliżonego wyszukiwania K-NN przy użyciu mieszania zależnego od lokalizacji , losowej projekcji , „szkiców” lub innych Techniki wyszukiwania podobieństwa wysokowymiarowego z zestawu narzędzi konferencyjnych VLDB mogą być jedyną możliwą opcją.

Aplikacje

Technika redukcji wymiarów, która jest czasami stosowana w neuronauce, to wymiary maksymalnie informacyjne , które znajdują niskowymiarową reprezentację zbioru danych, tak aby zachować jak najwięcej informacji o oryginalnych danych.

Zobacz też

Uwagi

Bibliografia

Zewnętrzne linki