Liniowa analiza dyskryminacyjna - Linear discriminant analysis

Liniowa analiza dyskryminacyjna ( LDA ), normalna analiza dyskryminacyjna ( NDA ) lub analiza funkcji dyskryminacyjnej jest uogólnieniem liniowej analizy dyskryminacyjnej Fishera , metody stosowanej w statystyce i innych dziedzinach, aby znaleźć liniową kombinację cech, która charakteryzuje lub oddziela dwie lub więcej klas przedmiotów lub wydarzeń. Otrzymana kombinacja może być używana jako klasyfikator liniowy lub, częściej, do redukcji wymiarów przed późniejszą klasyfikacją .

LDA jest ściśle związane z analizą wariancji (ANOVA) i analizą regresji , które również próbują wyrazić jedną zmienną zależną jako liniową kombinację innych cech lub pomiarów. Jednakże, do zastosowań ANOVA kategoryczne zmienne niezależne i ciągłą zmienną zależną , a analiza dyskryminacyjna jest ciągłe zmienne niezależne i kategoryczne zmienną zależną ( czyli etykietę klasy). Regresja logistyczna i regresja probitowa są bardziej podobne do LDA niż ANOVA, ponieważ wyjaśniają również zmienną kategorialną przez wartości ciągłych zmiennych niezależnych. Te inne metody są preferowane w zastosowaniach, w których nie jest uzasadnione założenie, że zmienne niezależne mają rozkład normalny, co jest podstawowym założeniem metody LDA.

LDA jest również ściśle związana z analizą głównych składowych (PCA) i analizą czynnikową , ponieważ obie szukają liniowych kombinacji zmiennych, które najlepiej wyjaśniają dane. LDA wyraźnie próbuje modelować różnicę między klasami danych. Z kolei PCA nie uwzględnia żadnej różnicy w klasie, a analiza czynnikowa buduje kombinacje cech w oparciu o różnice, a nie podobieństwa. Analiza dyskryminacyjna różni się również od analizy czynnikowej tym, że nie jest techniką współzależności: należy dokonać rozróżnienia między zmiennymi niezależnymi a zmiennymi zależnymi (zwanymi również zmiennymi kryterialnymi).

LDA działa, gdy pomiary dokonywane na zmiennych niezależnych dla każdej obserwacji są wielkościami ciągłymi. W przypadku kategorycznych zmiennych niezależnych równoważną techniką jest dyskryminacyjna analiza korespondencji.

Analiza dyskryminacyjna jest stosowana, gdy grupy są znane a priori (w przeciwieństwie do analizy skupień ). Każdy przypadek musi mieć wynik jednej lub więcej ilościowych miar predykcyjnych oraz wynik miary grupowej. W uproszczeniu analiza funkcji dyskryminacyjnej jest klasyfikacją - aktem podziału rzeczy na grupy, klasy lub kategorie tego samego typu.

Historia

Oryginalna dychotomiczna analiza dyskryminacyjna została opracowana przez Sir Ronalda Fishera w 1936 roku. Różni się ona od ANOVA lub MANOVA , która służy do przewidywania jednej (ANOVA) lub wielu (MANOVA) ciągłych zmiennych zależnych na podstawie jednej lub więcej niezależnych zmiennych kategorialnych. Analiza funkcji dyskryminacyjnej jest przydatna w określaniu, czy zbiór zmiennych jest skuteczny w przewidywaniu przynależności do kategorii.

LDA dla dwóch klas

Rozważ zestaw obserwacji (zwanych również cechami, atrybutami, zmiennymi lub pomiarami) dla każdej próbki obiektu lub zdarzenia o znanej klasie . Ten zestaw próbek nazywa się zbiorem uczącym . Problem z klasyfikacją polega zatem na znalezieniu dobrego predyktora dla klasy dowolnej próbki o tym samym rozkładzie (niekoniecznie ze zbioru uczącego) przy tylko obserwacji .

LDA podchodzi do problemu zakładając, że funkcje gęstości prawdopodobieństwa warunkowego i są rozkładem normalnym z parametrami odpowiednio średniej i kowariancji oraz . Przy tym założeniu optymalnym rozwiązaniem Bayesa jest przewidywanie punktów jako pochodzących z drugiej klasy, jeśli logarytm ilorazów wiarygodności jest większy niż pewien próg T, tak że:

Bez żadnych dalszych założeń, powstały klasyfikator jest określany jako QDA ( kwadratowa analiza dyskryminacyjna ).

Zamiast tego LDA przyjmuje dodatkowe założenie o uproszczeniu homoskedastyczności ( tj. że kowariancje klas są identyczne, więc ) i że kowariancje mają pełną rangę. W takim przypadku kilka warunków anuluje:

ponieważ jest hermitianem

a powyższe kryterium decyzyjne staje się progiem iloczynu skalarnego

dla pewnej progowej stałej c , gdzie

Oznacza to, że kryterium tego, że dane wejściowe znajdują się w klasie, jest wyłącznie funkcją tej liniowej kombinacji znanych obserwacji.

Często warto spojrzeć na ten wniosek w kategoriach geometrycznych: kryterium obecności wejścia w klasie jest czysto funkcją rzutowania punktu w przestrzeni wielowymiarowej na wektor (zatem bierzemy pod uwagę tylko jego kierunek). Innymi słowy, obserwacja należy do jeśli odpowiednia znajduje się po pewnej stronie hiperpłaszczyzny prostopadłej do . Położenie samolotu określa próg c.

Założenia

Założenia analizy dyskryminacyjnej są takie same jak w przypadku MANOVA. Analiza jest dość wrażliwa na wartości odstające, a wielkość najmniejszej grupy musi być większa niż liczba zmiennych predykcyjnych.

  • Normalność wielu zmiennych : zmienne niezależne są normalne dla każdego poziomu zmiennej grupującej.
  • Jednorodność wariancji/kowariancji ( homoskedastyczność ): wariancje między zmiennymi grupowymi są takie same na różnych poziomach predyktorów. Może być testowany za pomocą statystyki M Boxa . Zasugerowano jednak, że liniową analizę dyskryminacyjną należy stosować, gdy kowariancje są równe, a kwadratową analizę dyskryminacyjną można stosować, gdy kowariancje nie są równe.
  • Wielokolinearność : moc predykcyjna może maleć wraz ze wzrostem korelacji między zmiennymi predykcyjnymi.
  • Niezależność : Zakłada się, że uczestnicy są losowo wybrani, a wynik uczestnika jednej zmiennej jest niezależny od wyników tej zmiennej dla wszystkich innych uczestników.

Zasugerowano, że analiza dyskryminacyjna jest stosunkowo odporna na niewielkie naruszenia tych założeń, a także wykazano, że analiza dyskryminacyjna może być nadal wiarygodna, gdy stosuje się zmienne dychotomiczne (gdzie często naruszana jest wielowymiarowa normalność).

Funkcje dyskryminacyjne

Analiza dyskryminacyjna polega na tworzeniu co najmniej jednej liniowej kombinacji predyktorów, tworząc nową zmienną utajoną dla każdej funkcji. Funkcje te nazywane są funkcjami dyskryminacyjnymi. Możliwa liczba funkcji to gdzie = liczba grup lub (liczba predyktorów), w zależności od tego, która z tych wartości jest mniejsza. Pierwsza utworzona funkcja maksymalizuje różnice między grupami w tej funkcji. Druga funkcja maksymalizuje różnice w tej funkcji, ale również nie może być skorelowana z poprzednią funkcją. Jest to kontynuowane z kolejnymi funkcjami z wymaganiem, aby nowa funkcja nie była skorelowana z żadną z poprzednich funkcji.

Dana grupa , ze zbiorami przestrzeni próbek, istnieje reguła dyskryminacyjna taka, że ​​if , then . Analiza dyskryminacyjna następnie znajduje „dobre” obszary, aby zminimalizować błąd klasyfikacji, prowadząc w ten sposób do wysokiego procentu poprawnej klasyfikacji w tabeli klasyfikacji.

Każda funkcja otrzymuje punktację rozróżniającą, aby określić, jak dobrze przewiduje rozmieszczenie w grupie.

  • Współczynniki korelacji struktury: korelacja między każdym predyktorem a wynikiem dyskryminacyjnym każdej funkcji. Jest to korelacja rzędu zerowego (tj. nie skorygowana o inne predyktory).
  • Współczynniki standaryzowane: waga każdego predyktora w kombinacji liniowej, która jest funkcją dyskryminacyjną. Podobnie jak w równaniu regresji, współczynniki te są częściowe (tj. skorygowane o inne predyktory). Wskazuje unikalny udział każdego predyktora w przewidywaniu przypisania do grupy.
  • Funkcje w centroidach grup: Średnie oceny dyskryminacyjne dla każdej zmiennej grupującej są podane dla każdej funkcji. Im bardziej od siebie oddalone są środki, tym mniej będzie błędów w klasyfikacji.

Zasady dyskryminacji

  • Maksymalne prawdopodobieństwo : przypisuje x do grupy, która maksymalizuje gęstość populacji (grupy).
  • Zasada dyskryminacyjna Bayesa: przypisuje x do grupy, która maksymalizuje , gdzie π i reprezentuje wcześniejsze prawdopodobieństwo tej klasyfikacji, a reprezentuje gęstość zaludnienia.
  • Liniowa reguła dyskryminacyjna Fishera : maksymalizuje stosunek między SS między a SS w obrębie i znajduje liniową kombinację predyktorów do przewidywania grupy.

Wartości własne

Wartością własną analizy dyskryminacyjnej jest cechą korzenia dla każdej funkcji. Jest to wskazanie, jak dobrze ta funkcja różnicuje grupy, gdzie im większa wartość własna, tym lepiej funkcja różnicuje. Należy to jednak interpretować ostrożnie, ponieważ wartości własne nie mają górnej granicy. Wartość własna może być postrzegana jako stosunek SS między i SS wewnątrz, jak w ANOVA, gdy zmienną zależną jest funkcja dyskryminacyjna, a grupy są poziomami IV . Oznacza to, że największa wartość własna jest powiązana z pierwszą funkcją, druga największa z drugą itd.

Rozmiar efektu

Niektórzy sugerują użycie wartości własnych jako miar wielkości efektu , jednak generalnie nie jest to obsługiwane. Zamiast tego preferowaną miarą wielkości efektu jest korelacja kanoniczna . Jest podobny do wartości własnej, ale jest pierwiastkiem kwadratowym ze stosunku SS między i SS total . Jest to korelacja między grupami a funkcją. Inną popularną miarą wielkości efektu jest procent wariancji dla każdej funkcji. Jest to obliczane przez: ( λ x /Σλ i ) X 100 gdzie λ x jest wartością własną dla funkcji, a Σ λ i jest sumą wszystkich wartości własnych. To mówi nam, jak silna jest prognoza dla tej konkretnej funkcji w porównaniu z innymi. Procent poprawnie sklasyfikowany może być również analizowany jako wielkość efektu. Wartość kappa może to opisać podczas korygowania zgodności losowej. Kappa normalizuje się we wszystkich kategoriach, a nie jest obciążona przez istotnie dobre lub słabo działające klasy.

Kanoniczna analiza dyskryminacyjna dla k klas

Kanoniczna analiza dyskryminacyjna (CDA) znajduje osie ( k  − 1 współrzędnych kanonicznych , k oznacza liczbę klas), które najlepiej rozdzielają kategorie. Te funkcje liniowe są nieskorelowane i definiują w efekcie optymalną  przestrzeń k − 1 przez n- wymiarową chmurę danych, która najlepiej oddziela (rzuty w tej przestrzeni) k grup. Zobacz „ Wieloklasowy LDA ”, aby uzyskać szczegółowe informacje poniżej.

Liniowy dyskryminator Fishera

Terminy liniowy dyskryminator Fishera i LDA są często używane zamiennie, chociaż oryginalny artykuł Fishera w rzeczywistości opisuje nieco inny dyskryminator, który nie zawiera niektórych założeń LDA, takich jak klasy o rozkładzie normalnym lub kowariancje równych klas .

Załóżmy, że dwie klasy obserwacji mają średnie i kowariancje . Wtedy liniowa kombinacja cech będzie miała średnie i wariancje dla . Fisher zdefiniował separację między tymi dwoma rozkładami jako stosunek wariancji między klasami do wariancji w obrębie klas:

Ta miara jest w pewnym sensie miarą stosunku sygnału do szumu dla etykietowania klasy. Można wykazać, że maksymalna separacja występuje, gdy

Gdy założenia LDA są spełnione, powyższe równanie jest równoważne LDA.

Liniowy dyskryminator Fishera przedstawiony jako oś

Należy pamiętać, że wektor jest normalną do dyskryminacyjnej hiperpłaszczyzny . Na przykład w zadaniu dwuwymiarowym linia, która najlepiej dzieli te dwie grupy, jest prostopadła do .

Ogólnie punkty danych, które mają być rozróżniane, są rzutowane na ; następnie z analizy rozkładu jednowymiarowego wybiera się próg, który najlepiej oddziela dane. Nie ma ogólnej zasady dotyczącej progu. Jeśli jednak rzuty punktów z obu klas wykazują w przybliżeniu takie same rozkłady, dobrym wyborem byłaby hiperpłaszczyzna między rzutami dwóch średnich i . W tym przypadku parametr c w warunku progowym można znaleźć jawnie:

.

Metoda Otsu jest powiązana z liniowym dyskryminatorem Fishera i została stworzona, aby zbinaryzować histogram pikseli na obrazie w skali szarości poprzez optymalne wybranie progu czerni/bieli, który minimalizuje wariancję wewnątrzklasową i maksymalizuje wariancję międzyklasową w/pomiędzy skalami szarości przypisanymi do czerni i białe klasy pikseli.

Wieloklasowy LDA

Wizualizacja dla osi LDA jeden na wszystkie dla 4 klas w 3d
Rzuty wzdłuż liniowych osi dyskryminacyjnych dla 4 klas

W przypadku, gdy istnieje więcej niż dwie klasy, analizę użytą do wyprowadzenia wyróżnika Fishera można rozszerzyć, aby znaleźć podprzestrzeń, która wydaje się zawierać całą zmienność klas. To uogólnienie jest spowodowane CR Rao . Załóżmy, że każda z klas C ma średnią i taką samą kowariancję . Wtedy rozrzut między zmiennością klas można zdefiniować przez kowariancję próby średnich klas

gdzie jest średnia klasy oznacza. Separacja klas w kierunku będzie w tym przypadku podana przez

Oznacza to, że gdy jest to wektor własny z rozdzielania jest równa odpowiedniej wartości własnej .

Jeśli jest diagonalizowalna, zmienność między cechami będzie zawarta w podprzestrzeni rozpiętej przez wektory własne odpowiadające  największym wartościom własnym C -1 (ponieważ ma  co najwyżej rangę C -1). Te wektory własne są używane głównie do redukcji cech, tak jak w PCA. Wektory własne odpowiadające mniejszym wartościom własnym będą zwykle bardzo wrażliwe na dokładny wybór danych uczących i często konieczne jest użycie regularyzacji, jak opisano w następnej sekcji.

Jeśli wymagana jest klasyfikacja, zamiast redukcji wymiarów , dostępnych jest wiele alternatywnych technik. Na przykład, klasy mogą być podzielone na partycje, a do klasyfikacji każdej partycji można użyć standardowego dyskryminatora Fishera lub LDA. Typowym przykładem tego jest „jeden przeciwko reszcie”, gdzie punkty z jednej klasy są umieszczane w jednej grupie, a wszystkie inne w drugiej, a następnie stosuje się LDA. Spowoduje to powstanie klasyfikatorów C, których wyniki są łączone. Inną powszechną metodą jest klasyfikacja parami, w której dla każdej pary klas tworzony jest nowy klasyfikator (podając  łącznie klasyfikatory C ( C - 1)/2), a poszczególne klasyfikatory są łączone w celu uzyskania ostatecznej klasyfikacji.

Przyrostowy LDA

Typowa implementacja techniki LDA wymaga wcześniejszego udostępnienia wszystkich próbek. Zdarzają się jednak sytuacje, w których cały zestaw danych nie jest dostępny, a dane wejściowe są obserwowane jako strumień. W tym przypadku pożądane jest, aby ekstrakcja cech LDA miała możliwość aktualizowania obliczonych cech LDA poprzez obserwację nowych próbek bez uruchamiania algorytmu na całym zestawie danych. Na przykład w wielu aplikacjach czasu rzeczywistego, takich jak robotyka mobilna lub rozpoznawanie twarzy online, ważne jest aktualizowanie wyodrębnionych funkcji LDA, gdy tylko pojawią się nowe obserwacje. Techniką ekstrakcji cech LDA, która może aktualizować cechy LDA poprzez zwykłą obserwację nowych próbek, jest przyrostowy algorytm LDA , a pomysł ten był szeroko badany w ciągu ostatnich dwóch dekad. Chatterjee i Roychowdhury zaproponowali przyrostowy, samoorganizujący się algorytm LDA do aktualizacji funkcji LDA. W innych pracach Demir i Ozmehmet zaproponowali algorytmy lokalnego uczenia online do stopniowego aktualizowania funkcji LDA przy użyciu korekcji błędów i reguł uczenia Hebbowskiego. Później Aliyari i in . opracowane szybkie algorytmy przyrostowe do aktualizacji funkcji LDA poprzez obserwację nowych próbek.

Praktyczne użycie

W praktyce średnie klas i kowariancje nie są znane. Można je jednak oszacować na podstawie zestawu treningowego. W powyższych równaniach zamiast dokładnej wartości można zastosować oszacowanie największego prawdopodobieństwa lub maksymalne oszacowanie a posteriori . Chociaż oszacowania kowariancji można w pewnym sensie uznać za optymalne, nie oznacza to, że otrzymany dyskryminator uzyskany przez podstawienie tych wartości jest optymalny w jakimkolwiek sensie, nawet jeśli założenie klas o rozkładzie normalnym jest poprawne.

Kolejna komplikacja w stosowaniu wyróżnika LDA i Fishera do rzeczywistych danych występuje, gdy liczba pomiarów każdej próbki (tj. wymiarowość każdego wektora danych) przekracza liczbę próbek w każdej klasie. W takim przypadku oszacowania kowariancji nie mają pełnej rangi, a więc nie można ich odwrócić. Istnieje wiele sposobów radzenia sobie z tym. Jednym z nich jest użycie pseudoodwrotności zamiast zwykłej odwrotności macierzy w powyższych wzorach. Jednak lepszą stabilność numeryczną można osiągnąć, rzutując najpierw problem na podprzestrzeń rozpiętą przez . Inną strategią radzenia sobie z małą wielkością próbki jest użycie estymatora skurczu macierzy kowariancji, który można wyrazić matematycznie jako

gdzie jest macierzą jednostkową i jest parametrem intensywności skurczu lub regularyzacji . Prowadzi to do ram uregulowanej analizy dyskryminacyjnej lub analizy dyskryminacyjnej skurczu.

Również w wielu praktycznych przypadkach liniowe dyskryminatory nie są odpowiednie. Wyróżnik LDA i Fishera można rozszerzyć do stosowania w klasyfikacji nieliniowej za pomocą sztuczki z jądrem . Tutaj oryginalne obserwacje są skutecznie mapowane na nieliniową przestrzeń wyższego wymiaru. Klasyfikacja liniowa w tej przestrzeni nieliniowej jest wtedy równoważna klasyfikacji nieliniowej w przestrzeni oryginalnej. Najczęściej używanym tego przykładem jest dyskryminator jądra Fishera .

LDA można uogólnić na wielokrotną analizę dyskryminacyjną , gdzie c staje się zmienną kategorialną z N możliwych stanów zamiast tylko dwóch. Analogicznie, jeśli gęstość klasy uwarunkowane są typowe wspólną kowariancji The wystarczające Statystyki na to wartości N występy, które są podprzestrzeń łączone przez N oznacza, afiniczny przewidywane przez odwrotność macierzy kowariancji. Projekcje te można znaleźć, rozwiązując uogólniony problem wartości własnej , w którym licznikiem jest macierz kowariancji utworzona przez traktowanie średnich jako próbek, a mianownikiem jest wspólna macierz kowariancji. Zobacz „ Wieloklasowe LDA ” powyżej, aby uzyskać szczegółowe informacje.

Aplikacje

Oprócz przykładów podanych poniżej, LDA znajduje zastosowanie w pozycjonowaniu i zarządzaniu produktem .

Przewidywanie upadłości

W przewidywaniu upadłości na podstawie wskaźników księgowych i innych zmiennych finansowych liniowa analiza dyskryminacyjna była pierwszą statystyczną metodą stosowaną do systematycznego wyjaśniania, które firmy upadły, a które przetrwały. Pomimo ograniczeń, w tym znanej niezgodności wskaźników księgowych z założeniami rozkładu normalnego LDA, model Edwarda Altmana z 1968 r. jest nadal wiodącym modelem w zastosowaniach praktycznych.

Rozpoznawanie twarzy

W skomputeryzowanym rozpoznawaniu twarzy każda twarz jest reprezentowana przez dużą liczbę wartości pikseli. Liniowa analiza dyskryminacyjna jest tutaj używana przede wszystkim do zredukowania liczby cech do łatwiejszej do zarządzania wartością przed klasyfikacją. Każdy z nowych wymiarów jest liniową kombinacją wartości pikseli, które tworzą szablon. Liniowe kombinacje uzyskane za pomocą liniowego dyskryminatora Fishera nazywane są ścianami Fishera , podczas gdy te uzyskane za pomocą powiązanej analizy głównych składowych nazywane są ścianami własnymi .

Marketing

W marketingu , analiza dyskryminacyjna była kiedyś często wykorzystywana do określania czynników wyróżniających różne typy klientów i/lub produktów na podstawie ankiet lub innych form gromadzonych danych. Obecnie częściej stosuje się regresję logistyczną lub inne metody. Zastosowanie analizy dyskryminacyjnej w marketingu można opisać następującymi krokami:

  1. Sformułuj problem i zbierz dane — Zidentyfikuj najistotniejsze atrybuty używane przez konsumentów do oceny produktów w tej kategorii — Użyj ilościowych technik badań marketingowych (takich jak ankiety ), aby zebrać dane z próby potencjalnych klientów dotyczące ich ocen wszystkich atrybutów produktów. Etap zbierania danych jest zwykle wykonywany przez specjalistów ds. badań marketingowych. Pytania ankiety proszą respondenta o ocenę produktu od jednego do pięciu (lub od 1 do 7 lub od 1 do 10) na podstawie wybranych przez badacza atrybutów. Wszędzie wybiera się od pięciu do dwudziestu atrybutów. Mogą one obejmować takie rzeczy jak: łatwość użytkowania, waga, dokładność, trwałość, kolorystyka, cena lub rozmiar. Wybrane atrybuty będą się różnić w zależności od badanego produktu. To samo pytanie zadawane jest o wszystkich produktach objętych badaniem. Dane dotyczące wielu produktów są kodowane i wprowadzane do programu statystycznego, takiego jak R , SPSS lub SAS . (Ten krok jest taki sam jak w analizie czynnikowej).
  2. Oszacuj współczynniki funkcji dyskryminacyjnej i określ istotność statystyczną i trafność — wybierz odpowiednią metodę analizy dyskryminacyjnej. Metoda bezpośrednia polega na oszacowaniu funkcji dyskryminacyjnej tak, aby wszystkie predyktory były oceniane jednocześnie. Metoda krokowa wprowadza predyktory sekwencyjnie. Metodę dwóch grup należy stosować, gdy zmienna zależna ma dwie kategorie lub stany. Metodę wielokrotnych dyskryminacji stosuje się, gdy zmienna zależna ma trzy lub więcej stanów kategorialnych. Użyj Lambda Wilksa, aby przetestować istotność w statystykach SPSS lub F w SAS. Najpopularniejszą metodą stosowaną do testowania trafności jest podzielenie próbki na próbkę szacowaną lub analityczną oraz próbkę do walidacji lub wstrzymania. Próba estymacji jest wykorzystywana do konstruowania funkcji dyskryminacyjnej. Próba walidacyjna służy do skonstruowania macierzy klasyfikacji, która zawiera liczbę prawidłowo i nieprawidłowo sklasyfikowanych przypadków. Odsetek poprawnie sklasyfikowanych przypadków nazywany jest współczynnikiem trafień .
  3. Wykreśl wyniki na dwuwymiarowej mapie, zdefiniuj wymiary i zinterpretuj wyniki. Program statystyczny (lub powiązany moduł) zmapuje wyniki. Mapa wykreśli każdy produkt (zwykle w przestrzeni dwuwymiarowej). Odległość produktów od siebie wskazuje, jak bardzo się różnią. Wymiary muszą być oznaczone przez badacza. Wymaga to subiektywnej oceny i często jest bardzo trudne. Zobacz mapowanie percepcyjne .

Studia biomedyczne

Głównym zastosowaniem analizy dyskryminacyjnej w medycynie jest ocena stanu zaawansowania chorego i rokowanie przebiegu choroby. Na przykład podczas analizy retrospektywnej pacjenci są dzieleni na grupy według stopnia zaawansowania choroby – postać łagodna, umiarkowana i ciężka. Następnie badane są wyniki analiz klinicznych i laboratoryjnych w celu wykrycia zmiennych statystycznie odmiennych w badanych grupach. Wykorzystując te zmienne, budowane są funkcje dyskryminacyjne, które pomagają obiektywnie zaklasyfikować chorobę u przyszłego pacjenta do postaci łagodnej, umiarkowanej lub ciężkiej.

W biologii podobne zasady stosuje się do klasyfikacji i definiowania grup różnych obiektów biologicznych, na przykład do definiowania typów fagów Salmonella enteritidis w oparciu o widma w podczerwieni z transformacją Fouriera, do wykrywania zwierzęcego źródła Escherichia coli poprzez badanie czynników zjadliwości itp.

Nauka o Ziemi

Ta metoda może być wykorzystana do oddzielenia stref zmian . Na przykład, gdy dostępne są różne dane z różnych stref, analiza dyskryminacyjna może znaleźć wzorzec w danych i skutecznie go sklasyfikować.

Porównanie do regresji logistycznej

Analiza funkcji dyskryminacyjnej jest bardzo podobna do regresji logistycznej i obie mogą służyć do odpowiedzi na te same pytania badawcze. Regresja logistyczna nie ma tylu założeń i ograniczeń, co analiza dyskryminacyjna. Jednak gdy spełnione są założenia analizy dyskryminacyjnej, jest ona silniejsza niż regresja logistyczna. W przeciwieństwie do regresji logistycznej analiza dyskryminacyjna może być stosowana w przypadku próbek o małej wielkości. Wykazano, że przy równych liczebnościach prób i zachowaniu jednorodności wariancji/kowariancji analiza dyskryminacyjna jest dokładniejsza. Pomimo tych wszystkich zalet regresja logistyczna stała się jednak powszechnym wyborem, ponieważ założenia analizy dyskryminacyjnej są rzadko spełniane.

Wyróżnik liniowy w dużym wymiarze

Anomalie geometryczne w dużych wymiarach prowadzą do znanego przekleństwa wymiarowości . Niemniej jednak właściwe wykorzystanie zjawisk koncentracji miar może ułatwić obliczenia. Ważny przypadek tego błogosławieństwa zjawisk wymiarowych został podkreślony przez Donoho i Tannera: jeśli próbka jest zasadniczo wysokowymiarowa, to każdy punkt może być oddzielony od reszty próbki przez nierówność liniową, z dużym prawdopodobieństwem, nawet w przypadku wykładniczo dużych próbek. Te liniowe nierówności można wybrać w standardowej (Fisher'a) postaci liniowego wyróżnika dla bogatej rodziny rozkładów prawdopodobieństwa. W szczególności twierdzenia takie są udowodnione dla rozkładów logarytmicznych wklęsłych, w tym wielowymiarowego rozkładu normalnego (dowód opiera się na nierównościach koncentracji dla miar logarytmicznych wklęsłych) oraz dla miar produktu na sześcianie wielowymiarowym (jest to udowodnione za pomocą nierówności koncentracji Talagranda dla prawdopodobieństwa iloczynu spacje). Separowalność danych za pomocą klasycznych liniowych dyskryminatorów upraszcza problem korekcji błędów dla systemów sztucznej inteligencji w dużym wymiarze.

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki