Walidacja regresji - Regression validation

W statystykach , walidacja regresja to proces decydowania, czy wyniki liczbowe ilościowo hipotezę relacje między zmiennymi, otrzymane z analizy regresji , są dopuszczalne jako opisów danych. Proces walidacji może obejmować analizę dopasowania regresji, analizę, czy reszty regresji są losowe i sprawdzenie, czy wydajność predykcyjna modelu znacznie się pogarsza, gdy zostanie zastosowany do danych, które nie były wykorzystywane w estymacji modelu.

Dobroć dopasowania

Jedną z miar dobroci dopasowania jest R 2 ( współczynnik determinacji ), który w zwykłych najmniejszych kwadratach z punktem przecięcia wynosi od 0 do 1. Jednak wartość R 2 bliska 1 nie gwarantuje, że model dobrze pasuje do danych: a kwartet anscombe'a pokazuje, wysoki R 2 mogą występować w obecności być błąd w postaci funkcjonalnego związku lub w obecności skrajnych, które zniekształcają prawdziwy związek.

Jednym z problemów z R 2 jako miarą trafności modelu jest to, że zawsze można ją zwiększyć, dodając więcej zmiennych do modelu, z wyjątkiem mało prawdopodobnego przypadku, gdy dodatkowe zmienne są dokładnie nieskorelowane ze zmienną zależną w używanej próbce danych. Ten problem można uniknąć robi test F o istotności statystycznej wzrostu w R 2 , lub zamiast przy użyciu skorygowanej R 2 .

Analiza reszt

Do pozostałości z dopasowanym modelu są różnice w odpowiedzi obserwowanych w każdej kombinacji wartościami zmiennymi wyjaśniającymi i odpowiedniego przewidywania odpowiedzi obliczonego przy użyciu funkcji regresji. Z matematycznego punktu widzenia zapisano definicję reszty dla i- tej obserwacji w zbiorze danych

gdzie y i oznacza i- odpowiedź w zbiorze danych, a x i wektor zmiennych objaśniających, z których każda ma odpowiadające wartości znalezione w i- tej obserwacji w zbiorze danych.

Gdyby model dopasowany do danych był poprawny, reszty przybliżałyby losowe błędy, które sprawiają, że związek między zmiennymi objaśniającymi a zmienną odpowiedzi jest zależnością statystyczną. Dlatego jeśli wydaje się, że reszty zachowują się losowo, sugeruje to, że model dobrze pasuje do danych. Z drugiej strony, jeśli nielosowa struktura jest widoczna w resztach, jest to wyraźny znak, że model słabo pasuje do danych. Następna sekcja szczegółowo opisuje typy działek, które należy wykorzystać do testowania różnych aspektów modelu i podaje poprawne interpretacje różnych wyników, które można zaobserwować dla każdego typu działki.

Graficzna analiza reszt

Podstawowym, choć nieprecyzyjnym ilościowo sposobem sprawdzenia problemów, które czynią model nieadekwatnym, jest wizualne badanie reszt (błędnych przewidywań danych użytych do kwantyfikacji modelu) w celu wyszukania oczywistych odchyleń od losowości. Jeśli badanie wizualne sugeruje na przykład możliwą obecność heteroskedastyczności (związek między wariancją błędów modelu a wielkością obserwacji zmiennej niezależnej), można przeprowadzić testy statystyczne, aby potwierdzić lub odrzucić to przeczucie; jeśli zostanie potwierdzone, wymagane są inne procedury modelowania.

Różne typy wykresów reszt z dopasowanego modelu dostarczają informacji o adekwatności różnych aspektów modelu.

  1. wystarczalność części funkcjonalnej modelu: wykresy rozrzutu reszt względem predyktorów
  2. zmienność niestała w danych: wykresy rozrzutu reszt względem predyktorów; w przypadku danych gromadzonych w czasie również wykresy pozostałości w czasie
  3. dryf w błędach (dane zbierane w czasie): uruchom wykresy odpowiedzi i błędów w funkcji czasu
  4. niezależność błędów: wykres opóźnienia
  5. normalność błędów: histogram i normalny wykres prawdopodobieństwa

Metody graficzne mają przewagę nad metodami numerycznymi do walidacji modelu, ponieważ łatwo ilustrują szeroki zakres złożonych aspektów relacji między modelem a danymi.

Analiza ilościowa reszt

Metody numeryczne odgrywają również ważną rolę w walidacji modelu. Na przykład test braku dopasowania do oceny poprawności funkcjonalnej części modelu może pomóc w interpretacji granicznego wykresu reszt. Jedną z częstych sytuacji, w których metody walidacji numerycznej mają pierwszeństwo przed metodami graficznymi, jest sytuacja, gdy liczba szacowanych parametrów jest stosunkowo bliska wielkości zbioru danych. W tej sytuacji wykresy reszt są często trudne do zinterpretowania ze względu na ograniczenia reszt narzucone przez estymację nieznanych parametrów. Jednym z obszarów, w którym to się zwykle dzieje, są aplikacje optymalizacyjne z wykorzystaniem zaprojektowanych eksperymentów . Regresja logistyczna z danymi binarnymi to kolejny obszar, w którym graficzna analiza reszt może być trudna.

Szeregowa korelacja reszt może wskazywać na błędną specyfikację modelu i można ją sprawdzić za pomocą statystyki Durbina – Watsona . Problem heteroskedastyczności można sprawdzić na kilka sposobów .

Ocena poza próbą

Walidacja krzyżowa to proces oceny, w jaki sposób wyniki analizy statystycznej uogólniają się na niezależny zbiór danych. Jeżeli model został oszacowany na podstawie niektórych, ale nie wszystkich dostępnych danych, wówczas model wykorzystujący oszacowane parametry można wykorzystać do przewidywania zatrzymanych danych. Jeśli na przykład błąd średniokwadratowy poza próbą , znany również jako średni kwadratowy błąd prognozowania , jest znacznie wyższy niż błąd średniokwadratowy w próbie, jest to oznaką niedoskonałości modelu.

Rozwój statystyki medycznej polega na wykorzystaniu technik walidacji krzyżowej poza próbą w metaanalizie. Stanowi podstawę statystyki walidacyjnej Vn , która służy do testowania statystycznej trafności podsumowujących oszacowań metaanalizy. Zasadniczo mierzy typ znormalizowanego błędu prognozowania, a jego rozkład jest liniową kombinacją χ 2 zmiennych stopnia 1.

Zobacz też

Bibliografia

Dalsza lektura

Linki zewnętrzne

 Ten artykuł zawiera materiały należące do  domeny publicznej z witryny internetowej National Institute of Standards and Technology https://www.nist.gov .