Weryfikacja krzyżowa (statystyki) — Cross-validation (statistics)

Porównanie dokładności walidacji krzyżowej i procentu wyników fałszywie ujemnych (przeszacowania) pięciu modeli klasyfikacji. Rozmiar bąbelków reprezentuje odchylenie standardowe dokładności walidacji krzyżowej (dziesięciokrotne).
Schemat k-krotnej walidacji krzyżowej.

Walidacja krzyżowa , czasami nazywana estymacją rotacyjną lub testowaniem poza próbą , to dowolna z różnych podobnych technik walidacji modelu do oceny, w jaki sposób wyniki analizy statystycznej zostaną uogólnione na niezależny zestaw danych. Krzyżowa walidacja to metoda ponownego próbkowania . Stosowany jest głównie w placówkach, gdzie celem jest przewidywanie, i chce się ocenić, jak dokładnie model prognostyczny będzie wykonać w praktyce. W problemie z predykcją model otrzymuje zwykle zestaw danych znanych danych, na których uruchamiane jest uczenie ( zestaw danych szkoleniowych ) oraz zestaw danych nieznanych danych (lub danych po raz pierwszy widzianych ), na podstawie których testowany jest model (nazywany zestawem danych walidacyjnych lub testowaniem zestaw ). Celem walidacji krzyżowej jest przetestowanie zdolności modelu do przewidywania nowych danych, które nie zostały użyte do jego oszacowania, w celu oznaczenia problemów, takich jak przeuczenie lub błąd selekcji, oraz aby dać wgląd w to, jak model uogólni się do niezależnego zestawu danych ( tj. nieznany zbiór danych, na przykład z rzeczywistego problemu).

Jedna runda krzyżowego obejmuje podział na próbki z danych język komplementarnych podzbiory, wykonując analizy w jednej podgrupie (zwany zestaw szkoleniowy ) i walidacji analizy na innej podgrupie (zwanego zestawu do walidacji lub zestaw testów ). Aby zmniejszyć zmienność , w większości metod wielokrotne rundy walidacji krzyżowej są przeprowadzane przy użyciu różnych podziałów, a wyniki walidacji są łączone (np. uśredniane) w rundach, aby uzyskać oszacowanie predykcyjnej wydajności modelu.

Podsumowując, walidacja krzyżowa łączy (średnie) miary dopasowania w predykcji, aby uzyskać dokładniejsze oszacowanie wydajności predykcji modelu.

Motywacja

Załóżmy, że mamy model z co najmniej jednym nieznanym parametrem oraz zestaw danych, do którego można dopasować model (zestaw danych uczących). Proces dopasowania optymalizuje parametry modelu, aby jak najlepiej dopasować model do danych treningowych. Jeśli następnie weźmiemy niezależną próbkę danych walidacyjnych z tej samej populacji, w której pobrano dane uczące, ogólnie okaże się, że model nie pasuje do danych walidacyjnych, jak również pasuje do danych uczących. Rozmiar tej różnicy prawdopodobnie będzie duży, zwłaszcza gdy rozmiar zestawu danych uczących jest mały lub gdy liczba parametrów w modelu jest duża. Walidacja krzyżowa to sposób na oszacowanie wielkości tego efektu.

W regresji liniowej mamy rzeczywiste wartości odpowiedzi y 1 , ..., y n , oraz n p -wymiarowe współzmienne wektorowe x 1 , ..., x n . Składowe wektora x i oznaczono x i 1 , ..., x ip . Jeśli użyjemy najmniejszych kwadratów do dopasowania funkcji w postaci hiperpłaszczyzny ŷ = a + β T x do danych ( x i , y i )  1 ≤  i  ≤  n , możemy następnie ocenić dopasowanie przy użyciu błędu średniokwadratowego ( państwo członkowskie). MSE dla danych szacunkowych wartości parametrów a i β na zbiorze uczącym ( x i , y i )  1 ≤  i  ≤  n definiuje się jako

Jeśli model jest poprawnie określony, można wykazać przy łagodnych założeniach, że oczekiwana wartość MSE dla zbioru uczącego wynosi ( n  −  p  − 1)/( n  +  p  + 1) < 1 razy oczekiwana wartość MSE dla zbioru walidacyjnego (wartość oczekiwana jest przejmowana przez rozkład zbiorów uczących). Zatem jeśli dopasujemy model i obliczymy MSE na zbiorze uczącym, otrzymamy optymistycznie obciążoną ocenę tego, jak dobrze model będzie pasował do niezależnego zbioru danych. To obciążone oszacowanie jest nazywane oszacowaniem dopasowania w próbie , podczas gdy oszacowanie w ramach walidacji krzyżowej jest oszacowaniem poza próbą .

Ponieważ w regresji liniowej można bezpośrednio obliczyć czynnik ( n  −  p  − 1)/( n  +  p  + 1), o który uczące MSE zaniża MSE walidacji przy założeniu, że specyfikacja modelu jest ważna, walidacja krzyżowa może być wykorzystywane do sprawdzania, czy model został przeładowany , w którym to przypadku MSE w zestawie walidacyjnym znacznie przekroczy swoją przewidywaną wartość. (Walidacja krzyżowa w kontekście regresji liniowej jest również użyteczna, ponieważ może być użyta do wyboru optymalnie uregulowanej funkcji kosztu ). W większości innych procedur regresji (np. regresji logistycznej ) nie ma prostego wzoru do obliczenia oczekiwanego dopasowanie próbki. Walidacja krzyżowa jest zatem ogólnie stosowanym sposobem przewidywania wydajności modelu na niedostępnych danych przy użyciu obliczeń numerycznych zamiast analizy teoretycznej.

Rodzaje

Można wyróżnić dwa rodzaje walidacji krzyżowej: walidację krzyżową wyczerpującą i niewyczerpującą.

Wyczerpująca walidacja krzyżowa

Wyczerpujące metody walidacji krzyżowej to metody walidacji krzyżowej, które uczą się i testują na wszystkich możliwych sposobach podziału oryginalnej próbki na zestaw treningowy i walidacyjny.

Weryfikacja krzyżowa typu Leave-p-out

Weryfikacja krzyżowa Leave- p - out ( LpO CV ) polega na wykorzystaniu obserwacji p jako zbioru walidacyjnego, a pozostałych obserwacji jako zbioru uczącego . Jest to powtarzane we wszystkich sposobach cięcia oryginalnej próbki na zbiór walidacyjny p obserwacji i zbiór uczący.

Walidacja krzyżowa LpO wymaga uczenia i walidacji czasów modelu , gdzie n to liczba obserwacji w oryginalnej próbie, a gdzie jest współczynnikiem dwumianowym . Dla p > 1, a nawet umiarkowanie dużego n , LpO CV może stać się niewykonalne obliczeniowo. Na przykład przy n = 100 i p = 30,

Wariant walidacji krzyżowej LpO z p=2 znany jako walidacja krzyżowa typu Leave-pair-out jest zalecany jako prawie bezstronna metoda szacowania powierzchni pod krzywą ROC klasyfikatorów binarnych.

Weryfikacja krzyżowa z jednym wyjściem

Ilustracja walidacji krzyżowej typu „pomiń-jeden-out” (LOOCV), gdy n = 8 obserwacji. W sumie zostanie przeszkolonych i przetestowanych 8 modeli.

Weryfikacja krzyżowa opuszcza- jeden - out ( LOOCV ) jest szczególnym przypadkiem walidacji krzyżowej opuszczania - p- out z p  = 1. Proces wygląda podobnie do scyzoryka ; jednak przy walidacji krzyżowej oblicza się statystykę dla pominiętej próbki (próbek), podczas gdy przy użyciu scyzoryka oblicza się statystykę tylko z zachowanych próbek.

Sprawdzanie krzyżowe LOO wymaga mniej czasu obliczeniowego niż sprawdzanie krzyżowe LpO, ponieważ istnieją tylko przejścia, a nie . Jednak przebiegi mogą nadal wymagać dość długiego czasu obliczeniowego, w którym to przypadku inne podejścia, takie jak k-krotna walidacja krzyżowa, mogą być bardziej odpowiednie.

Algorytm pseudokodu:

Wejście:

x, {wektor o długości N z wartościami x przychodzących punktów}

y, {wektor o długości N z wartościami y oczekiwanego wyniku}

interpolate( x_in, y_in, x_out ), { zwraca estymację dla punktu x_out po wytrenowaniu modelu parami x_in-y_in}

Wyjście:

błąd, {oszacowanie błędu prognozy}

Kroki:

 err ← 0
 for i ← 1, ..., N do
   // define the cross-validation subsets
   x_in ← (x[1], ..., x[i − 1], x[i + 1], ..., x[N])
   y_in ← (y[1], ..., y[i − 1], y[i + 1], ..., y[N])
   x_out ← x[i]
   y_out ← interpolate(x_in, y_in, x_out)
   err ← err + (y[i] − y_out)^2
 end for
 err ← err/N

Niewyczerpująca walidacja krzyżowa

Niewyczerpujące metody walidacji krzyżowej nie obliczają wszystkich sposobów podziału oryginalnej próbki. Metody te są przybliżeniami leave- p wyjścia montażu krzyżowego.

k -krotna walidacja krzyżowa

Ilustracja k-krotnej walidacji krzyżowej, gdy n = 12 obserwacji i k = 3. Po przetasowaniu danych zostaną przeszkolone i przetestowane łącznie 3 modele.

W k- krotnej walidacji krzyżowej oryginalna próbka jest losowo dzielona na k podpróbek o równej wielkości. Spośród k podpróbek, pojedyncza podpróbka jest zachowywana jako dane walidacyjne do testowania modelu, a pozostałe k  − 1 podpróbek są wykorzystywane jako dane uczące. Proces walidacji krzyżowej jest następnie powtarzany k razy, przy czym każda z k podpróbek jest używana dokładnie raz jako dane walidacyjne. Do k wyniki można następnie uśredniane w celu wytworzenia pojedynczej oszacowanie. Zaletą tej metody nad powtarzanym losowym podpróbkowaniem (patrz poniżej) jest to, że wszystkie obserwacje są wykorzystywane zarówno do uczenia, jak i walidacji, a każda obserwacja jest używana do walidacji dokładnie raz. Powszechnie stosuje się 10-krotną walidację krzyżową, ale ogólnie k pozostaje niestałym parametrem.

Na przykład ustawienie k  =  2 powoduje dwukrotną walidację krzyżową. W dwukrotnej walidacji krzyżowej losowo mieszamy zbiór danych na dwa zestawy d 0 i d 1 , tak aby oba zestawy miały jednakowy rozmiar (jest to zwykle realizowane przez tasowanie tablicy danych, a następnie podzielenie jej na dwie części). Następnie trenujemy w d 0 i zatwierdzamy w d 1 , a następnie trenujemy w d 1 i walidujemy w  d 0 .

Gdy k  =  n (liczba obserwacji), k- krotna walidacja krzyżowa jest równoważna walidacji krzyżowej z pominięciem jednego.

W warstwowej k- krotnej walidacji krzyżowej podziały dobiera się tak, aby średnia wartość odpowiedzi była w przybliżeniu równa we wszystkich podziałach. W przypadku klasyfikacji binarnej oznacza to, że każda partycja zawiera mniej więcej takie same proporcje dwóch typów etykiet klas.

W powtarzanej walidacji krzyżowej dane są losowo dzielone na k partycji kilka razy. W ten sposób wydajność modelu można uśredniać z kilku przebiegów, ale w praktyce rzadko jest to pożądane.

Metoda wstrzymania

W metodzie holdout losowo przypisujemy punkty danych dwóm zbiorom d 0 i d 1 , zwykle nazywanym odpowiednio zbiorem uczącym i zbiorem testowym. Rozmiar każdego z zestawów jest dowolny, chociaż zazwyczaj zestaw testowy jest mniejszy niż zestaw uczący. Następnie trenujemy (budujemy model) na d 0 i testujemy (oceniamy jego wydajność) na d 1 .

W typowej walidacji krzyżowej wyniki wielu przebiegów testowania modelu są uśredniane razem; przeciwnie, metoda holdout, w izolacji, obejmuje pojedynczy przebieg. Należy go stosować ostrożnie, ponieważ bez takiego uśredniania wielu przebiegów można osiągnąć bardzo mylące wyniki. Wskaźnik dokładności predykcyjnej ( F * ) będzie zwykle niestabilny, ponieważ nie zostanie wygładzony przez wiele iteracji (patrz poniżej). Podobnie wskaźniki określonej roli odgrywanej przez różne zmienne predykcyjne (np. wartości współczynników regresji) będą miały tendencję do bycia niestabilnymi.

Chociaż metodę wstrzymania można określić jako „najprostszy rodzaj weryfikacji krzyżowej”, wiele źródeł zamiast tego klasyfikuje wstrzymanie jako typ prostej walidacji, a nie prostą lub zdegenerowaną formę weryfikacji krzyżowej.

Wielokrotna losowa walidacja podpróbek

Ta metoda, znana również jako walidacja krzyżowa Monte Carlo , tworzy wiele losowych podziałów zbioru danych na dane uczące i walidacyjne. Dla każdego takiego podziału model jest dopasowany do danych uczących, a dokładność predykcyjna jest oceniana przy użyciu danych walidacyjnych. Wyniki są następnie uśredniane z podziałów. Zaletą tej metody (w porównaniu z k- krotną walidacją krzyżową) jest to, że proporcja podziału uczenia/walidacji nie zależy od liczby iteracji (tj. liczby partycji). Wadą tej metody jest to, że niektóre obserwacje mogą nigdy nie zostać wybrane w podpróbie walidacyjnej, podczas gdy inne mogą być wybrane więcej niż raz. Innymi słowy, podzbiory walidacji mogą się pokrywać. Ta metoda wykazuje również zmienność Monte Carlo , co oznacza, że ​​wyniki będą się różnić, jeśli analiza zostanie powtórzona z różnymi losowymi podziałami.

Gdy liczba losowych podziałów zbliża się do nieskończoności, wynik powtarzanej losowej walidacji podpróbek zmierza w kierunku walidacji krzyżowej typu „pomiń-p-out”.

W warstwowym wariancie tego podejścia próby losowe są generowane w taki sposób, aby średnia wartość odpowiedzi (czyli zmienna zależna w regresji) była równa w zbiorach uczącym i testowym. Jest to szczególnie przydatne, jeśli odpowiedzi są dychotomiczne z niezrównoważoną reprezentacją dwóch wartości odpowiedzi w danych.

Metodą, w której stosuje się powtarzane losowe podpróbkowanie, jest RANSAC .

Zagnieżdżone sprawdzanie krzyżowe

Gdy walidacja krzyżowa jest stosowana jednocześnie do wyboru najlepszego zestawu hiperparametrów i do estymacji błędu (i oceny zdolności generalizacji), wymagana jest zagnieżdżona walidacja krzyżowa. Istnieje wiele wariantów. Można wyróżnić co najmniej dwa warianty:

k*l-krotna weryfikacja krzyżowa

Jest to prawdziwie zagnieżdżony wariant (używany na przykład cross_val_scorew in scikit-learn ), który zawiera zewnętrzną pętlę k zbiorów i wewnętrzną pętlę l zbiorów. Całkowity zestaw danych jest podzielony na k zestawów. Jeden po drugim, zbiór jest wybierany jako (zewnętrzny) zbiór testowy, a k  -1 innych zbiorów jest łączonych w odpowiedni zewnętrzny zbiór uczący. Powtarza się to dla każdego z zestawów k . Każdy zewnętrzny zestaw treningowy jest dalej podzielony na l zestawów. Jeden po drugim, zestaw jest wybierany jako wewnętrzny zestaw testowy (walidacyjny), a 1  - 1 inne zestawy są łączone w odpowiedni wewnętrzny zestaw treningowy. Powtarza się to dla każdego z zestawów l . Wewnętrzne zbiory uczące są używane do dopasowania parametrów modelu, podczas gdy zewnętrzny zbiór testowy jest używany jako zbiór walidacyjny w celu zapewnienia obiektywnej oceny dopasowania modelu. Zazwyczaj jest to powtarzane dla wielu różnych hiperparametrów (lub nawet różnych typów modeli), a zestaw walidacyjny służy do określenia najlepszego zestawu hiperparametrów (i typu modelu) dla tego wewnętrznego zestawu szkoleniowego. Następnie nowy model jest dopasowywany do całego zewnętrznego zestawu treningowego, przy użyciu najlepszego zestawu hiperparametrów z wewnętrznej walidacji krzyżowej. Wydajność tego modelu jest następnie oceniana przy użyciu zewnętrznego zestawu testowego.

k-krotna walidacja krzyżowa z walidacją i zestawem testowym

Jest to rodzaj k*l-krotnej walidacji krzyżowej, gdy l  =  k  -1. Pojedyncza k-krotna walidacja krzyżowa jest stosowana zarówno z walidacją, jak i zestawem testowym . Całkowity zestaw danych jest podzielony na k zestawów. Jeden po drugim zestaw jest wybierany jako zestaw testowy. Następnie, jeden po drugim, jeden z pozostałych zbiorów jest używany jako zbiór walidacyjny, a pozostałe  zbiory k -2 są używane jako zbiory uczące, aż wszystkie możliwe kombinacje zostaną ocenione. Podobnie do k*l-krotnej walidacji krzyżowej, zestaw uczący jest używany do dopasowania modelu, a zestaw do walidacji jest używany do oceny modelu dla każdego z zestawów hiperparametrów. Na koniec, dla wybranego zestawu parametrów, zestaw testowy służy do oceny modelu z najlepszym zestawem parametrów. W tym przypadku możliwe są dwa warianty: albo ocena modelu, który został przeszkolony w zestawie uczącym, albo ocena nowego modelu, który był dopasowany do kombinacji pociągu i zestawu walidacyjnego.

Miary dopasowania

Celem walidacji krzyżowej jest oszacowanie oczekiwanego poziomu dopasowania modelu do zestawu danych, który jest niezależny od danych użytych do uczenia modelu. Można go wykorzystać do oszacowania dowolnej ilościowej miary dopasowania, która jest odpowiednia dla danych i modelu. Na przykład w przypadku problemów z klasyfikacją binarną każdy przypadek w zestawie walidacyjnym jest przewidywany poprawnie lub niepoprawnie. W tej sytuacji do podsumowania dopasowania można użyć wskaźnika błędu klasyfikacji, chociaż można również zastosować inne miary, takie jak dodatnia wartość predykcyjna . Gdy przewidywana wartość jest rozłożona w sposób ciągły, do podsumowania błędów można wykorzystać średni kwadrat błędu , pierwiastek błędu średniokwadratowego lub medianę bezwzględnego odchylenia .

Korzystanie z wcześniejszych informacji

Gdy użytkownicy stosują weryfikację krzyżową w celu wybrania dobrej konfiguracji , mogą chcieć zrównoważyć wybór zweryfikowany krzyżowo z własnymi szacunkami konfiguracji. W ten sposób mogą próbować przeciwdziałać zmienności walidacji krzyżowej, gdy wielkość próby jest mała i uwzględniać istotne informacje z poprzednich badań. Na przykład w ćwiczeniu łączonym prognozowania można zastosować walidację krzyżową w celu oszacowania wag przypisanych do każdej prognozy. Ponieważ prosta prognoza o jednakowej wadze jest trudna do pokonania, można nałożyć karę za odstępstwo od równych wag. Lub, jeśli stosuje się walidację krzyżową w celu przypisania poszczególnych wag do obserwacji, można karać odchylenia od równych wag, aby uniknąć marnowania potencjalnie istotnych informacji. Hoornweg (2018) pokazuje, w jaki sposób można zdefiniować parametr strojenia, aby użytkownik mógł intuicyjnie balansować między dokładnością walidacji krzyżowej a prostotą trzymania się parametru referencyjnego, który jest zdefiniowany przez użytkownika.

Jeśli oznacza konfigurację kandydującą, którą można wybrać, to funkcja straty, która ma zostać zminimalizowana, może być zdefiniowana jako

Dokładność względną można określić ilościowo jako , dzięki czemu średni kwadratowy błąd kandydata jest liczony względem błędu określonego przez użytkownika . Termin względnej prostoty mierzy kwotę, która odbiega od względem maksymalnej wartości odchylenia od . W związku z tym względną prostotę można określić jako , gdzie odpowiada wartości o największym dopuszczalnym odchyleniu od . Dzięki , użytkownik określa, jak duży jest wpływ parametru referencyjnego w odniesieniu do walidacji krzyżowej.

Można dodać terminy względnej prostoty dla wielu konfiguracji , określając funkcję straty jako

Hoornweg (2018) pokazuje, że funkcja straty z takim kompromisem między dokładnością a prostotą może być również wykorzystana do intuicyjnego definiowania estymatorów skurczu, takich jak (adaptacyjne) lasso i regresja bayesowska / grzbietowa . Kliknij na lasso, aby zobaczyć przykład.

Właściwości statystyczne

Załóżmy, że wybieramy miarę dopasowania F i używamy walidacji krzyżowej, aby uzyskać oszacowanie F * oczekiwanego dopasowania EF modelu do niezależnego zbioru danych pochodzących z tej samej populacji, co dane treningowe. Jeśli wyobrazimy sobie próbkowanie wielu niezależnych zestawów uczących o tym samym rozkładzie, wynikowe wartości F * będą się różnić. Z tej zmienności wynikają statystyczne właściwości F * .

Estymator walidacji krzyżowej F * jest prawie bezstronny dla EF . Powodem, dla którego jest to nieco stronnicze, jest to, że zestaw uczący w walidacji krzyżowej jest nieco mniejszy niż rzeczywisty zestaw danych (np. dla LOOCV rozmiar zestawu uczącego wynosi n  − 1, gdy istnieje n zaobserwowanych przypadków). W prawie wszystkich sytuacjach efekt tego nastawienia będzie konserwatywny, ponieważ oszacowane dopasowanie będzie nieznacznie odchylone w kierunku sugerującym gorsze dopasowanie. W praktyce to nastawienie rzadko jest problemem.

Wariancja F * może być duża. Z tego powodu, jeśli dwie procedury statystyczne są porównywane na podstawie wyników walidacji krzyżowej, procedura z lepiej oszacowaną wydajnością może w rzeczywistości nie być lepszą z dwóch procedur (tj. może nie mieć lepszej wartości EF ). Poczyniono pewne postępy w konstruowaniu przedziałów ufności wokół szacunków walidacji krzyżowej, ale jest to uważane za trudny problem.

Zagadnienia obliczeniowe

Większość form walidacji krzyżowej jest łatwa do wdrożenia, o ile dostępna jest implementacja badanej metody przewidywania. W szczególności metoda predykcji może być „czarną skrzynką” – nie ma potrzeby posiadania dostępu do wnętrza jej implementacji. Jeśli metoda przewidywania jest kosztowna w szkoleniu, walidacja krzyżowa może być bardzo powolna, ponieważ szkolenie musi być przeprowadzane wielokrotnie. W niektórych przypadkach, takich jak regresja metodą najmniejszych kwadratów i regresja jądra , sprawdzanie poprawności krzyżowej można znacznie przyspieszyć, obliczając wstępnie pewne wartości, które są potrzebne wielokrotnie podczas uczenia, lub stosując szybkie „reguły aktualizacji”, takie jak formuła Shermana-Morrisona . Należy jednak uważać, aby zachować „całkowite zaślepienie” zbioru walidacyjnego z procedury uczącej, w przeciwnym razie może dojść do błędu systematycznego. Skrajny przykład przyspieszenia walidacji krzyżowej występuje w regresji liniowej , gdzie wyniki walidacji krzyżowej mają wyrażenie w formie zamkniętej znane jako suma kwadratów błędu resztowego predykcji ( PRESS ).

Ograniczenia i nadużycia

Walidacja krzyżowa daje sensowne wyniki tylko wtedy, gdy zestaw walidacyjny i zestaw treningowy pochodzą z tej samej populacji i tylko wtedy, gdy kontrolowane są ludzkie uprzedzenia.

W wielu zastosowaniach modelowania predykcyjnego struktura badanego systemu ewoluuje w czasie (tj. jest „niestacjonarna”). Oba mogą wprowadzać systematyczne różnice między zbiorami uczącym i walidacyjnym. Na przykład, jeśli model do przewidywania wartości zapasów jest szkolony na danych z pewnego pięcioletniego okresu, nierealistyczne jest traktowanie kolejnego pięcioletniego okresu jako losowania z tej samej populacji. Jako inny przykład, załóżmy, że opracowano model do przewidywania indywidualnego ryzyka zdiagnozowania konkretnej choroby w ciągu następnego roku. Jeśli model jest szkolony przy użyciu danych z badania obejmującego tylko określoną grupę populacji (np. ludzi młodych lub mężczyzn), ale jest następnie stosowany do populacji ogólnej, wyniki walidacji krzyżowej ze zbioru uczącego mogą znacznie różnić się od rzeczywistej wydajności predykcyjnej .

W wielu zastosowaniach modele mogą być również nieprawidłowo określone i różnić się w zależności od błędów modelera i/lub arbitralnych wyborów. Kiedy tak się dzieje, może pojawić się złudzenie, że system zmienia się w próbkach zewnętrznych, podczas gdy przyczyną jest to, że model pominął krytyczny predyktor i/lub zawierał predyktor pomieszany. Nowy dowód jest taki, że walidacja krzyżowa sama w sobie nie jest bardzo predykcyjna dla trafności zewnętrznej, podczas gdy forma walidacji eksperymentalnej znana jako próbkowanie zamiany, która kontroluje stronniczość u ludzi, może być znacznie bardziej predykcyjna dla trafności zewnętrznej. Jak określono w tym dużym badaniu MAQC-II obejmującym 30 000 modeli, próbkowanie wymiany obejmuje walidację krzyżową w tym sensie, że prognozy są testowane na niezależnych próbach uczących i walidacyjnych. Jednak modele są również opracowywane na podstawie tych niezależnych próbek i przez modelarzy, którzy są dla siebie ślepi. Kiedy występuje niezgodność w tych modelach opracowanych w tych zamienionych próbach uczących i walidacyjnych, co zdarza się dość często, MAQC-II pokazuje, że będzie to znacznie bardziej predyktywne dla słabej zewnętrznej trafności predykcyjnej niż tradycyjna walidacja krzyżowa.

Powodem sukcesu próbkowania zamienionego jest wbudowana kontrola uprzedzeń ludzkich w tworzeniu modelu. Oprócz pokładania zbyt dużej wiary w przewidywania, które mogą się różnić w zależności od modelarzy i prowadzić do słabej trafności zewnętrznej z powodu tych mylących efektów modelowania, istnieją inne sposoby niewłaściwego wykorzystania walidacji krzyżowej:

  • Przeprowadzając wstępną analizę w celu zidentyfikowania najbardziej pouczających cech przy użyciu całego zestawu danych – jeśli wybór cech lub dostrojenie modelu jest wymagane w procedurze modelowania, należy to powtórzyć w każdym zbiorze uczącym. W przeciwnym razie prognozy z pewnością będą zawyżone. Jeśli walidacja krzyżowa jest używana do decydowania, których funkcji użyć, należy przeprowadzić wewnętrzną walidację krzyżową w celu przeprowadzenia wyboru funkcji na każdym zestawie uczącym.
  • Pozwalając na uwzględnienie niektórych danych uczących w zbiorze testowym – może się to zdarzyć z powodu „bliźniaczej” w zbiorze danych, w wyniku której w zbiorze danych znajdują się pewne dokładnie identyczne lub prawie identyczne próbki. Do pewnego stopnia twinning zawsze ma miejsce nawet w całkowicie niezależnych próbkach szkoleniowych i walidacyjnych. Dzieje się tak, ponieważ niektóre obserwacje próby uczącej będą miały prawie identyczne wartości predyktorów, jak obserwacje próby walidacyjnej. Niektóre z nich będą korelować z wartościami docelowymi na poziomie lepszym niż przypadkowy w tym samym kierunku zarówno w treningu, jak i walidacji, gdy w rzeczywistości są kierowane przez błędne predyktory o słabej trafności zewnętrznej. Jeśli taki zweryfikowany krzyżowo model zostanie wybrany z zestawu k- krotnego, będzie działać błąd potwierdzenia przez człowieka i ustali, że taki model został zwalidowany. Z tego powodu tradycyjną walidację krzyżową należy uzupełnić o kontrole stronniczości u ludzi i specyfikację modelu pomieszanego, taką jak próbkowanie zamiany i badania prospektywne.

Walidacja krzyżowa dla modeli szeregów czasowych

Ponieważ kolejność danych jest ważna, walidacja krzyżowa może być problematyczna w przypadku modeli szeregów czasowych . Bardziej odpowiednim podejściem mogłoby być zastosowanie kroczącej walidacji krzyżowej.

Jeśli jednak wydajność jest opisana pojedynczą statystyką podsumowującą , możliwe jest, że podejście opisane przez Politis i Romano jako stacjonarny bootstrap będzie działać. Statystyka ładowania początkowego musi akceptować przedział szeregu czasowego i zwracać na nim statystykę podsumowującą. Wywołanie stacjonarnego ładowania początkowego musi określić odpowiednią średnią długość interwału.

Aplikacje

Walidację krzyżową można wykorzystać do porównania wydajności różnych procedur modelowania predykcyjnego. Załóżmy na przykład, że interesuje nas optyczne rozpoznawanie znaków i rozważamy użycie analizy głównych składowych (PCA) lub k- najbliższych sąsiadów (KNN), aby przewidzieć prawdziwy znak na podstawie obrazu odręcznego znaku. Korzystając z walidacji krzyżowej, moglibyśmy obiektywnie porównać te dwie metody pod względem ich odpowiednich ułamków błędnie sklasyfikowanych znaków. Jeśli po prostu porównamy metody oparte na ich wskaźnikach błędów w próbce, jedna metoda prawdopodobnie będzie działać lepiej, ponieważ jest bardziej elastyczna, a zatem bardziej podatna na przeuczenie w porównaniu z drugą metodą.

Walidacja krzyżowa może być również stosowana przy wyborze zmiennych . Załóżmy, że używamy poziomów ekspresji 20 białek, aby przewidzieć, czy pacjent chory na raka zareaguje na lek . Praktycznym celem byłoby określenie, który podzbiór 20 cech powinien zostać użyty do stworzenia najlepszego modelu predykcyjnego. W przypadku większości procedur modelowania, jeśli porównamy podzbiory funkcji przy użyciu współczynników błędów w próbce, najlepszą wydajność uzyska się, gdy wszystkie 20 funkcji zostanie użytych. Jednak w ramach walidacji krzyżowej model o najlepszym dopasowaniu będzie zazwyczaj zawierał tylko podzbiór cech, które są uważane za naprawdę pouczające.

Ostatnim postępem w statystyce medycznej jest jej wykorzystanie w metaanalizie. Stanowi ona podstawę statystyki walidacji, Vn, która służy do testowania trafności statystycznej oszacowań podsumowania metaanalizy. Używano go również w bardziej konwencjonalnym sensie w metaanalizie, aby oszacować prawdopodobny błąd przewidywania wyników metaanalizy.

Zobacz też

Uwagi i referencje