Regresja segmentowa — Segmented regression

Regresja segmentowa , znana również jako regresja odcinkowa lub regresja złamanego drążka , to metoda analizy regresji, w której zmienna niezależna jest dzielona na przedziały, a do każdego przedziału dopasowywany jest oddzielny segment linii. Segmentową analizę regresji można również przeprowadzić na danych wielowymiarowych, dzieląc różne zmienne niezależne. Regresja segmentowa jest przydatna, gdy zmienne niezależne, zgrupowane w różne grupy, wykazują różne relacje między zmiennymi w tych regionach. Granice między segmentami są punktami przerwania .

Segmentowana regresja liniowa to segmentowana regresja, w której zależności w przedziałach uzyskuje się za pomocą regresji liniowej .

Segmentowa regresja liniowa, dwa segmenty

1. kończyna poziomo
1. kończyna opadająca w górę
1. kończyna opadająca w dół

Segmentowa regresja liniowa z dwoma segmentami oddzielonymi punktem przerwania może być przydatna do ilościowego określenia nagłej zmiany funkcji odpowiedzi (Yr) o zmiennym wpływowym czynniku ( x ). Punkt przerwania można interpretować jako wartość krytyczną , bezpieczną lub progową, powyżej lub poniżej której występują (nie)pożądane efekty. Punkt przerwania może być ważny przy podejmowaniu decyzji

Rysunki ilustrują niektóre z możliwych do uzyskania wyników i typów regresji.

Segmentowany analizy regresji na podstawie obecności zestaw ( y, x ) danych, w którym Y jest zmienną zależną , a X o zmiennej niezależnej .

Metoda najmniejszych kwadratów stosowana oddzielnie dla każdego segmentu, za pomocą której dwie linie regresji są tworzone w celu jak najściślejszego dopasowania zbioru danych przy minimalizacji sumy kwadratów różnic (SSD) między wartościami obserwowanymi ( y ) i obliczonymi (Yr) zmiennej zależnej daje w wyniku dwa równania:

  • Yr = A 1 . x + K 1     dla x < BP (punkt przerwania)
  • Yr = A 2 . x + K 2     dla x > BP (punkt przerwania)

gdzie:

Yr jest oczekiwaną (przewidywaną) wartością y dla pewnej wartości x ;
A 1 i A 2 to współczynniki regresji (wskazujące nachylenie odcinków linii);
K 1 i K 2 to stałe regresji (wskazujące punkt przecięcia na osi y ).

Dane mogą przedstawiać wiele typów lub trendów, patrz wykresy.

Metoda daje również dwa współczynniki korelacji (R):

  •     dla x < BP (punkt przerwania)

i

  •     dla x > BP (punkt przerwania)

gdzie:

to zminimalizowany dysk SSD na segment

i

Y a1 i Y a2 są średnimi wartościami y w odpowiednich segmentach.

W celu określenia najbardziej odpowiedniego trendu należy przeprowadzić testy statystyczne, aby upewnić się, że trend ten jest wiarygodny (istotny).

Gdy nie można wykryć żadnego znaczącego punktu przerwania, należy sięgnąć do regresji bez punktu przerwania.

Przykład

Segmentowa regresja liniowa, typ 3b

Dla niebieskiej cyfry po prawej stronie, która przedstawia zależność między plonem gorczycy (Yr = Ym, t/ha) a zasoleniem gleby ( x = Ss, wyrażoną jako przewodność elektryczna roztworu glebowego EC w dS/m) stwierdzono, że :

BP = 4,93, A 1 = 0, K 1 = 1,74, A 2 = -0,129, K 2 = 2,38, R 1 2 = 0,0035 (nieistotne), R 2 2 = 0,395 (istotne) oraz:

  • Ym = 1,74 t/ha dla Ss < 4,93 (punkt graniczny)
  • Ym = -0,129 Ss + 2,38 t/ha dla Ss > 4,93 (punkt graniczny)

wskazując, że zasolenie gleby < 4,93 dS/m jest bezpieczne, a zasolenie gleby > 4,93 dS/m zmniejsza plon przy 0,129 t/ha na jednostkę wzrostu zasolenia gleby.

Rysunek przedstawia również przedziały ufności i niepewność, jak opisano poniżej.

Procedury testowe

Przykładowe szeregi czasowe typu 5
Przykład tabeli ANOVA: w tym przypadku wprowadzenie punktu przerwania jest bardzo istotne.

Do określenia rodzaju trendu wykorzystywane są następujące testy statystyczne :

  1. Znaczenie przerwania (bp), wyrażając BP jako funkcji współczynników regresji A 1 i A 2 i oznacza, Y 1 i Y 2 z y -data i oznaczają X 1 i X 2 o x danych (lewy i prawy BP), wykorzystując prawa propagacji błędów w dodawaniach i mnożeniach do obliczenia błędu standardowego (SE) BP oraz stosując test t-Studenta
  2. istotność A 1 i A 2 przy zastosowaniu rozkładu t-Studenta i błędu standardowego SE A 1 i A 2
  3. istotność różnicy A 1 i A 2 przy zastosowaniu rozkładu t-Studenta z wykorzystaniem SE ich różnicy.
  4. istotność różnicy Y 1 i Y 2 przy zastosowaniu rozkładu t-Studenta z wykorzystaniem SE ich różnicy.
  5. Bardziej formalnym podejściem statystycznym do testowania istnienia punktu przerwania jest test pseudopunktacji, który nie wymaga estymacji linii segmentowej.

Ponadto wykorzystuje się współczynnik korelacji wszystkich danych (Ra), współczynnik determinacji lub współczynnik wyjaśnienia, przedziały ufności funkcji regresji oraz analizę ANOVA .

Współczynnik determinacji dla wszystkich danych (Cd), które mają być zmaksymalizowane w warunkach określonych w testach istotności, wyznacza się z:

gdzie Yr jest oczekiwaną (przewidywaną) wartością y zgodnie z poprzednimi równaniami regresji, a Ya jest średnią wszystkich wartości y .

Współczynnik Cd waha się od 0 (brak wyjaśnienia) do 1 (pełne wyjaśnienie, idealne dopasowanie).
W czystej, niesegmentowanej regresji liniowej wartości Cd i Ra 2 są równe. W regresji segmentowej Cd musi być znacznie większy niż Ra 2, aby uzasadnić segmentację.

Optymalna wartość przerwania mogą znajdować się tak, aby współczynnik Cd maksymalna .

Zasięg bez efektu

Ilustracja zakresu od X=0 do X=7,85, na który nie ma wpływu.

Regresja segmentowa jest często używana do wykrycia, w jakim zakresie zmienna objaśniająca (X) nie ma wpływu na zmienną zależną (Y), podczas gdy poza zasięgiem istnieje wyraźna odpowiedź, czy to pozytywna, czy negatywna. Zasięg braku efektu można znaleźć w początkowej części domeny X lub odwrotnie, w jej ostatniej części. W przypadku analizy „bez efektu” zastosowanie metody najmniejszych kwadratów do analizy regresji segmentowej może nie być najwłaściwszą techniką, ponieważ celem jest raczej znalezienie najdłuższego odcinka, na którym można uznać, że relacja YX ma nachylenie zerowe, a poza nim zasięg nachylenia znacząco różni się od zera, ale wiedza o najlepszej wartości tego nachylenia nie jest istotna. Metodą znalezienia zakresu bez efektu jest progresywna częściowa regresja w zakresie, rozszerzanie zakresu małymi krokami, aż współczynnik regresji znacznie różni się od zera.

Na następnej ilustracji punkt załamania znajduje się przy X=7,9, podczas gdy dla tych samych danych (patrz niebieski rysunek powyżej dla uzysku gorczycy), metoda najmniejszych kwadratów daje punkt załamania tylko przy X=4,9. Ta ostatnia wartość jest niższa, ale dopasowanie danych poza punktem przerwania jest lepsze. W związku z tym od celu analizy będzie zależeć, jaką metodę należy zastosować.

Zobacz też

Bibliografia

  1. ^ Analiza częstotliwości i regresji . Rozdział 6 w: HPRitzema (red., 1994), Drainage Principles and Applications , Publ. 16, s. 175-224, Międzynarodowy Instytut Rekultywacji i Poprawy Gruntów (ILRI), Wageningen, Holandia. ISBN  90-70754-33-9 . Do pobrania bezpłatnie ze strony [1] , pod nr. 20 lub bezpośrednio jako PDF : [2]
  2. ^ Badania drenażowe na polach rolników: analiza danych . Część projektu „Płynne złoto” Międzynarodowego Instytutu Rekultywacji i Poprawy Gruntów (ILRI), Wageningen, Holandia. Pobierz jako PDF : [3]
  3. ^ RJOosterbaan, DPSharma, KNSingh i KVGKRao, 1990, Produkcja roślinna i zasolenie gleby: ocena danych terenowych z Indii za pomocą segmentowej regresji liniowej . W: Proceedings of the Symposium on Land Melioring for Salinity Control in Aide and Semi-Asid Regions, 25 lutego do 2 marca 1990, Kair, Egipt, tom. 3, sesja V, s. 373 - 383.
  4. ^ Muggeo, VMR (2016). „Testowanie z uciążliwym parametrem występującym tylko w alternatywie: podejście oparte na wynikach z zastosowaniem do modelowania segmentowego” (PDF) . Dziennik obliczeń statystycznych i symulacji . 86 (15): 3059–3067. doi : 10.1080/00949655.2016.1149855 .
  5. ^ Istotność statystyczna segmentowanej regresji liniowej z punktem przerwania przy użyciu analizy wariancji i testów F . Pobierz z [4] pod nr. 13 lub bezpośrednio jako PDF : [5]
  6. ^ Analiza regresji segmentowej, Międzynarodowy Instytut Rekultywacji i Poprawy Gruntów (ILRI), Wageningen, Holandia. Bezpłatne pobieranie ze strony [6]
  7. ^ Analiza regresji częściowej, Międzynarodowy Instytut Rekultywacji i Poprawy Gruntów (ILRI), Wageningen, Holandia. Bezpłatne pobieranie ze strony [7]