Model proporcjonalnych zagrożeń - Proportional hazards model

Modele proporcjonalnego hazardu to klasa modeli przetrwania w statystyce . Modele przeżycia wiążą czas, który upływa, zanim nastąpi jakieś zdarzenie, z jedną lub kilkoma współzmiennymi, które mogą być powiązane z tą ilością czasu. W modelu proporcjonalnych hazardów unikalny efekt jednostkowego wzrostu zmiennej towarzyszącej jest multiplikatywny w odniesieniu do współczynnika hazardu . Na przykład zażywanie leku może zmniejszyć o połowę współczynnik ryzyka wystąpienia udaru lub zmiana materiału, z którego wykonany jest wytwarzany element, może podwoić jego współczynnik ryzyka niepowodzenia. Inne typy modeli przeżycia, takie jak modele przyspieszonego czasu awarii , nie wykazują proporcjonalnych zagrożeń. Model przyspieszonego czasu awarii opisuje sytuację, w której biologiczna lub mechaniczna historia życia zdarzenia ulega przyspieszeniu (lub spowolnieniu).

tło

Modele przeżycia można postrzegać jako składające się z dwóch części: bazowej wyjściowej funkcji ryzyka , często oznaczanej , opisującej, jak ryzyko zdarzenia w jednostce czasu zmienia się w czasie na wyjściowych poziomach współzmiennych; oraz parametry skutków opisujące, jak zagrożenie zmienia się w odpowiedzi na objaśniające zmienne towarzyszące. Typowy przykład medyczny obejmowałby współzmienne, takie jak przypisanie leczenia, a także cechy pacjenta, takie jak wiek na początku badania, płeć i obecność innych chorób na początku badania, w celu zmniejszenia zmienności i/lub kontroli dla pomieszania. ${\ Displaystyle \ lambda _ {0}(t)}$

Proporcjonalna stan zagrożenia wskazuje, że zmienne są multiplikatywnie związane z zagrożeniem. W najprostszym przypadku współczynników stacjonarnych, na przykład, leczenie lekiem może, powiedzmy, zmniejszyć o połowę zagrożenie osobnika w danym momencie , podczas gdy podstawowe zagrożenie może się różnić. Zauważ jednak, że nie podwaja to czasu życia podmiotu; dokładny wpływ zmiennych towarzyszących na czas życia zależy od rodzaju . Zmiennej objaśniającej nie ogranicza się do predyktorów binarnych; w przypadku zmiennej towarzyszącej ciągłej zazwyczaj zakłada się, że zagrożenie reaguje wykładniczo; każda jednostka wzrostu skutkuje proporcjonalnym skalowaniem zagrożenia. $t$ ${\ Displaystyle \ lambda _ {0}(t)}$ $x$ $x$

Model Coxa

Częściowe wiarogodność Coxa, pokazaną poniżej, uzyskuje się przy użyciu oszacowania Breslowa podstawowej funkcji hazardu, wstawiając ją do pełnego wiarogodności, a następnie obserwując, że wynik jest iloczynem dwóch czynników. Pierwszym czynnikiem jest przedstawione poniżej częściowe prawdopodobieństwo, w którym zagrożenie podstawowe „zniknęło”. Drugi czynnik jest wolny od współczynników regresji i zależy tylko od danych poprzez wzorzec cenzurowania . Efekt współzmiennych oszacowanych przez dowolny model proporcjonalnych hazardów można zatem przedstawić jako współczynniki hazardu .

Sir David Cox zauważył, że jeśli założenie proporcjonalnego hazardu jest spełnione (lub zakłada się, że jest prawdziwe), to możliwe jest oszacowanie parametru(ów) efektu bez uwzględniania funkcji hazardu. Takie podejście do danych o przeżyciach nazywa się zastosowaniem modelu proporcjonalnych hazardów Coxa , czasami skracanych do modelu Coxa lub do modelu proporcjonalnych hazardów . Cox zauważył jednak również, że biologiczna interpretacja założenia proporcjonalnego zagrożenia może być dość trudna.

Niech $X i = (X i 1, \dots , X ip)$ będą zrealizowanymi wartościami współzmiennych dla podmiotu i . Funkcja hazardu dla modelu proporcjonalnych hazardów Coxa ma postać

{\ Displaystyle \ lambda (t | X_ {i}) = \ lambda _ {0} (t) \ exp (\ beta _ {1} X_ {i1} + \ cdots + \ beta _ {p} X_ {IP} )=\lambda _{0}(t)\exp(X_{i}\cdot \beta ).}

To wyrażenie daje funkcję hazardu w czasie t dla podmiotu i z wektorem towarzyszącym (zmienne objaśniające) X _i .

Prawdopodobieństwo zaobserwowania zdarzenia dla podmiotu i w czasie Y _i można zapisać jako:

{\ Displaystyle L_ {i} (\ beta) = {\ Frac {\ lambda (Y_ {i} \ mid X_ {i})} {\ suma _ {j: Y_ {j} \ geq Y_ {i}} \ lambda (Y_{i}\mid X_{j})}}={\frac {\lambda _{0}(Y_{i})\theta _{i}}{\sum _{j:Y_{j} \geq Y_{i}}\lambda _{0}(Y_{i})\theta _{j}}}={\frac {\theta _{i}}{\sum _{j:Y_{j} \geq Y_{i}}\theta _{j}}},}

gdzie $θ j = exp(X j \cdot β$ ) i sumowanie jest nad zbiorem podmiotów j, gdzie zdarzenie nie miało miejsca przed czasem Y _i (w tym sam podmiot i ). Oczywiście 0 < L _i (β) ≤ 1. Jest to częściowe prawdopodobieństwo : wpływ zmiennych towarzyszących można oszacować bez konieczności modelowania zmiany hazardu w czasie.

Traktując osoby badane tak, jakby były statystycznie niezależne od siebie, łączne prawdopodobieństwo wszystkich zrealizowanych zdarzeń jest następującym prawdopodobieństwem cząstkowym, gdzie zajście zdarzenia wskazuje C _i = 1:

{\ Displaystyle L (\ beta) = \ prod _ {i: C_ {i} = 1} L_ {i} (\ beta).}

Odpowiadający logarytm częściowej prawdopodobieństwa to

{\ Displaystyle \ ell (\ beta) = \ suma _ {i: C_ {i} = 1} \ lewo (X_ {i} \ cdot \ beta - \ log \ suma _ {j: Y_ {j} \ geq Y_ {i}}\theta _{j}\prawo).}

Ta funkcja może być maksymalizowana przez β, aby uzyskać maksymalne częściowe oszacowania wiarygodności parametrów modelu.

Funkcja oceny cząstkowej to

{\ Displaystyle \ ell ^ {\ prime} (\ beta) = \ suma _ {i: C_ {i} = 1} \ lewo (X_ {i} - {\ Frac {\ suma _ {j: Y_ {j}} \geq Y_{i}}\theta _{j}X_{j}}{\sum _{j:Y_{j}\geq Y_{i}}\theta _{j}}}\right),}

a macierz Hessian częściowego logarytmu wiarygodności to

{\ Displaystyle \ ell ^ {\ prime \ prime} (\ beta ) = - \ suma _ {i: C_ {i} = 1} \ lewo ({\ Frac {\ suma _ {j: Y_ {j}} \ geq Y_{i}}\theta _{j}X_{j}X_{j}^{\prime }}{\sum _{j:Y_{j}\geq Y_{i}}\theta _{j}} }-{\frac {\left[\sum _{j:Y_{j}\geq Y_{i}}\theta _{j}X_{j}\right]\left[\sum _{j:Y_{ j}\geq Y_{i}}\theta _{j}X_{j}^{\prime }\right]}{\left[\sum _{j:Y_{j}\geq Y_{i}}\ theta _{j}\prawo]^{2}}}\prawo).}

Wykorzystując tę funkcję punktacji i macierz Hessian, można zmaksymalizować częściową wiarogodność za pomocą algorytmu Newtona-Raphsona . Odwrotność macierzy Hessian, obliczona przy oszacowaniu β , może być użyta jako przybliżona macierz wariancji-kowariancji dla oszacowania i użyta do wygenerowania przybliżonych błędów standardowych dla współczynników regresji.

Związane czasy

Zaproponowano kilka podejść do obsługi sytuacji, w których istnieją powiązania w danych czasowych. Metoda Breslowa opisuje podejście, w którym opisana powyżej procedura jest stosowana w niezmienionej formie, nawet przy obecności powiązań. Alternatywnym podejściem, które uważa się za dające lepsze wyniki, jest metoda Efrona . Niech t _j oznacza jednoznaczne czasy, H _j oznacza zbiór indeksów i taki, że Y _i = t _j oraz C _i = 1, oraz niech m _j = | H _j |. Podejście Efrona maksymalizuje następujące częściowe prawdopodobieństwo.

{\ Displaystyle L (\ beta ) = \ prod _ {j}{\ Frac {\ prod _ {i \ w H_ {j}} \ theta _ {i}} {\ prod _ {\ ell = 0} ^ { m-1}\left[\sum _{i:Y_{i}\geq t_{j}}\theta _{i}-{\frac {\ell }{m}}\sum _{i\in H_ {j}}\theta _{i}\right]}}.}

Odpowiadający logarytm częściowej prawdopodobieństwa to

{\ Displaystyle \ ell (\ beta) = \ suma _ {j} \ lewo (\ suma _ {i \ w H_ {j}} X_ {i} \ cdot \ beta - \ suma _ {\ ell = 0} ^ {m-1}\log \left(\sum _{i:Y_{i}\geq t_{j}}\theta _{i}-{\frac {\ell }{m}}\sum _{i \in H_{j}}\theta _{i}\right)\right),}

funkcja punktacji to

{\ Displaystyle \ ell ^ {\ prime} (\ beta ) = \ suma _ {j} \ lewo (\ suma _ {i \ w H_ {j}} X_ {i} - \ suma _ {\ ell = 0} ^{m-1}{\frac {\sum _{i:Y_{i}\geq t_{j}}\theta _{i}X_{i}-{\frac {\ell }{m}}\ suma _{i\in H_{j}}\theta _{i}X_{i}}{\sum _{i:Y_{i}\geq t_{j}}\theta _{i}-{\frac {\ell }{m}}\sum _{i\in H_{j}}\theta _{i}}}\right),}

a macierz Hesja to

{\ Displaystyle \ ell ^ {\ prime \ prime} (\ beta ) = - \ suma _ {j} \ suma _ {\ ell = 0} ^ {m-1} \ lewo ({\ Frac {\ suma _ { i:Y_{i}\geq t_{j}}\theta _{i}X_{i}X_{i}^{\prime }-{\frac {\ell }{m}}\sum _{i\ w H_{j}}\theta _{i}X_{i}X_{i}^{\prime }}{\phi _{j,\ell ,m}}}-{\frac {Z_{j,\ ell ,m}Z_{j,\ell ,m}^{\prime }}{\phi _{j,\ell ,m}^{2}}}\right),}

gdzie

{\ Displaystyle \ phi _ {j \ ell , m} = \ suma _ {i: Y_ {i} \ geq t_ {j}} \ theta _ {i} - {\ frac {\ ell { m}} \sum _{i\in H_{j}}\theta _{i}}

{\ Displaystyle Z_ {j, \ ell, m} = \ suma _ {i: Y_ {i} \ geq t_ {j}} \ theta _ {i} X_ {i} - {\ Frac {\ ell} {m }}\sum _{i\in H_{j}}\theta _{i}X_{i}.}

Zauważ, że gdy H _j jest puste (wszystkie obserwacje z czasem t _j są cenzurowane), sumy w tych wyrażeniach są traktowane jako zero.

Predyktory i współczynniki zmienne w czasie

Rozszerzenia na zmienne zależne od czasu, warstwy zależne od czasu i wiele zdarzeń na pacjenta można włączyć do formułowania procesu liczenia Andersena i Gilla. Jednym z przykładów wykorzystania modeli hazardu z regresorami zmiennymi w czasie jest szacowanie wpływu ubezpieczenia na wypadek bezrobocia na okresy bezrobocia.

Oprócz dopuszczenia zmiennych towarzyszących zmieniających się w czasie (tj. predyktorów), model Coxa można również uogólnić na współczynniki zmienne w czasie. Oznacza to, że proporcjonalny efekt leczenia może zmieniać się w czasie; np. lek może być bardzo skuteczny, jeśli zostanie podany w ciągu jednego miesiąca od zachorowania , i z czasem stać się mniej skuteczny. Można wtedy przetestować hipotezę o braku zmiany w czasie (stacjonarności) współczynnika. Szczegóły i oprogramowanie ( pakiet R ) są dostępne w Martinussen i Scheike (2006). W matematyce rzetelności rozważa się zastosowanie modelu Coxa ze zmiennymi towarzyszącymi zmieniającymi się w czasie.

W tym kontekście można również wspomnieć, że teoretycznie możliwe jest określenie wpływu zmiennych towarzyszących za pomocą zagrożeń addytywnych, tj. określenie

{\ Displaystyle \ lambda (t | X_ {i}) = \ lambda _ {0} (t) + \ beta _ {1} X_ {i1} + \ cdots + \ beta _ {p} X_ {IP} = \ lambda _{0}(t)+X_{i}\cdot \beta .}

Jeśli takie addytywne modele zagrożeń są stosowane w sytuacjach, w których celem jest maksymalizacja (log-) prawdopodobieństwa, należy zachować ostrożność, aby ograniczyć się do wartości nieujemnych. Być może w wyniku tej komplikacji takie modele są rzadko widywane. Jeśli zamiast tego celem jest najmniejsza liczba kwadratów, ograniczenie nieujemności nie jest ściśle wymagane. ${\ Displaystyle \ lambda (t \ mid X_ {i})}$

Określanie podstawowej funkcji hazardu

Model Coxa może być wyspecjalizowany, jeśli istnieje powód, by zakładać, że zagrożenie bazowe ma określoną formę. W takim przypadku zagrożenie bazowe zastępuje się daną funkcją. Na przykład zakładając, że funkcją hazardu jest funkcja hazardu Weibulla, otrzymujemy model proporcjonalnych hazardów Weibulla . ${\ Displaystyle \ lambda _ {0}(t)}$

Nawiasem mówiąc, wykorzystanie bazowego hazardu Weibulla jest jedyną okolicznością, w której model spełnia zarówno proporcjonalne hazardy, jak i modele przyspieszonego czasu awarii .

Ogólny termin parametryczne modele proporcjonalnych hazardów może być użyty do opisania modeli proporcjonalnych hazardów, w których określona jest funkcja hazardu. Model proporcjonalnego hazardu Coxa jest czasami nazywany modelem semiparametrycznym .

Niektórzy autorzy używają terminu model proporcjonalnego hazardu Coxa nawet przy określaniu podstawowej funkcji hazardu, aby potwierdzić dług całego pola dla Davida Coxa.

Termin model regresji Coxa (z pominięciem hazardów proporcjonalnych ) jest czasami używany do opisu rozszerzenia modelu Coxa o czynniki zależne od czasu. Jednak to użycie jest potencjalnie niejednoznaczne, ponieważ model proporcjonalnych hazardów Coxa sam w sobie można opisać jako model regresji.

Związek z modelami Poissona

Istnieje związek między modelami proporcjonalnych hazardów a modelami regresji Poissona , który jest czasami używany do dopasowania przybliżonych modeli proporcjonalnych hazardów w oprogramowaniu do regresji Poissona. Zwykle powodem tego jest to, że obliczenia są znacznie szybsze. Było to ważniejsze w czasach wolniejszych komputerów, ale nadal może być przydatne w przypadku szczególnie dużych zestawów danych lub złożonych problemów. Laird i Olivier (1981) podają matematyczne szczegóły. Zauważają, że „nie zakładamy, że [model Poissona] jest prawdziwy, ale po prostu używamy go jako narzędzia do wyprowadzenia prawdopodobieństwa”. Książka McCullagha i Neldera na temat uogólnionych modeli liniowych zawiera rozdział poświęcony konwersji modeli proporcjonalnego hazardu do uogólnionych modeli liniowych .

W konfiguracji wysokowymiarowej

W dużym wymiarze, gdy liczba zmiennych towarzyszących p jest duża w porównaniu do wielkości próby n, metoda LASSO jest jedną z klasycznych strategii wyboru modelu. Tibshirani (1997) zaproponował procedurę Lasso dla parametru regresji proporcjonalnego hazardu. Lasso estymator parametru regresji beta jest definiowany jako Minimizer przeciwnej COX częściowego Log-Likelihood zgodnie z L ¹ -norm typ wiązania.

{\ Displaystyle \ ell (\ beta) = \ suma _ {j} \ lewo (\ suma _ {i \ w H_ {j}} X_ {i} \ cdot \ beta - \ suma _ {\ ell = 0} ^ {m-1}\log \left(\sum _{i:Y_{i}\geq t_{j}}\theta _{i}-{\frac {\ell }{m}}\sum _{i \in H_{j}}\theta _{i}\right)\right)+\lambda \|\beta \|_{1},}

W ostatnim czasie nastąpił w tym temacie teoretyczny postęp.

Zobacz też

Uwagi

Bibliografia

Bagdonavicius V.; Lewulien, R.; Nikulin, M. (2010). „Kryteria Goodness-of-fit dla modelu Coxa z lewej obcięte i prawo cenzurowane danych”. Czasopismo Nauk Matematycznych . 167 (4): 436–443. doi : 10.1007/s10958-010-9929-6 .
Cox, DR; Oakes, D. (1984). Analiza danych przeżycia . Nowy Jork: Chapman i Hall. Numer ISBN 978-0412244902.
Collett, D. (2003). Modelowanie danych przeżycia w badaniach medycznych (wyd. 2). Boca Raton: CRC. Numer ISBN 978-1584883258.
Gouriéroux, Chrześcijanin (2000). „Modele czasu trwania” . Ekonometria jakościowych zmiennych zależnych . Nowy Jork: Cambridge University Press. s. 284–362. Numer ISBN 978-0-521-58985-7.
Piosenkarka, Judith D.; Willett, John B. (2003). „Dopasowanie modeli regresji Coxa” . Zastosowana analiza danych podłużnych: modelowanie zmian i występowania zdarzeń . Nowy Jork: Oxford University Press. s. 503-542. Numer ISBN 978-0-19-515296-8.
Therneau, TM; Grambscha, PM (2000). Modelowanie danych przeżycia: Rozszerzenie modelu Coxa . Nowy Jork: Springer. Numer ISBN 978-0387987842.

Languages

In other projects