Analiza przeżycia - Survival analysis

Analiza przeżycia to gałąź statystyki służąca do analizowania oczekiwanego czasu do wystąpienia jednego zdarzenia, takiego jak śmierć w organizmach biologicznych i awaria systemów mechanicznych. Temat ten nazywa się teorią niezawodności lub analizą niezawodności w inżynierii , analizą czasu trwania lub modelowaniem czasu trwania w ekonomii oraz analizą historii zdarzeń w socjologii . Analiza przeżycia próbuje odpowiedzieć na pewne pytania, na przykład jaki jest odsetek populacji, która przeżyje po pewnym czasie? Spośród tych, którzy przeżyją, w jakim tempie umrą lub upadną? Czy można brać pod uwagę wiele przyczyn śmierci lub niepowodzenia? Jak poszczególne okoliczności lub cechy zwiększają lub zmniejszają prawdopodobieństwo przeżycia ?

Aby odpowiedzieć na takie pytania, należy zdefiniować „żywotność”. W przypadku biologicznego przetrwania śmierć jest jednoznaczna, ale w przypadku niezawodności mechanicznej awaria może nie być dobrze zdefiniowana, ponieważ mogą istnieć systemy mechaniczne, w których awaria jest częściowa, zależy od stopnia lub nie jest zlokalizowana w inny sposób w czasie . Nawet w przypadku problemów biologicznych niektóre zdarzenia (na przykład zawał serca lub niewydolność innych narządów) mogą mieć tę samą niejednoznaczność. Teorię określono poniżej zakłada dobrze określonych zdarzeń w określonym czasie; inne przypadki mogą być lepiej potraktowane przez modele, które wprost uwzględniają niejednoznaczne zdarzenia.

Bardziej ogólnie, analiza przeżycia obejmuje modelowanie danych dotyczących czasu do zdarzenia; w tym kontekście śmierć lub niepowodzenie jest uważane za „zdarzenie” w literaturze poświęconej analizie przeżycia – tradycyjnie dla każdego podmiotu występuje tylko jedno zdarzenie, po którym organizm lub mechanizm jest martwy lub uszkodzony. Modele powtarzających się zdarzeń lub powtarzających się zdarzeń rozluźniają to założenie. Badanie powtarzających się zdarzeń ma znaczenie dla niezawodności systemów oraz w wielu dziedzinach nauk społecznych i badań medycznych.

Wprowadzenie do analizy przeżycia

Analiza przeżycia jest wykorzystywana na kilka sposobów:

Definicje wspólnych terminów w analizie przeżycia

W analizach przeżycia powszechnie stosuje się następujące terminy:

  • Zdarzenie: Śmierć, wystąpienie choroby, nawrót choroby, powrót do zdrowia lub inne interesujące doświadczenie
  • Czas: czas od początku okresu obserwacji (takiego jak operacja lub rozpoczęcie leczenia) do (i) zdarzenia lub (ii) zakończenia badania lub (iii) utraty kontaktu lub wycofania się z badania.
  • Cenzurowanie / Obserwacja cenzurowana: Cenzurowanie ma miejsce, gdy mamy pewne informacje o indywidualnym czasie przeżycia, ale nie znamy dokładnie czasu przeżycia. Podmiot jest cenzurowany w tym sensie, że nic nie jest obserwowane ani wiadome o tym przedmiocie po czasie cenzurowania. Ocenzurowany podmiot może, ale nie musi mieć zdarzenia po zakończeniu czasu obserwacji.
  • Funkcja przeżycia S(t): Prawdopodobieństwo, że podmiot przeżyje dłużej niż czas t.

Przykład: dane dotyczące przeżycia ostrej białaczki szpikowej

Ten przykład wykorzystuje zestaw danych przeżycia ostrej białaczki szpikowej „aml” z pakietu „przeżycie” w R. Zestaw danych pochodzi od Millera (1997) i pytanie brzmi, czy standardowy kurs chemioterapii powinien zostać przedłużony („utrzymany”) dla dodatkowe cykle.

Zestaw danych aml posortowany według czasu przeżycia jest pokazany w ramce.

zestaw danych aml posortowany według czasu przeżycia
  • Czas jest wskazywany przez zmienną „czas”, która jest czasem przetrwania lub cenzurowania
  • Zdarzenie (nawrót raka aml) wskazuje zmienna „status”. 0  = brak zdarzenia (ocenzurowane), 1  = zdarzenie (powrót)
  • Grupa leczenia: zmienna „x” wskazuje, czy podano chemioterapię podtrzymującą

Ostatnia obserwacja (11), w 161 tygodniu, zostaje ocenzurowana. Cenzurowanie wskazuje, że u pacjenta nie wystąpiło zdarzenie (brak nawrotu raka aml). Inny badany, obserwacja 3, został ocenzurowany po 13 tygodniach (wskazywany statusem=0). Ten podmiot był w badaniu tylko przez 13 tygodni, a rak nie nawrócił się w ciągu tych 13 tygodni. Możliwe, że ten pacjent został włączony do badania pod koniec badania, tak że można go było obserwować tylko przez 13 tygodni. Możliwe jest również, że pacjent został włączony do badania na początku, ale został utracony z obserwacji lub wycofał się z badania. Tabela pokazuje, że inne osoby zostały ocenzurowane w 16, 28 i 45 tygodniu (obserwacje 17, 6 i  9 ze statusem=0). Wszyscy pozostali badani doświadczyli zdarzeń (nawrotu raka) podczas badania. Interesującą kwestią jest to, czy nawrót pojawia się później u pacjentów podtrzymanych niż u pacjentów nieutrzymywanych.

Wykres Kaplana-Meiera dla danych aml

Funkcja przeżycia S ( t ) to prawdopodobieństwo, że osobnik przeżyje dłużej niż czas t . S ( t ) jest teoretycznie krzywą gładką, ale zwykle szacuje się ją za pomocą krzywej Kaplana-Meiera (KM). Wykres przedstawia wykres KM dla danych aml i można go interpretować w następujący sposób:

  • X oś jest czas, od zera (gdy zaczęła obserwacji) do ostatniego obserwowanym punkcie czasowym.
  • Y osi jest odsetek osób, które przeżyły. W czasie zero 100% badanych żyje bez zdarzenia.
  • Linia ciągła (podobna do klatki schodowej) pokazuje postęp zdarzeń.
  • Pionowy spadek oznacza zdarzenie. W tabeli aml pokazanej powyżej, dwoje badanych miało zdarzenia po pięciu tygodniach, dwóch miało zdarzenia po ośmiu tygodniach, jeden miał zdarzenia po dziewięciu tygodniach i tak dalej. Te zdarzenia po pięciu tygodniach, ośmiu tygodniach itd. są wskazywane przez pionowe spadki na wykresie KM w tych punktach czasowych.
  • Na skrajnym prawym końcu wykresu KM znajduje się znacznik po 161 tygodniach. Pionowy znacznik oznacza, że ​​pacjent był w tym czasie cenzurowany. W tabeli danych AML ocenzurowano pięć osób w 13, 16, 28, 45 i 161 tygodniu. Na wykresie KM znajduje się pięć znaczników, odpowiadających tym ocenzurowanym obserwacjom.

Tablica życia dla danych aml

Tablica trwania życia podsumowuje dane dotyczące przeżycia pod względem liczby zdarzeń i proporcji przeżywalności w każdym punkcie czasowym zdarzenia. Pokazano tablicę trwałości danych aml, utworzoną za pomocą  oprogramowania R.

Tablica życia dla danych aml

Tablica trwania podsumowuje zdarzenia i proporcje, które przeżyły w każdym punkcie czasowym zdarzenia. Kolumny w tabeli trwałości mają następującą interpretację:

  • czas podaje punkty czasowe, w których mają miejsce zdarzenia.
  • n.ryzyko to liczba osób zagrożonych bezpośrednio przed punktem czasowym, t. Bycie „zagrożonym” oznacza, że ​​podmiot nie miał zdarzenia przed czasem t i nie jest cenzurowany przed lub w czasie t.
  • n.zdarzenie to liczba podmiotów, które miały zdarzenia w czasie t.
  • przeżycie to odsetek przeżycia, określony za pomocą oszacowania limitu produktu Kaplana-Meiera.
  • std.err to standardowy błąd szacowanego przeżycia. Błąd standardowy oszacowania limitu produktu Kaplana-Meiera jest obliczany przy użyciu wzoru Greenwooda i zależy od liczby zagrożonej (n.ryzyko w tabeli), liczby zgonów (n.zdarzenie w tabeli) i proporcji przeżycie (przeżycie w tabeli).
  • dolny 95% CI i górny 95% CI to dolna i górna 95% granica ufności dla odsetka, który przeżył.

Test log-rank: Testowanie różnic w przeżywalności w danych aml

Test log-rank porównuje czasy przeżycia dwóch lub więcej grup. W tym przykładzie zastosowano test log-rank dla różnicy przeżycia w grupie leczonej utrzymanej i nieutrzymywanej w danych aml. Wykres przedstawia wykresy KM dla danych aml z podziałem na grupy leczenia, co jest wskazane przez zmienną „x” w danych.

Wykres Kaplana-Meiera według grup leczenia w aml

Hipotezą zerową dla testu log-rank jest to, że grupy mają takie samo przeżycie. Oczekiwana liczba osobników przeżywających w każdym punkcie czasowym w każdym jest dostosowywana do liczby osobników zagrożonych w grupach w każdym czasie zdarzenia. Test log-rank określa, czy zaobserwowana liczba zdarzeń w każdej grupie różni się znacząco od liczby oczekiwanej. Formalny test opiera się na statystyce chi-kwadrat. Gdy statystyka log-rank jest duża, świadczy to o różnicy w czasach przeżycia między grupami. Statystyka log-rank ma w przybliżeniu rozkład chi-kwadrat z jednym stopniem swobody, a wartość p jest obliczana przy użyciu rozkładu chi-kwadrat.

Dla przykładowych danych test log-rank dla różnicy w przeżyciu daje wartość p p=0,0653, co wskazuje, że grupy leczenia nie różnią się znacząco w przeżyciu, zakładając poziom alfa 0,05. Wielkość próby 23 osób jest skromna, więc nie ma możliwości wykrycia różnic między grupami leczenia. Test chi-kwadrat opiera się na aproksymacji asymptotycznej, więc wartość p należy traktować ostrożnie w przypadku małych próbek.

Analiza regresji proporcjonalnego hazardu Coxa (PH)

Krzywe Kaplana-Meiera i testy log-rank są najbardziej przydatne, gdy zmienna predykcyjna jest kategoryczna (np. lek vs placebo) lub przyjmuje niewielką liczbę wartości (np. dawki leku 0, 20, 50 i 100 mg/dobę). ), które można traktować jako kategoryczne. Test log-rank i krzywe KM nie działają łatwo z predyktorami ilościowymi, takimi jak ekspresja genów, liczba białych krwinek lub wiek. W przypadku ilościowych zmiennych predykcyjnych alternatywną metodą jest analiza regresji proporcjonalnych hazardów Coxa . Modele Coxa PH działają również z predyktorami jakościowymi, które są zakodowane jako wskaźniki {0,1} lub zmienne fikcyjne. Test log-rank jest szczególnym przypadkiem analizy Cox PH i można go przeprowadzić za pomocą oprogramowania Cox PH.

Przykład: Analiza regresji proporcjonalnego hazardu Coxa dla czerniaka

W tym przykładzie wykorzystano zestaw danych o czerniaku z rozdziału 14. Dalgaarda.

Dane znajdują się w pakiecie R ISwR. Regresja proporcjonalnych hazardów Coxa przy użyciu  R daje wyniki pokazane w ramce.

Wyniki regresji proporcjonalnych hazardów Coxa dla danych dotyczących czerniaka. Zmienna predykcyjna to płeć 1: kobieta, 2: mężczyzna.

Wyniki regresji Coxa są interpretowane w następujący sposób.

  • Płeć jest zakodowana jako wektor numeryczny (1: kobieta, 2: mężczyzna).  Podsumowanie R dla modelu Coxa podaje współczynnik ryzyka (HR) dla drugiej grupy w stosunku do pierwszej grupy, to znaczy mężczyzn w porównaniu z kobietami.
  • coef = 0,662 to szacowany logarytm ilorazu ryzyka dla mężczyzn w stosunku do kobiet.
  • exp(coef) = 1,94 = exp(0,662) — logarytm współczynnika hazardu (coef=0,662) jest przekształcany na współczynnik ryzyka za pomocą exp(coef). Podsumowanie dla modelu Coxa podaje iloraz ryzyka dla drugiej grupy w stosunku do pierwszej grupy, to znaczy mężczyzn w porównaniu z kobietami. Szacowany współczynnik ryzyka wynoszący 1,94 wskazuje, że w tych danych mężczyźni mają wyższe ryzyko zgonu (niższe wskaźniki przeżycia) niż kobiety.
  • se(coef) = 0,265 to błąd standardowy logarytmu współczynnika hazardu.
  • z = 2,5 = coef/se(coef) = 0,662/0,265. Dzielenie coef przez jego błąd standardowy daje wynik z.
  • p=0,013. Wartość p odpowiadająca z=2,5 dla płci wynosi p=0,013, co wskazuje, że istnieje znacząca różnica w przeżywalności w zależności od płci.

Wynik sumaryczny daje również górny i dolny 95% przedział ufności dla ilorazu ryzyka: dolna granica 95% = 1,15; górna granica 95% = 3,26.

Wreszcie dane wyjściowe dają wartości p dla trzech alternatywnych testów dla ogólnej istotności modelu:

  • Test ilorazu wiarygodności = 6,15 na 1 df, p=0,0131
  • Test Walda = 6,24 na 1 df, p=0,0125
  • Test punktacji (log-rank) = 6,47 na 1 df, p=0,0110

Te trzy testy są asymptotycznie równoważne. Dla wystarczająco dużego N dadzą podobne wyniki. Dla małego N mogą się nieco różnić. Ostatni wiersz, „Test punktacji (log-rank)” jest wynikiem testu log-rank, z p=0,011, takim samym wynikiem jak test log-rank, ponieważ test log-rank jest szczególnym przypadkiem PH Coxa regresja. Test ilorazu prawdopodobieństwa zachowuje się lepiej dla próbek o małych rozmiarach, dlatego jest generalnie preferowany.

Model Coxa wykorzystujący współzmienną w danych dotyczących czerniaka

Model Coxa rozszerza test log-rank, umożliwiając włączenie dodatkowych zmiennych towarzyszących. W tym przykładzie użyto zestawu danych o czerniaku, w którym zmienne predykcyjne obejmują ciągłą współzmienną, grubość guza (nazwa zmiennej = „gruby”).

Histogramy grubości guza czerniaka

Na histogramach wartości grubości nie mają rozkładu normalnego. Modele regresji, w tym model Coxa, na ogół dają bardziej wiarygodne wyniki ze zmiennymi o normalnym rozkładzie. W tym przykładzie użyj transformacji dziennika. Logarytm grubości guza wygląda na bardziej normalnie rozłożony, więc modele Coxa będą używać logarytmicznej grubości. Analiza Cox PH daje wyniki w ramce.

Dane wyjściowe Coxa PH dla zestawu danych dotyczących czerniaka ze współzmienną logarytmiczną grubości guza

Wartość p dla wszystkich trzech testów ogólnych (prawdopodobieństwo, Wald i wynik) są istotne, co wskazuje, że model jest istotny. Wartość p dla log(grubości) wynosi 6,9e-07, ze współczynnikiem ryzyka HR = exp(coef) = 2,18, co wskazuje na silny związek między grubością guza a zwiększonym ryzykiem zgonu.

Dla kontrastu, wartość p dla płci wynosi teraz p=0,088. Współczynnik ryzyka HR = exp(coef) = 1,58, z 95% przedziałem ufności od 0,934 do 2,68. Ponieważ przedział ufności dla HR zawiera 1, wyniki te wskazują, że płeć ma mniejszy udział w różnicy HR po kontrolowaniu grubości guza i wykazuje tendencję do istotności. Analiza wykresów log(grubości) według płci i test t log(grubości) według płci wskazują, że istnieje znacząca różnica między mężczyznami i kobietami w grubości guza, gdy po raz pierwszy spotykają się z klinicystą.

Model Coxa zakłada, że ​​zagrożenia są proporcjonalne. Założenie proporcjonalnego hazardu można przetestować za pomocą  funkcji R cox.zph(). Wartość p jest mniejsza niż 0,05 wskazuje, że zagrożenia nie są proporcjonalne. Dla danych dotyczących czerniaka, p=0,222, co wskazuje, że zagrożenia są przynajmniej w przybliżeniu proporcjonalne. Dodatkowe testy i wykresy do badania modelu Coxa są opisane w cytowanych podręcznikach.

Rozszerzenia do modeli Cox

Modele Coxa można rozszerzyć, aby radzić sobie z odmianami prostej analizy.

  • Stratyfikacja. Osoby badane można podzielić na warstwy, przy czym oczekuje się, że osoby w obrębie warstwy będą stosunkowo bardziej do siebie podobne niż do losowo wybranych osób z innych warstw. Zakłada się, że parametry regresji są takie same we wszystkich warstwach, ale dla każdej warstwy może istnieć inny poziom bazowego ryzyka. Stratyfikacja jest użyteczna w przypadku analiz z wykorzystaniem dopasowanych podmiotów, do radzenia sobie z podgrupami pacjentów, takimi jak różne kliniki, oraz do radzenia sobie z naruszeniami założenia proporcjonalnego ryzyka.
  • Współzmienne zmienne w czasie. Niektóre zmienne, takie jak płeć i grupa leczona, na ogół pozostają takie same w badaniu klinicznym. Inne zmienne kliniczne, takie jak poziom białka w surowicy lub dawka jednocześnie stosowanych leków, mogą się zmieniać w trakcie badania. Modele Coxa można rozszerzyć dla takich zmiennych w czasie współzmiennych.

Modele przetrwania o strukturze drzewa

Model regresji Coxa PH jest modelem liniowym. Jest podobny do regresji liniowej i regresji logistycznej. W szczególności metody te zakładają, że pojedyncza linia, krzywa, płaszczyzna lub powierzchnia wystarcza do oddzielenia grup (żywych, martwych) lub do oszacowania odpowiedzi ilościowej (czas przeżycia).

W niektórych przypadkach alternatywne podziały dają dokładniejszą klasyfikację lub szacunki ilościowe. Jednym z zestawów alternatywnych metod są modele przetrwania o strukturze drzewa, w tym losowe lasy przetrwania. Modele przeżycia o strukturze drzewa mogą dawać dokładniejsze prognozy niż modele Coxa. Rozsądną strategią jest badanie obu typów modeli dla danego zbioru danych.

Przykładowa analiza drzewa przeżycia

Ten przykład analizy drzewa przeżycia wykorzystuje  pakiet R "rpart". Przykład opiera się na 146  pacjentach z rakiem prostaty w stadium C w zestawie danych stadiumc w rpart. Rpart i przykład stagec są opisane w dokumencie PDF "An Introduction to Recursive Partitioning Using the RPART Routines". Terry M. Therneau, Elizabeth J. Atkinson, Fundacja Mayo. 3 września 1997 r.

Zmienne w etapach to:

  • pgtime : czas do progresji lub ostatnia kontrola bez progresji
  • pgstat : stan z ostatniego uzupełnienia (1=postępował, 0=ocenzurowany)
  • wiek : wiek w momencie rozpoznania
  • eet : wczesna terapia hormonalna (1=nie, 0=tak)
  • ploidia : diploidalny/tetraploidalny/aneuploidalny wzór DNA
  • g2 : % komórek w fazie G2
  • stopień : stopień guza (1-4)
  • gleason : klasa Gleason (3-10)

Drzewo przeżycia powstałe w wyniku analizy pokazano na rysunku.

Drzewo przeżycia dla zestawu danych dotyczących raka prostaty

Każda gałąź w drzewie wskazuje podział wartości zmiennej. Na przykład korzeń drzewa dzieli przedmioty z oceną < 2,5 w porównaniu z osobami z oceną 2,5 lub wyższą. Węzły końcowe wskazują liczbę podmiotów w węźle, liczbę podmiotów, u których wystąpiły zdarzenia, oraz względną częstość zdarzeń w porównaniu z korzeniem. W węźle po lewej stronie wartości 1/33 wskazują, że jeden z 33 badanych w węźle miał zdarzenie, a względna częstość zdarzeń wynosi 0,122. W węźle w prawym dolnym rogu wartości 11/15 wskazują, że 11 z 15 osób w węźle miało zdarzenie, a względna częstość zdarzeń wynosi 2,7.

Przetrwanie losowych lasów

Alternatywą dla budowania pojedynczego drzewa przeżycia jest zbudowanie wielu drzew przeżycia, gdzie każde drzewo jest konstruowane na podstawie próbki danych i uśrednianie drzew w celu przewidywania przeżycia. Jest to metoda leżąca u podstaw modeli lasów losowych przeżycia. Losowa analiza lasu przeżycia jest dostępna w  pakiecie R "randomForestSRC".

Pakiet randomForestSRC zawiera przykładową analizę losowego lasu przeżycia przy użyciu zestawu danych pbc. Te dane pochodzą z badania wątroby Mayo Clinic Primary Biliary Cirrhosis (PBC) przeprowadzonego w latach 1974-1984. W tym przykładzie losowy model przeżycia lasu daje dokładniejsze prognozy przeżycia niż model Coxa PH. Błędy przewidywania są szacowane przez ponowne próbkowanie metodą bootstrap .

Ogólna formuła

Funkcja przetrwania

Przedmiotem głównego zainteresowania jest funkcja przeżycia , umownie oznaczana S , która jest definiowana jako

gdzie t to jakiś czas, T to zmienna losowa oznaczająca czas zgonu, a „Pr” oznacza prawdopodobieństwo . Oznacza to, że funkcja przeżycia jest prawdopodobieństwem, że czas zgonu jest późniejszy niż określony czas t . Funkcja przeżycia jest również nazywana funkcją przeżycia lub funkcją przeżycia w problemach przetrwania biologicznego, a funkcją niezawodności w problemach przetrwania mechanicznego. W tym drugim przypadku funkcję niezawodności oznaczono R ( t ).

Zwykle zakłada się S (0) = 1, chociaż może być mniejsze niż 1,  jeśli istnieje możliwość natychmiastowej śmierci lub awarii.

Funkcja przeżycia musi być nierosnąca: S ( u ) ≤ S ( t ) jeśli ut . Ta własność wynika bezpośrednio, ponieważ T > u implikuje T > t . Odzwierciedla to pogląd, że przetrwanie do późniejszego wieku jest możliwe tylko wtedy, gdy osiągnięto wszystkie młodsze wieki. Biorąc pod uwagę tę właściwość, funkcja rozkładu czasu życia i gęstość zdarzeń ( F i f poniżej) są dobrze zdefiniowane.

Zwykle zakłada się, że funkcja przeżycia zbliża się do zera wraz ze wzrostem wieku bez ograniczeń (tj. S ( t ) → 0 jako t → ∞), chociaż granica może być większa od zera, jeśli możliwe jest życie wieczne. Na przykład, możemy zastosować analizę przeżycia do mieszaniny stabilnych i niestabilnych izotopów węgla ; niestabilne izotopy rozpadłyby się prędzej czy później, ale stabilne izotopy przetrwałyby w nieskończoność.

Funkcja rozkładu czasu życia i gęstość zdarzeń

Ilości związane są definiowane w kategoriach funkcji przeżycia.

Funkcja rozkładu czasu życia , umownie oznaczana F , jest definiowana jako dopełnienie funkcji przeżycia,

Jeżeli F jest różniczkowalna, to pochodną będącą funkcją gęstości rozkładu czasu życia umownie oznaczamy f ,

Funkcja f jest czasami nazywana gęstością zdarzeń ; jest to wskaźnik zgonów lub awarii w jednostce czasu.

Funkcję przeżycia można wyrazić w postaci rozkładu prawdopodobieństwa i funkcji gęstości prawdopodobieństwa

Podobnie, funkcję gęstości zdarzeń przeżycia można zdefiniować jako

W innych dziedzinach, takich jak fizyka statystyczna, funkcja gęstości zdarzenia przeżycia jest znana jako gęstość czasu pierwszego przejścia .

Funkcja zagrożenia i skumulowana funkcja zagrożenia

Funkcja hazardu , umownie oznaczana lub , jest definiowana jako częstość zdarzeń w czasie uzależniona od przeżycia do czasu lub później (czyli ). Załóżmy, że przedmiot przetrwał jakiś czas i oczekujemy prawdopodobieństwa, że ​​nie przetrwa przez dodatkowy czas :

Siła śmiertelności jest synonimem funkcji zagrożenia, która jest używana szczególnie w demografii i naukach aktuarialnych , gdzie jest oznaczona przez . Termin stopa hazardu to kolejny synonim.

Siłę śmiertelności funkcji przeżycia określa się jako

Siła śmiertelności jest również nazywana siłą porażki. Jest to funkcja gęstości prawdopodobieństwa rozkładu śmiertelności.

W naukach aktuarialnych stopa hazardu to wskaźnik zgonów dla życia w wieku . Dla życia w wieku , siła śmiertelności po latach jest siłą śmiertelności dla rocznego dziecka. Współczynnik hazardu nazywany jest również współczynnikiem awaryjności. Wskaźnik ryzyka i wskaźnik awaryjności to nazwy używane w teorii niezawodności.

Każda funkcja jest funkcją zagrożenia wtedy i tylko wtedy, gdy spełnia następujące właściwości:

  1. ,
  2. .

W rzeczywistości stopa hazardu jest zwykle bardziej informacyjna na temat podstawowego mechanizmu awarii niż inne reprezentacje rozkładu życia.

Funkcja hazardu musi być nieujemna, a jej całka po musi być nieskończona, ale nie jest w żaden inny sposób ograniczona; może być rosnący lub malejący, niemonotoniczny lub nieciągły. Przykładem jest funkcja hazardu krzywej wannowej, która jest duża dla małych wartości , malejąca do pewnego minimum, a następnie ponownie rosnąca; może to modelować właściwość niektórych systemów mechanicznych, aby upaść wkrótce po uruchomieniu lub znacznie później, gdy system się starzeje.

Funkcję hazardu można alternatywnie przedstawić w postaci skumulowanej funkcji hazardu , oznaczanej umownie lub :

więc transponowanie znaków i potęgowanie

lub różnicowanie (z regułą łańcucha)

Nazwa „funkcja skumulowanego zagrożenia” wywodzi się z faktu, że:

co oznacza „kumulację” zagrożenia w czasie.

Z definicji , widzimy, że wzrasta bez ograniczeń, ponieważ t dąży do nieskończoności (zakładając, że dąży do zera). Oznacza to, że nie może się to zmniejszać zbyt szybko, ponieważ z definicji skumulowane zagrożenie musi się różnić. Na przykład nie jest funkcją hazardu jakiegokolwiek rozkładu przeżycia, ponieważ jego całka jest zbieżna do 1.

Funkcja przeżycia , skumulowana funkcja hazardu , gęstość , funkcja hazardu i funkcja rozkładu czasu życia są powiązane poprzez

Wielkości pochodzące z rozkładu przeżycia

Przyszłe życie w danym czasie to czas pozostały do ​​śmierci, biorąc pod uwagę przeżycie do wieku . Tak jest w niniejszej notacji. Oczekiwany czas życia przyszłość jest oczekiwana wartość przyszłego życia. Prawdopodobieństwo śmierci w wieku lub przed osiągnięciem wieku , biorąc pod uwagę przeżycie do wieku , jest sprawiedliwe

Dlatego gęstość prawdopodobieństwa przyszłego życia wynosi

a oczekiwany przyszły czas życia to

gdzie drugie wyrażenie uzyskuje się za pomocą całkowania przez części .

Dla , to znaczy przy urodzeniu, sprowadza się to do oczekiwanego życia.

W problemach z niezawodnością oczekiwany czas życia nazywa się średnim czasem do awarii , a oczekiwany przyszły czas życia nazywa się średnim czasem życia rezydualnego .

Ponieważ prawdopodobieństwo indywidualnego przeżycia do wieku , T lub później jest S ( T ), zgodnie z definicją, oczekiwana liczba osób, które przeżyły w wieku t z początkowej populacji z n niemowląt wynosi n x S ( t ), przy założeniu, że te same funkcje przeżycia dla wszystkich osób. Zatem oczekiwany odsetek ocalałych wynosi S ( t ). Jeśli przeżycie różnych osobników jest niezależne, liczba ocalałych w wieku t ma rozkład dwumianowy z parametrami n i S ( t ), a wariancja proporcji ocalałych wynosi S ( t ) × (1- S ( t ) )/ n .

Wiek, w którym pozostaje określony odsetek ocalałych, można znaleźć, rozwiązując równanie S ( t ) = q dla t , gdzie q jest kwantylem , o którym mowa. Zazwyczaj interesuje nas mediana czasu życia , dla której q = 1/2, lub inne kwantyle takie jak q = 0,90 lub q = 0,99.

Cenzurowanie

Cenzurowanie jest formą problemu brakujących danych, w którym czas do zdarzenia nie jest obserwowany z powodów takich jak zakończenie badania, zanim wszyscy zrekrutowani badani wykazali interesujące zdarzenie lub uczestnik opuścił badanie przed doświadczeniem zdarzenia. Cenzurowanie jest powszechne w analizie przeżycia.

Jeżeli znana jest tylko dolna granica l dla czasu rzeczywistego zdarzenia T, taka, że T > l , nazywa się to cenzurowaniem właściwym . Właściwa cenzura będzie miała miejsce, na przykład, w przypadku tych osób, których data urodzenia jest znana, ale które nadal żyją, gdy zostaną utracone z obserwacji lub gdy badanie się zakończy. Na ogół spotykamy dane z cenzurą prawomocną.

Jeśli interesujące zdarzenie miało już miejsce przed włączeniem podmiotu do badania, ale nie wiadomo, kiedy miało miejsce, mówi się, że dane są ocenzurowane lewostronnie . Kiedy można tylko powiedzieć, że zdarzenie miało miejsce między dwoma obserwacjami lub badaniami, jest to cenzurowanie interwałowe .

Cenzurowanie lewostronne ma miejsce na przykład wtedy, gdy ząb stały pojawił się już przed rozpoczęciem badania stomatologicznego, które ma na celu oszacowanie rozkładu jego pojawiania się. W tym samym badaniu czas wynurzenia jest oceniany interwałowo, gdy ząb stały jest obecny w jamie ustnej w bieżącym badaniu, ale jeszcze nie w poprzednim badaniu. Cenzurowanie interwałowe często występuje w badaniach nad HIV/AIDS. Rzeczywiście, czas do serokonwersji HIV można określić jedynie na podstawie oceny laboratoryjnej, którą zwykle rozpoczyna się po wizycie u lekarza. Wtedy można jedynie stwierdzić, że między dwoma badaniami nastąpiła serokonwersja HIV. To samo dotyczy diagnozy AIDS, która opiera się na objawach klinicznych i musi zostać potwierdzona badaniem lekarskim.

Może się również zdarzyć, że osoby z czasem życia krótszym niż pewien próg mogą nie być w ogóle obserwowane: nazywa się to obcięciem . Zauważ, że obcinanie różni się od cenzurowania z lewej strony, ponieważ w przypadku odniesienia cenzurowanego z lewej strony wiemy, że podmiot istnieje, ale w przypadku obciętego układu odniesienia możemy być całkowicie nieświadomi podmiotu. Obcinanie jest również powszechne. W tak zwanym badaniu opóźnionego wejścia badani nie są w ogóle obserwowani, dopóki nie osiągną określonego wieku. Na przykład ludzie mogą nie być obserwowani, dopóki nie osiągną wieku umożliwiającego rozpoczęcie nauki w szkole. Wszelkie zmarłe przedmioty w wieku przedszkolnym byłyby nieznane. Dane skrócone do lewej są powszechne w przypadku pracy aktuarialnej dla ubezpieczeń na życie i emerytur.

Dane z cenzurą lewostronną mogą wystąpić, gdy czas przeżycia osoby staje się niepełny po lewej stronie okresu obserwacji tej osoby. Na przykład, w przykładzie epidemiologicznym, możemy monitorować pacjenta pod kątem choroby zakaźnej, począwszy od momentu uzyskania pozytywnego wyniku testu na infekcję. Chociaż możemy znać prawą stronę czasu trwania zainteresowania, możemy nigdy nie znać dokładnego czasu ekspozycji na czynnik zakaźny.

Dopasowanie parametrów do danych

Modele przeżycia mogą być użytecznie postrzegane jako zwykłe modele regresji, w których zmienną odpowiedzi jest czas. Jednak obliczenie funkcji wiarygodności (niezbędnej do dopasowania parametrów lub dokonania innego rodzaju wnioskowania) komplikuje cenzurowanie. Funkcja prawdopodobieństwa dla modelu przeżycia, w obecności cenzurowanych danych, jest sformułowana w następujący sposób. Z definicji funkcja wiarygodności jest prawdopodobieństwem warunkowym danych przy danych parametrach modelu. Przyjęło się zakładać, że dane są niezależne, biorąc pod uwagę parametry. Wtedy funkcja wiarygodności jest iloczynem prawdopodobieństwa każdego punktu odniesienia. Wygodnie jest podzielić dane na cztery kategorie: nieocenzurowane, z cenzurą z lewej, z cenzurą z prawej i z cenzurą interwałową. Są one oznaczone jako „unc”, „lc”, „rc” i „ic” ​​w poniższym równaniu.

W przypadku danych nieocenzurowanych, z równym wiekiem w chwili śmierci, mamy

W przypadku danych z cenzurą lewostronną, w przypadku których wiadomo, że wiek w chwili śmierci jest niższy niż , mamy

W przypadku danych z cenzurą prawostronną, w przypadku których wiek w chwili śmierci jest wyższy niż , mamy

Dla przedziału ocenzurowanego odniesienia, takiego, że wiek w chwili śmierci jest mniejszy niż i większy niż , mamy

Ważnym zastosowaniem, w którym pojawiają się dane z ocenzurowaniem interwałowym, są dane bieżącego stanu, w którym wiadomo , że zdarzenie nie wystąpiło przed czasem obserwacji i wystąpiło przed następnym czasem obserwacji.

Estymacja nieparametryczna

Do oszacowania funkcji przeżycia można użyć estymatora Kaplana-Meiera . Nelson, Aalen estymator może być stosowany do dostarczania nieparametryczny oszacowanie funkcji skumulowanego rozkładu przeżyć.

Oprogramowanie komputerowe do analizy przeżycia

Podręcznik Kleinbauma zawiera przykłady analiz przeżycia przy użyciu SAS, R i innych pakietów. Podręczniki Brostroma, Dalgaarda i Tablemana oraz Kima podają przykłady analiz przeżycia przy użyciu R (lub przy użyciu S, które działają w R).

Rozkłady stosowane w analizie przeżycia

Aplikacje

Zobacz też

Bibliografia

Dalsza lektura

  • Collett, David (2003). Modelowanie danych przeżycia w badaniach medycznych (druga red.). Boca Raton: Chapman & Hall/CRC. Numer ISBN 1584883251.
  • Elandt-Johnson, Regina; Johnsona, Normana (1999). Modele przeżycia i analiza danych . Nowy Jork: John Wiley i synowie. Numer ISBN 0471349925.
  • Kalbfleischa, JD; Prentice, Ross L. (2002). Analiza statystyczna danych o czasie awarii . Nowy Jork: John Wiley i synowie. Numer ISBN 047136357X.
  • Bezprawny, Jerald F. (2003). Modele statystyczne i metody dla danych z całego życia (wyd. 2). Hoboken: John Wiley i synowie. Numer ISBN 0471372153.
  • Rausand, M.; Hoyland, A. (2004). Teoria niezawodności systemu: modele, metody statystyczne i aplikacje . Hoboken: John Wiley i synowie. Numer ISBN 047147133X.

Zewnętrzne linki