Percentyl — Percentile
W statystycznych , A k -tego percentyla ( percentyl punktów lub percentyla ), oznaczony , to wynik poniżej której dany procent k punktów w jego rozkładu częstotliwości mieści się (bez rozdzielczości) lub wynik na poziomie lub poniżej której dana ilość spadnie (włącznie definicja). Na przykład 50. percentyl ( mediana ) to wynik, poniżej którego (wyłącznie) lub poniżej lub poniżej (włącznie) można znaleźć 50% wyników w rozkładzie. Percentyle są wyrażone w tej samej jednostce miary co wyniki wejściowe; na przykład, jeśli wyniki odnoszą się do wagi człowieka , odpowiednie percentyle będą wyrażone w kilogramach lub funtach.
Wynik centylowy i ranga centylowa są terminami powiązanymi. Ranga centylowa wyniku to procent wyników w jego rozkładzie, które są mniejsze od niej, wyłączna definicja i taka, która może być wyrażona za pomocą pojedynczej, prostej formuły. Percentyla wyniki i percentyla szeregi są często wykorzystywane w raportowania wyników testów z testów NORM odwoływać , ale, jak już wspomniano, nie są one takie same. W przypadku rangi centylowej podawany jest wynik i obliczany jest procent. Rangi centylowe są wyłączne. Jeśli ranga centylowa dla określonego wyniku wynosi 90%, to 90% wyników było niższych. Natomiast w przypadku percentyli podaje się procent i określa się odpowiadający mu wynik, który może być albo wykluczający, albo włączający. Wynik dla określonego odsetka (np. 90.) wskazuje wynik, poniżej którego (definicja wyłączna) lub poniżej lub poniżej którego (definicja włączająca) spadają inne wyniki w rozkładzie.
25. percentyl jest również znany jako pierwszy kwartyl ( Q 1 ), 50. percentyl jako mediany i drugim kwartyla ( Q 2 ), a 75-tym percentylu jako trzeci kwartyl ( Q 3 ).
Aplikacje
Kiedy dostawcy usług internetowych wystawiają rachunek za „niestabilną” przepustowość Internetu , 95 lub 98 percentyl zwykle odcina górne 5% lub 2% szczytów przepustowości w każdym miesiącu, a następnie nalicza rachunki według najbliższej stawki. W ten sposób nieliczne szczyty są ignorowane, a klient jest obciążany w bardziej sprawiedliwy sposób. Powodem, dla którego ta statystyka jest tak przydatna w pomiarze przepustowości danych, jest to, że daje bardzo dokładny obraz kosztów przepustowości. 95. percentyl mówi, że w 95% przypadków użycie jest poniżej tej kwoty: więc przez pozostałe 5% czasu użycie jest powyżej tej kwoty.
Lekarze często wykorzystują wagę i wzrost niemowląt i dzieci do oceny ich wzrostu w porównaniu ze średnimi krajowymi i percentylami, które znajdują się na wykresach wzrostu .
85-centylowa prędkość ruchu na drodze jest często wykorzystywana jako wytyczna przy ustalaniu ograniczeń prędkości i ocenie, czy takie ograniczenie jest za wysokie lub za niskie.
W finansach wartość zagrożona jest standardową miarą służącą do oceny (w sposób zależny od modelu) wielkości, poniżej której nie oczekuje się obniżenia wartości portfela w danym okresie i przy danej wartości ufności.
Rozkład normalny i percentyle
Metody podane w sekcji definicji (poniżej) są przybliżeniami do użycia w statystyce małej próby. Ogólnie rzecz biorąc, w przypadku bardzo dużych populacji o rozkładzie normalnym , percentyle często można przedstawić w odniesieniu do wykresu krzywej normalnej. Rozkład normalny jest wykreślany wzdłuż osi przeskalowanej do odchyleń standardowych lub jednostek sigma ( ). Matematycznie rozkład normalny rozciąga się na ujemną nieskończoność po lewej i dodatnią nieskończoność po prawej stronie. Należy jednak zauważyć, że tylko bardzo mały odsetek osobników w populacji znajdzie się poza zakresem od -3 σ do +3 σ . Na przykład przy ludzkim wzroście bardzo niewiele osób jest powyżej poziomu wzrostu +3 σ .
Percentyle reprezentują obszar pod krzywą normalną, rosnący od lewej do prawej. Każde odchylenie standardowe reprezentuje stały percentyl. Tak więc, zaokrąglając do dwóch miejsc po przecinku, -3 σ to 0,13 percentyl, -2 σ 2,28 percentyl, -1 σ 15,87 percentyl, 0 σ 50 percentyl (zarówno średnia, jak i mediana rozkładu), + 1 σ 84,13 percentyla, +2 σ 97,72 percentyla i +3 σ 99,87 percentyla. Wiąże się to z zasadą 68–95–99,7 lub zasadą trzech sigma. Należy zauważyć, że teoretycznie 0. percentyl przypada na ujemną nieskończoność, a 100. percentyl na nieskończoność dodatnią, chociaż w wielu praktycznych zastosowaniach, takich jak wyniki testów, wymuszane są naturalne dolne i/lub górne granice.
Definicje
Nie ma standardowej definicji percentyla, jednak wszystkie definicje dają podobne wyniki, gdy liczba obserwacji jest bardzo duża, a rozkład prawdopodobieństwa jest ciągły. W limicie, gdy wielkość próby zbliża się do nieskończoności, 100 p- ty percentyl (0< p <1) aproksymuje odwrotność tak utworzonej funkcji dystrybucji skumulowanej (CDF), oszacowanej w p , jako że p aproksymuje CDF. Można to postrzegać jako konsekwencję twierdzenia Glivenka-Cantellego . Poniżej podano niektóre metody obliczania percentyli.
Metody obliczania
Istnieje wiele formuł lub algorytmów dla wyniku percentyla. Hyndman i Fan zidentyfikowali dziewięć, a większość programów statystycznych i arkuszy kalkulacyjnych korzysta z jednej z opisanych przez nich metod. Algorytmy zwracają wartość punktacji, która istnieje w zestawie punktacji (metody najbliższego rankingu) lub interpolują między istniejącymi punktacjami i są albo wykluczające, albo włączające.
PC: określony percentyl | 0,10 | 0,25 | 0,50 | 0,75 | 0,90 |
---|---|---|---|---|---|
N: Liczba punktów | 10 | 10 | 10 | 10 | 10 |
LUB: rząd porządkowy = PC × N | 1 | 2,5 | 5 | 7,5 | 9 |
Pozycja: >LUB / ≥LUB | 2/1 | 3/3 | 6/5 | 8/8 | 10/9 |
Wynik na randze (dosk./dok.) | 2/1 | 3/3 | 4/3 | 5/5 | 7/5 |
Rysunek przedstawia rozkład 10 punktów, ilustruje wyniki percentylowe wynikające z tych różnych algorytmów i służy jako wprowadzenie do przykładów podanych później. Najprostsze są metody najbliższego rankingu, które zwracają wynik z rozkładu, chociaż w porównaniu z metodami interpolacji wyniki mogą być nieco prymitywne. Tabela Metody najbliższego rankingu przedstawia kroki obliczeniowe dla metod wyłącznych i włączających.
PC: określony percentyl | 0,10 | 0,25 | 0,50 | 0,75 | 0,90 |
---|---|---|---|---|---|
N: liczba punktów | 10 | 10 | 10 | 10 | 10 |
LUB: PC×(N+1) / PC×(N−1)+1 | 1,1/1,9 | 2,75/3,25 | 5,5/5,5 | 8.25/7.75 | 9,9/9,1 |
LoRank: LUB obcięty | 1/1 | 2/3 | 5/5 | 8/7 | 9/9 |
HIRank: LUB zaokrąglony w górę | 2/2 | 3/4 | 6/6 | 9/8 | 10/10 |
LoScore: wynik w LoRank | 1/1 | 2/3 | 3/3 | 5/4 | 5/5 |
HiScore: wynik w HiRank | 2/2 | 3/3 | 4/4 | 5/5 | 7/7 |
Różnica: HiScore − LoScore | 1/1 | 1/0 | 1/1 | 0/1 | 2/2 |
Mod: część ułamkowa OR | 0,1/0,9 | 0,75/0,25 | 0,5/0,5 | 0,25/0,75 | 0,9/0,1 |
Wynik interpolowany ( dodat./wzrost ) = LoScore + Mod × Różnica |
1,1/1,9 | 2,75/3 | 3,5/3,5 | 5/4,75 | 6.8/5.2 |
Metody interpolacji, jak sama nazwa wskazuje, mogą zwrócić wynik, który znajduje się między punktami w rozkładzie. Algorytmy używane przez programy statystyczne zwykle wykorzystują metody interpolacji, na przykład funkcje percentile.exl i percentile.inc w programie Microsoft Excel. Tabela Interpolated Methods pokazuje kroki obliczeniowe.
Metoda najbliższej rangi
Jedną z definicji percentyla, często podawaną w tekstach, jest to, że P -ty percentyl z listy N uporządkowanych wartości (posortowanych od najmniejszej do największej) jest najmniejszą wartością na liście, tak że nie więcej niż P procent danych jest ściśle mniejsza niż wartość i co najmniej P procent danych jest mniejszy lub równy tej wartości. Uzyskuje się to, obliczając najpierw rangę porządkową, a następnie biorąc wartość z uporządkowanej listy, która odpowiada tej randze. Porządkowej stopień n oblicza się przy użyciu następującego wzoru
Zwróć uwagę na następujące kwestie:
- Użycie metody najbliższej rangi na listach zawierających mniej niż 100 różnych wartości może spowodować, że ta sama wartość zostanie użyta dla więcej niż jednego percentyla.
- Percentyl obliczony przy użyciu metody najbliższej rangi zawsze będzie członkiem oryginalnej uporządkowanej listy.
- Setny percentyl jest zdefiniowany jako największa wartość na uporządkowanej liście.
Praktyczne przykłady metody najbliższej rang
- Przykład 1
Rozważ uporządkowaną listę {15, 20, 35, 40, 50}, która zawiera 5 wartości danych. Jaki jest 5., 30., 40., 50. i 100. percentyl tej listy przy użyciu metody najbliższej rangi?
Percentyl P |
Numer na liście N |
Porządkowa ranga n |
Numer z uporządkowanej listy, który ma tę rangę |
Wartość percentyla |
Uwagi |
---|---|---|---|---|---|
5th | 5 | pierwsza liczba na uporządkowanej liście, czyli 15 | 15 | 15 to najmniejszy element listy; 0% danych to dokładnie mniej niż 15, a 20% danych jest mniejsze lub równe 15. | |
30. | 5 | druga liczba na uporządkowanej liście, czyli 20 | 20 | 20 jest elementem uporządkowanej listy. | |
40. | 5 | druga liczba na uporządkowanej liście, czyli 20 | 20 | W tym przykładzie jest to to samo co 30 percentyl. | |
50. | 5 | trzecia liczba na uporządkowanej liście, czyli 35 | 35 | 35 jest elementem uporządkowanej listy. | |
100. | 5 | ostatnia liczba na uporządkowanej liście, czyli 50 | 50 | Setny percentyl jest zdefiniowany jako największa wartość na liście, czyli 50. |
Zatem 5., 30., 40., 50. i 100. percentyl uporządkowanej listy {15, 20, 35, 40, 50} przy użyciu metody najbliższej rangi to {15, 20, 20, 35, 50}.
- Przykład 2
Rozważ uporządkowaną populację 10 wartości danych {3, 6, 7, 8, 8, 10, 13, 15, 16, 20}. Jakie są 25., 50., 75. i 100. percentyle tej listy przy użyciu metody najbliższej rangi?
Percentyl P |
Numer na liście N |
Porządkowa ranga n |
Numer z uporządkowanej listy, który ma tę rangę |
Wartość percentyla |
Uwagi |
---|---|---|---|---|---|
25. | 10 | trzecia liczba na uporządkowanej liście, czyli 7 | 7 | 7 jest elementem wykazu. | |
50. | 10 | piąta liczba na uporządkowanej liście, czyli 8 | 8 | 8 jest elementem listy. | |
75. | 10 | 8. numer na uporządkowanej liście, czyli 15 | 15 | 15 jest elementem listy. | |
100. | 10 | Ostatni | 20, czyli ostatnia liczba na uporządkowanej liście | 20 | Setny percentyl jest zdefiniowany jako największa wartość na liście, czyli 20. |
Zatem 25, 50, 75 i 100 percentyl uporządkowanej listy {3, 6, 7, 8, 8, 10, 13, 15, 16, 20} przy użyciu metody najbliższej rangi to {7, 8, 15, 20 }.
- Przykład 3
Rozważ uporządkowaną populację 11 wartości danych {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20}. Jakie są 25., 50., 75. i 100. percentyle tej listy przy użyciu metody najbliższej rangi?
Percentyl P |
Numer na liście N |
Porządkowa ranga n |
Numer z uporządkowanej listy, który ma tę rangę |
Wartość percentyla |
Uwagi |
---|---|---|---|---|---|
25. | 11 | trzecia liczba na uporządkowanej liście, czyli 7 | 7 | 7 jest elementem wykazu. | |
50. | 11 | szósta liczba na uporządkowanej liście, czyli 9 | 9 | 9 jest elementem listy. | |
75. | 11 | dziewiąty numer na uporządkowanej liście, czyli 15 | 15 | 15 jest elementem listy. | |
100. | 11 | Ostatni | 20, czyli ostatnia liczba na uporządkowanej liście | 20 | Setny percentyl jest zdefiniowany jako największa wartość na liście, czyli 20. |
Zatem 25, 50, 75 i 100 percentyl uporządkowanej listy {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20} przy użyciu metody najbliższego rzędu to {7, 9, 15 , 20}.
Metoda interpolacji liniowej między najbliższymi rangami
Alternatywą dla zaokrąglania używanego w wielu aplikacjach jest użycie interpolacji liniowej między sąsiednimi rzędami.
Podobieństwa między wariantami tej metody
Wszystkie poniższe warianty mają wspólne cechy. Biorąc pod uwagę statystyki zamówień
szukamy funkcji interpolacji liniowej, która przechodzi przez punkty . Osiąga się to po prostu przez
gdzie używa funkcji floor do przedstawienia integralnej części dodatniego x , natomiast używa funkcji mod do przedstawienia jej części ułamkowej (reszta po dzieleniu przez 1). (Zauważ, że chociaż w punkcie końcowym , jest niezdefiniowane, nie musi tak być, ponieważ jest pomnożone przez .) Jak widać, x jest ciągłą wersją indeksu dolnego i , interpolującą liniowo v między sąsiednimi węzłami.
Istnieją dwa sposoby różnicowania podejść wariantowych. Pierwsza jest w liniowej zależności między rangą x , rangą procentową i stałą będącą funkcją wielkości próby N :
Istnieje dodatkowy wymóg , aby punkt środkowy zakresu , odpowiadający medianie , występował w :
a nasza poprawiona funkcja ma teraz tylko jeden stopień swobody i wygląda następująco:
Drugim sposobem, w jaki warianty różnią się, jest definicja funkcji w pobliżu marginesów przedziału p : powinna dawać lub być zmuszona do wytworzenia wyniku w przedziale , co może oznaczać brak funkcji jeden-do- jedna korespondencja w szerszym regionie. Jeden z autorów zasugerował wybór, gdzie ξ jest kształtem uogólnionego rozkładu wartości ekstremalnych, który jest granicą wartości ekstremalnej próbkowanego rozkładu.
Pierwszy wariant, C = 1/2
(Źródła: funkcja "prctile" Matlaba,)
gdzie
Ponadto niech
Odwrotna zależność jest ograniczona do węższego regionu:
Praktyczny przykład pierwszego wariantu
Rozważ uporządkowaną listę {15, 20, 35, 40, 50}, która zawiera pięć wartości danych. Jakie są 5., 30., 40. i 95. percentyle tej listy przy użyciu metody liniowej interpolacji między najbliższymi rangami? Najpierw obliczamy pozycję procentową dla każdej wartości listy.
Wartość listy |
Pozycja tej wartości w uporządkowanej liście i |
Liczba wartości N |
Obliczanie rangi procentowej |
Pozycja procentowa, |
---|---|---|---|---|
15 | 1 | 5 | 10 | |
20 | 2 | 5 | 30 | |
35 | 3 | 5 | 50 | |
40 | 4 | 5 | 70 | |
50 | 5 | 5 | 90 |
Następnie bierzemy te rangi procentowe i obliczamy wartości percentyli w następujący sposób:
Pozycja procentowa P |
Liczba wartości N |
Czy ? | Czy ? | Czy istnieje ranga procentowa równa P ? |
Czego używamy dla wartości percentyla? | Wartość percentyla |
Uwagi |
---|---|---|---|---|---|---|---|
5 | 5 | tak | Nie | Nie | Widzimy to , czyli mniej niż pierwszy procent rangi , więc użyj wartości z pierwszej listy , która wynosi 15 | 15 | 15 jest członkiem uporządkowanej listy |
30 | 5 | Nie | Nie | tak | Widzimy, że jest to to samo, co drugi procent rang , więc użyj drugiej wartości listy , która wynosi 20 | 20 | 20 jest członkiem uporządkowanej listy |
40 | 5 | Nie | Nie | Nie | Widzimy, że jest to między rangą procentową a , więc bierzemy
Mając te wartości, możemy obliczyć v w następujący sposób: |
27,5 | 27.5 nie jest członkiem uporządkowanej listy |
95 | 5 | Nie | tak | Nie | Widzimy, że , który jest większy niż ostatni procent rangi , więc użyj ostatniej wartości listy, która wynosi 50 | 50 | 50 jest członkiem uporządkowanej listy |
Tak więc 5., 30., 40. i 95. percentyl uporządkowanej listy {15, 20, 35, 40, 50} przy użyciu metody liniowej interpolacji między najbliższymi rangami to {15, 20, 27,5, 50}
Drugi wariant, C = 1
(Źródło: Niektóre pakiety oprogramowania, w tym NumPy i Microsoft Excel (do wersji 2013 włącznie za pomocą funkcji PERCENTILE.INC). Zanotowane jako alternatywa przez NIST )
Zauważ, że relacja jest jeden-do-jednego dla jedynego z trzech wariantów z tą właściwością; stąd przyrostek "INC", dla włącznie , w funkcji Excela.
Opracowane przykłady drugiego wariantu
Przykład 1
Rozważ uporządkowaną listę {15, 20, 35, 40, 50}, która zawiera pięć wartości danych. Jaki jest 40. percentyl na tej liście przy użyciu tej metody wariantowej?
Najpierw obliczamy rangę 40. percentyla:
Czyli x =2,6, co daje nam i . Tak więc wartość 40. percentyla to
Przykład 2
Rozważ uporządkowaną listę {1,2,3,4}, która zawiera cztery wartości danych. Jaki jest 75. percentyl tej listy przy użyciu metody Microsoft Excel?
Najpierw obliczamy rangę 75. percentyla w następujący sposób:
Czyli x =3,25, co daje część całkowitą 3 i część ułamkową 0,25. Zatem wartość 75. percentyla to
Trzeci wariant, C = 0
(Podstawowy wariant zalecany przez NIST . Przyjęty przez Microsoft Excel od 2010 roku za pomocą funkcji PERCENTIL.EXC. Jednak, jak wskazuje sufiks „EXC”, wersja Excela wyklucza oba punkty końcowe zakresu p , tj. , podczas gdy „ wersja INC”, drugi wariant, nie; w rzeczywistości każda liczba mniejsza niż jest również wykluczona i spowodowałaby błąd.)
Odwrotność jest ograniczona do węższego regionu:
Praktyczny przykład trzeciego wariantu
Rozważ uporządkowaną listę {15, 20, 35, 40, 50}, która zawiera pięć wartości danych. Jaki jest 40. percentyl tej listy przy użyciu metody NIST?
Najpierw obliczamy rangę 40. percentyla w następujący sposób:
Czyli x =2.4, co daje nam i . Zatem wartość 40. percentyla oblicza się jako:
Zatem wartość 40. percentyla uporządkowanej listy {15, 20, 35, 40, 50} przy użyciu tej metody wariantowej wynosi 26.
Metoda ważonego percentyla
Oprócz funkcji percentyla istnieje również percentyl ważony , w którym zamiast całkowitej liczby liczony jest procent w całkowitej wadze. Nie ma standardowej funkcji dla percentyla ważonego. Jedna metoda w naturalny sposób rozszerza powyższe podejście.
Załóżmy, że mamy dodatnie wagi powiązane odpowiednio z naszymi N posortowanymi wartościami próbek. Pozwolić
suma wag. Następnie powyższe formuły uogólnia się, biorąc
- kiedy ,
lub
- ogólnie ,
oraz
50% ważony percentyl jest znany jako mediana ważona .