Percentyl — Percentile

W statystycznych , A k -tego percentyla ( percentyl punktów lub percentyla ), oznaczony , to wynik poniżej której dany procent k punktów w jego rozkładu częstotliwości mieści się (bez rozdzielczości) lub wynik na poziomie lub poniżej której dana ilość spadnie (włącznie definicja). Na przykład 50. percentyl ( mediana ) to wynik, poniżej którego (wyłącznie) lub poniżej lub poniżej (włącznie) można znaleźć 50% wyników w rozkładzie. Percentyle są wyrażone w tej samej jednostce miary co wyniki wejściowe; na przykład, jeśli wyniki odnoszą się do wagi człowieka , odpowiednie percentyle będą wyrażone w kilogramach lub funtach.

Wynik centylowy i ranga centylowa są terminami powiązanymi. Ranga centylowa wyniku to procent wyników w jego rozkładzie, które są mniejsze od niej, wyłączna definicja i taka, która może być wyrażona za pomocą pojedynczej, prostej formuły. Percentyla wyniki i percentyla szeregi są często wykorzystywane w raportowania wyników testów z testów NORM odwoływać , ale, jak już wspomniano, nie są one takie same. W przypadku rangi centylowej podawany jest wynik i obliczany jest procent. Rangi centylowe są wyłączne. Jeśli ranga centylowa dla określonego wyniku wynosi 90%, to 90% wyników było niższych. Natomiast w przypadku percentyli podaje się procent i określa się odpowiadający mu wynik, który może być albo wykluczający, albo włączający. Wynik dla określonego odsetka (np. 90.) wskazuje wynik, poniżej którego (definicja wyłączna) lub poniżej lub poniżej którego (definicja włączająca) spadają inne wyniki w rozkładzie.

25. percentyl jest również znany jako pierwszy kwartyl ( Q 1 ), 50. percentyl jako mediany i drugim kwartyla ( Q 2 ), a 75-tym percentylu jako trzeci kwartyl ( Q 3 ).

Aplikacje

Kiedy dostawcy usług internetowych wystawiają rachunek za „niestabilną” przepustowość Internetu , 95 lub 98 percentyl zwykle odcina górne 5% lub 2% szczytów przepustowości w każdym miesiącu, a następnie nalicza rachunki według najbliższej stawki. W ten sposób nieliczne szczyty są ignorowane, a klient jest obciążany w bardziej sprawiedliwy sposób. Powodem, dla którego ta statystyka jest tak przydatna w pomiarze przepustowości danych, jest to, że daje bardzo dokładny obraz kosztów przepustowości. 95. percentyl mówi, że w 95% przypadków użycie jest poniżej tej kwoty: więc przez pozostałe 5% czasu użycie jest powyżej tej kwoty.

Lekarze często wykorzystują wagę i wzrost niemowląt i dzieci do oceny ich wzrostu w porównaniu ze średnimi krajowymi i percentylami, które znajdują się na wykresach wzrostu .

85-centylowa prędkość ruchu na drodze jest często wykorzystywana jako wytyczna przy ustalaniu ograniczeń prędkości i ocenie, czy takie ograniczenie jest za wysokie lub za niskie.

W finansach wartość zagrożona jest standardową miarą służącą do oceny (w sposób zależny od modelu) wielkości, poniżej której nie oczekuje się obniżenia wartości portfela w danym okresie i przy danej wartości ufności.

Rozkład normalny i percentyle

Reprezentacja reguły trzech sigma . Ciemnoniebieska strefa reprezentuje obserwacje w obrębie jednego odchylenia standardowego (σ) po obu stronach średniej (μ), co stanowi około 68,3% populacji. Dwa odchylenia standardowe od średniej (ciemny i średni niebieski) stanowią około 95,4%, a trzy odchylenia standardowe (ciemny, średni i jasnoniebieski) stanowią około 99,7%.

Metody podane w sekcji definicji (poniżej) są przybliżeniami do użycia w statystyce małej próby. Ogólnie rzecz biorąc, w przypadku bardzo dużych populacji o rozkładzie normalnym , percentyle często można przedstawić w odniesieniu do wykresu krzywej normalnej. Rozkład normalny jest wykreślany wzdłuż osi przeskalowanej do odchyleń standardowych lub jednostek sigma ( ). Matematycznie rozkład normalny rozciąga się na ujemną nieskończoność po lewej i dodatnią nieskończoność po prawej stronie. Należy jednak zauważyć, że tylko bardzo mały odsetek osobników w populacji znajdzie się poza zakresem od -3 σ do +3 σ . Na przykład przy ludzkim wzroście bardzo niewiele osób jest powyżej poziomu wzrostu +3 σ .

Percentyle reprezentują obszar pod krzywą normalną, rosnący od lewej do prawej. Każde odchylenie standardowe reprezentuje stały percentyl. Tak więc, zaokrąglając do dwóch miejsc po przecinku, -3 σ to 0,13 percentyl, -2 σ 2,28 percentyl, -1 σ 15,87 percentyl, 0 σ 50 percentyl (zarówno średnia, jak i mediana rozkładu), + 1 σ 84,13 percentyla, +2 σ 97,72 percentyla i +3 σ 99,87 percentyla. Wiąże się to z zasadą 68–95–99,7 lub zasadą trzech sigma. Należy zauważyć, że teoretycznie 0. percentyl przypada na ujemną nieskończoność, a 100. percentyl na nieskończoność dodatnią, chociaż w wielu praktycznych zastosowaniach, takich jak wyniki testów, wymuszane są naturalne dolne i/lub górne granice.

Definicje

Nie ma standardowej definicji percentyla, jednak wszystkie definicje dają podobne wyniki, gdy liczba obserwacji jest bardzo duża, a rozkład prawdopodobieństwa jest ciągły. W limicie, gdy wielkość próby zbliża się do nieskończoności, 100 p- ty percentyl (0< p <1) aproksymuje odwrotność tak utworzonej funkcji dystrybucji skumulowanej (CDF), oszacowanej w p , jako że p aproksymuje CDF. Można to postrzegać jako konsekwencję twierdzenia Glivenka-Cantellego . Poniżej podano niektóre metody obliczania percentyli.

Metody obliczania

Percentyle interpolowane i najbliższej rangi, wyłączne i włączające dla rozkładu 10-punktowego.

Istnieje wiele formuł lub algorytmów dla wyniku percentyla. Hyndman i Fan zidentyfikowali dziewięć, a większość programów statystycznych i arkuszy kalkulacyjnych korzysta z jednej z opisanych przez nich metod. Algorytmy zwracają wartość punktacji, która istnieje w zestawie punktacji (metody najbliższego rankingu) lub interpolują między istniejącymi punktacjami i są albo wykluczające, albo włączające.

Metody najbliższej rangi (wyłączne/włączne)
PC: określony percentyl 0,10 0,25 0,50 0,75 0,90
N: Liczba punktów 10 10 10 10 10
LUB: rząd porządkowy = PC × N 1 2,5 5 7,5 9
Pozycja: >LUB / ≥LUB 2/1 3/3 6/5 8/8 10/9
Wynik na randze (dosk./dok.) 2/1 3/3 4/3 5/5 7/5

Rysunek przedstawia rozkład 10 punktów, ilustruje wyniki percentylowe wynikające z tych różnych algorytmów i służy jako wprowadzenie do przykładów podanych później. Najprostsze są metody najbliższego rankingu, które zwracają wynik z rozkładu, chociaż w porównaniu z metodami interpolacji wyniki mogą być nieco prymitywne. Tabela Metody najbliższego rankingu przedstawia kroki obliczeniowe dla metod wyłącznych i włączających.

Metody interpolowane (wyłączne/włączne)
PC: określony percentyl 0,10 0,25 0,50 0,75 0,90
N: liczba punktów 10 10 10 10 10
LUB: PC×(N+1) / PC×(N−1)+1 1,1/1,9 2,75/3,25 5,5/5,5 8.25/7.75 9,9/9,1
LoRank: LUB obcięty 1/1 2/3 5/5 8/7 9/9
HIRank: LUB zaokrąglony w górę 2/2 3/4 6/6 9/8 10/10
LoScore: wynik w LoRank 1/1 2/3 3/3 5/4 5/5
HiScore: wynik w HiRank 2/2 3/3 4/4 5/5 7/7
Różnica: HiScore − LoScore 1/1 1/0 1/1 0/1 2/2
Mod: część ułamkowa OR 0,1/0,9 0,75/0,25 0,5/0,5 0,25/0,75 0,9/0,1
Wynik interpolowany (
dodat./wzrost ) = LoScore + Mod × Różnica
1,1/1,9 2,75/3 3,5/3,5 5/4,75 6.8/5.2

Metody interpolacji, jak sama nazwa wskazuje, mogą zwrócić wynik, który znajduje się między punktami w rozkładzie. Algorytmy używane przez programy statystyczne zwykle wykorzystują metody interpolacji, na przykład funkcje percentile.exl i percentile.inc w programie Microsoft Excel. Tabela Interpolated Methods pokazuje kroki obliczeniowe.

Metoda najbliższej rangi

Wartości percentyla dla uporządkowanej listy {15, 20, 35, 40, 50}

Jedną z definicji percentyla, często podawaną w tekstach, jest to, że P -ty percentyl z listy N uporządkowanych wartości (posortowanych od najmniejszej do największej) jest najmniejszą wartością na liście, tak że nie więcej niż P procent danych jest ściśle mniejsza niż wartość i co najmniej P procent danych jest mniejszy lub równy tej wartości. Uzyskuje się to, obliczając najpierw rangę porządkową, a następnie biorąc wartość z uporządkowanej listy, która odpowiada tej randze. Porządkowej stopień n oblicza się przy użyciu następującego wzoru

Zwróć uwagę na następujące kwestie:

  • Użycie metody najbliższej rangi na listach zawierających mniej niż 100 różnych wartości może spowodować, że ta sama wartość zostanie użyta dla więcej niż jednego percentyla.
  • Percentyl obliczony przy użyciu metody najbliższej rangi zawsze będzie członkiem oryginalnej uporządkowanej listy.
  • Setny percentyl jest zdefiniowany jako największa wartość na uporządkowanej liście.

Praktyczne przykłady metody najbliższej rang

Przykład 1

Rozważ uporządkowaną listę {15, 20, 35, 40, 50}, która zawiera 5 wartości danych. Jaki jest 5., 30., 40., 50. i 100. percentyl tej listy przy użyciu metody najbliższej rangi?

Percentyl
P
Numer na liście
N
Porządkowa ranga
n
Numer z uporządkowanej listy,
który ma tę rangę

Wartość percentyla
Uwagi
5th 5 pierwsza liczba na uporządkowanej liście, czyli 15 15 15 to najmniejszy element listy; 0% danych to dokładnie mniej niż 15, a 20% danych jest mniejsze lub równe 15.
30. 5 druga liczba na uporządkowanej liście, czyli 20 20 20 jest elementem uporządkowanej listy.
40. 5 druga liczba na uporządkowanej liście, czyli 20 20 W tym przykładzie jest to to samo co 30 percentyl.
50. 5 trzecia liczba na uporządkowanej liście, czyli 35 35 35 jest elementem uporządkowanej listy.
100. 5 ostatnia liczba na uporządkowanej liście, czyli 50 50 Setny percentyl jest zdefiniowany jako największa wartość na liście, czyli 50.

Zatem 5., 30., 40., 50. i 100. percentyl uporządkowanej listy {15, 20, 35, 40, 50} przy użyciu metody najbliższej rangi to {15, 20, 20, 35, 50}.

Przykład 2

Rozważ uporządkowaną populację 10 wartości danych {3, 6, 7, 8, 8, 10, 13, 15, 16, 20}. Jakie są 25., 50., 75. i 100. percentyle tej listy przy użyciu metody najbliższej rangi?

Percentyl
P
Numer na liście
N
Porządkowa ranga
n
Numer z uporządkowanej listy,
który ma tę rangę

Wartość percentyla
Uwagi
25. 10 trzecia liczba na uporządkowanej liście, czyli 7 7 7 jest elementem wykazu.
50. 10 piąta liczba na uporządkowanej liście, czyli 8 8 8 jest elementem listy.
75. 10 8. numer na uporządkowanej liście, czyli 15 15 15 jest elementem listy.
100. 10 Ostatni 20, czyli ostatnia liczba na uporządkowanej liście 20 Setny percentyl jest zdefiniowany jako największa wartość na liście, czyli 20.

Zatem 25, 50, 75 i 100 percentyl uporządkowanej listy {3, 6, 7, 8, 8, 10, 13, 15, 16, 20} przy użyciu metody najbliższej rangi to {7, 8, 15, 20 }.

Przykład 3

Rozważ uporządkowaną populację 11 wartości danych {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20}. Jakie są 25., 50., 75. i 100. percentyle tej listy przy użyciu metody najbliższej rangi?

Percentyl
P
Numer na liście
N
Porządkowa ranga
n
Numer z uporządkowanej listy,
który ma tę rangę

Wartość percentyla
Uwagi
25. 11 trzecia liczba na uporządkowanej liście, czyli 7 7 7 jest elementem wykazu.
50. 11 szósta liczba na uporządkowanej liście, czyli 9 9 9 jest elementem listy.
75. 11 dziewiąty numer na uporządkowanej liście, czyli 15 15 15 jest elementem listy.
100. 11 Ostatni 20, czyli ostatnia liczba na uporządkowanej liście 20 Setny percentyl jest zdefiniowany jako największa wartość na liście, czyli 20.

Zatem 25, 50, 75 i 100 percentyl uporządkowanej listy {3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20} przy użyciu metody najbliższego rzędu to {7, 9, 15 , 20}.

Metoda interpolacji liniowej między najbliższymi rangami

Alternatywą dla zaokrąglania używanego w wielu aplikacjach jest użycie interpolacji liniowej między sąsiednimi rzędami.

Podobieństwa między wariantami tej metody

Wszystkie poniższe warianty mają wspólne cechy. Biorąc pod uwagę statystyki zamówień

szukamy funkcji interpolacji liniowej, która przechodzi przez punkty . Osiąga się to po prostu przez

gdzie używa funkcji floor do przedstawienia integralnej części dodatniego x , natomiast używa funkcji mod do przedstawienia jej części ułamkowej (reszta po dzieleniu przez 1). (Zauważ, że chociaż w punkcie końcowym , jest niezdefiniowane, nie musi tak być, ponieważ jest pomnożone przez .) Jak widać, x jest ciągłą wersją indeksu dolnego i , interpolującą liniowo v między sąsiednimi węzłami.

Istnieją dwa sposoby różnicowania podejść wariantowych. Pierwsza jest w liniowej zależności między rangą x , rangą procentową i stałą będącą funkcją wielkości próby N :

Istnieje dodatkowy wymóg , aby punkt środkowy zakresu , odpowiadający medianie , występował w :

a nasza poprawiona funkcja ma teraz tylko jeden stopień swobody i wygląda następująco:

Drugim sposobem, w jaki warianty różnią się, jest definicja funkcji w pobliżu marginesów przedziału p : powinna dawać lub być zmuszona do wytworzenia wyniku w przedziale , co może oznaczać brak funkcji jeden-do- jedna korespondencja w szerszym regionie. Jeden z autorów zasugerował wybór, gdzie ξ jest kształtem uogólnionego rozkładu wartości ekstremalnych, który jest granicą wartości ekstremalnej próbkowanego rozkładu.

Pierwszy wariant, C = 1/2

Wynik użycia każdego z trzech wariantów z uporządkowanej listy {15, 20, 35, 40, 50}

(Źródła: funkcja "prctile" Matlaba,)

gdzie

Ponadto niech

Odwrotna zależność jest ograniczona do węższego regionu:

Praktyczny przykład pierwszego wariantu

Rozważ uporządkowaną listę {15, 20, 35, 40, 50}, która zawiera pięć wartości danych. Jakie są 5., 30., 40. i 95. percentyle tej listy przy użyciu metody liniowej interpolacji między najbliższymi rangami? Najpierw obliczamy pozycję procentową dla każdej wartości listy.

Wartość listy
Pozycja tej wartości
w uporządkowanej liście
i
Liczba wartości
N
Obliczanie
rangi procentowej
Pozycja procentowa,
15 1 5 10
20 2 5 30
35 3 5 50
40 4 5 70
50 5 5 90

Następnie bierzemy te rangi procentowe i obliczamy wartości percentyli w następujący sposób:

Pozycja procentowa
P
Liczba wartości
N
Czy ? Czy ? Czy istnieje
ranga procentowa
równa P ?
Czego używamy dla wartości percentyla? Wartość percentyla

Uwagi
5 5 tak Nie Nie Widzimy to , czyli mniej niż pierwszy procent rangi , więc użyj wartości z pierwszej listy , która wynosi 15 15 15 jest członkiem uporządkowanej listy
30 5 Nie Nie tak Widzimy, że jest to to samo, co drugi procent rang , więc użyj drugiej wartości listy , która wynosi 20 20 20 jest członkiem uporządkowanej listy
40 5 Nie Nie Nie Widzimy, że jest to między rangą procentową a , więc bierzemy
.

Mając te wartości, możemy obliczyć v w następujący sposób:

27,5 27.5 nie jest członkiem uporządkowanej listy
95 5 Nie tak Nie Widzimy, że , który jest większy niż ostatni procent rangi , więc użyj ostatniej wartości listy, która wynosi 50 50 50 jest członkiem uporządkowanej listy

Tak więc 5., 30., 40. i 95. percentyl uporządkowanej listy {15, 20, 35, 40, 50} przy użyciu metody liniowej interpolacji między najbliższymi rangami to {15, 20, 27,5, 50}

Drugi wariant, C = 1

(Źródło: Niektóre pakiety oprogramowania, w tym NumPy i Microsoft Excel (do wersji 2013 włącznie za pomocą funkcji PERCENTILE.INC). Zanotowane jako alternatywa przez NIST )

Zauważ, że relacja jest jeden-do-jednego dla jedynego z trzech wariantów z tą właściwością; stąd przyrostek "INC", dla włącznie , w funkcji Excela.

Opracowane przykłady drugiego wariantu

Przykład 1

Rozważ uporządkowaną listę {15, 20, 35, 40, 50}, która zawiera pięć wartości danych. Jaki jest 40. percentyl na tej liście przy użyciu tej metody wariantowej?

Najpierw obliczamy rangę 40. percentyla:

Czyli x =2,6, co daje nam i . Tak więc wartość 40. percentyla to

Przykład 2

Rozważ uporządkowaną listę {1,2,3,4}, która zawiera cztery wartości danych. Jaki jest 75. percentyl tej listy przy użyciu metody Microsoft Excel?

Najpierw obliczamy rangę 75. percentyla w następujący sposób:

Czyli x =3,25, co daje część całkowitą 3 i część ułamkową 0,25. Zatem wartość 75. percentyla to

Trzeci wariant, C = 0

(Podstawowy wariant zalecany przez NIST . Przyjęty przez Microsoft Excel od 2010 roku za pomocą funkcji PERCENTIL.EXC. Jednak, jak wskazuje sufiks „EXC”, wersja Excela wyklucza oba punkty końcowe zakresu p , tj. , podczas gdy „ wersja INC”, drugi wariant, nie; w rzeczywistości każda liczba mniejsza niż jest również wykluczona i spowodowałaby błąd.)

Odwrotność jest ograniczona do węższego regionu:

Praktyczny przykład trzeciego wariantu

Rozważ uporządkowaną listę {15, 20, 35, 40, 50}, która zawiera pięć wartości danych. Jaki jest 40. percentyl tej listy przy użyciu metody NIST?

Najpierw obliczamy rangę 40. percentyla w następujący sposób:

Czyli x =2.4, co daje nam i . Zatem wartość 40. percentyla oblicza się jako:

Zatem wartość 40. percentyla uporządkowanej listy {15, 20, 35, 40, 50} przy użyciu tej metody wariantowej wynosi 26.

Metoda ważonego percentyla

Oprócz funkcji percentyla istnieje również percentyl ważony , w którym zamiast całkowitej liczby liczony jest procent w całkowitej wadze. Nie ma standardowej funkcji dla percentyla ważonego. Jedna metoda w naturalny sposób rozszerza powyższe podejście.

Załóżmy, że mamy dodatnie wagi powiązane odpowiednio z naszymi N posortowanymi wartościami próbek. Pozwolić

suma wag. Następnie powyższe formuły uogólnia się, biorąc

kiedy ,

lub

ogólnie ,

oraz

50% ważony percentyl jest znany jako mediana ważona .

Zobacz też

Bibliografia