Funkcja straty - Loss function

W optymalizacji matematycznej i teorii decyzji , o funkcja straty lub funkcja kosztu (czasami nazywane także funkcja błędu ) jest funkcją, która odwzorowuje zdarzenia lub wartości jednej lub więcej zmiennych wychodzą z liczby rzeczywistej intuicyjnie reprezentujących jakąś „koszt” związany ze zdarzeniem. Problem optymalizacji dąży do minimalizacji funkcji straty. Funkcja celu jest albo funkcja straty lub jego przeciwieństwo (w określonych dziedzinach, różnie nazywane funkcję nagrody , a funkcję zysku , a funkcję użytkową , a funkcję centrum fitness , itp), w którym to przypadku ma być zmaksymalizowane.

W statystyce zazwyczaj funkcja straty jest używana do estymacji parametrów , a dane zdarzenie jest pewną funkcją różnicy między wartościami szacowanymi i rzeczywistymi dla instancji danych. Koncepcja, tak stara jak Laplace , została przywrócona do statystyk przez Abrahama Walda w połowie XX wieku. Na przykład w kontekście ekonomii jest to zwykle koszt ekonomiczny lub żal . W klasyfikacji jest to kara za błędną klasyfikację przykładu. W naukach aktuarialnych używa się go w kontekście ubezpieczeniowym do modelowania świadczeń wypłacanych ponad składki, zwłaszcza od prac Haralda Craméra w latach 20. XX wieku. W optymalnej kontroli strata jest karą za nieosiągnięcie pożądanej wartości. W zarządzaniu ryzykiem finansowym funkcja ta jest przyporządkowana do straty pieniężnej.

Przykłady

Żal

Leonard J. Savage przekonywał, że stosując metody niebayesowskie , takie jak minimax , funkcja straty powinna opierać się na idei żalu , tj. strata związana z decyzją powinna być różnicą między konsekwencjami najlepszej decyzji, która mogłaby być gdyby okoliczności leżące u ich podstaw były znane, a decyzja, która została faktycznie podjęta, zanim stała się znana.

Kwadratowa funkcja straty

Użycie kwadratowej funkcji straty jest powszechne, na przykład przy użyciu technik najmniejszych kwadratów . Często jest bardziej wykonalny matematycznie niż inne funkcje straty ze względu na właściwości wariancji , a także jest symetryczny: błąd powyżej wartości docelowej powoduje taką samą stratę, jak ta sama wielkość błędu poniżej wartości docelowej. Jeśli celem jest t , to kwadratową funkcją straty jest

dla pewnej stałej C ; wartość stałej nie ma żadnego wpływu na decyzję i można ją zignorować, ustawiając ją na 1.

Wiele powszechnych statystyk , w tym testy t , modele regresji , projektowanie eksperymentów i wiele innych, wykorzystuje metody najmniejszych kwadratów stosowane przy użyciu teorii regresji liniowej , która opiera się na kwadratowej funkcji straty.

Kwadratowa funkcja straty jest również wykorzystywana w liniowo-kwadratowych problemach optymalnego sterowania . W tych problemach, nawet przy braku niepewności, może nie być możliwe osiągnięcie pożądanych wartości wszystkich zmiennych docelowych. Często stratę wyraża się w postaci kwadratowej w odchyleniach interesujących zmiennych od ich pożądanych wartości; to podejście jest wykonalne, ponieważ prowadzi do liniowych warunków pierwszego rzędu . W kontekście sterowania stochastycznego stosuje się wartość oczekiwaną postaci kwadratowej.

Funkcja strat 0-1

W statystyce i teorii decyzji często stosowaną funkcją straty jest funkcja straty 0-1

gdzie jest funkcja wskaźnika .

Konstruowanie funkcji straty i celu

W wielu zastosowaniach funkcje celu, w tym funkcje straty jako szczególny przypadek, są określane przez sformułowanie problemu. W innych sytuacjach preferencja decydenta musi zostać wydobyta i reprezentowana przez funkcję o wartościach skalarnych (zwaną także funkcją użyteczności ) w postaci nadającej się do optymalizacji — problem, na który zwrócił uwagę Ragnar Frisch w swoim wykładzie o nagrodzie Nobla. Istniejące metody konstruowania funkcji celu zostały zebrane w materiałach dwóch konferencji tematycznych. W szczególności Andranik Tangian wykazał, że najbardziej użyteczne funkcje celu — kwadratowa i addytywna — są określone przez kilka punktów obojętności. Wykorzystał tę właściwość w modelach do konstruowania tych funkcji obiektywnych z danych porządkowych lub kardynalnych, które zostały wydobyte poprzez wspomagane komputerowo wywiady z decydentami. Skonstruował m.in. funkcje obiektywne, aby optymalnie rozdzielić budżety dla 16 uniwersytetów westfalskich oraz dotacje europejskie na wyrównywanie stóp bezrobocia wśród 271 niemieckich regionów.

Oczekiwana strata

W niektórych kontekstach wartość samej funkcji straty jest wielkością losową, ponieważ zależy od wyniku zmiennej losowej X .

Statystyka

Zarówno częstościowym i Bayesa teoria statystyczna obejmować podejmowania decyzji w oparciu o wartości oczekiwanej funkcji strat; jednak wielkość ta jest różnie definiowana w ramach dwóch paradygmatów.

Częsta oczekiwana strata

Najpierw definiujemy oczekiwaną stratę w kontekście częstościowym. Uzyskuje się ją przyjmując wartość oczekiwaną w odniesieniu do rozkładu prawdopodobieństwa P θ obserwowanych danych X . Jest to również określane jako funkcja ryzyka reguły decyzyjnej δ i parametru θ . Tutaj reguła decyzyjna zależy od wyniku X . Funkcję ryzyka określa:

Tutaj θ jest ustalonym, ale prawdopodobnie nieznanym stanem natury, X jest wektorem obserwacji losowanych stochastycznie z populacji , jest oczekiwaniem względem wszystkich wartości populacji X , dP θ jest miarą prawdopodobieństwa w przestrzeni zdarzeń X (sparametryzowaną przez  θ ) i integralną ocenia się na całej wsparciaX .

Bayesowska oczekiwana strata

W podejściu bayesowskim oczekiwanie oblicza się za pomocą rozkładu a posteriori π * parametru  θ :

Należy wtedy wybrać akcję a *, która minimalizuje oczekiwaną stratę. Chociaż spowoduje to wybranie tego samego działania, które zostałoby wybrane przy użyciu ryzyka częstościowości, w podejściu bayesowskim nacisk kładziony jest na to, że interesuje nas tylko wybór optymalnego działania na podstawie rzeczywistych obserwowanych danych, podczas gdy wybór rzeczywistej reguły optymalnej decyzji częstościowej, co jest funkcją wszystkich możliwych obserwacji, jest znacznie trudniejszym problemem.

Przykłady w statystykach

  • Dla skalarnego parametru θ , funkcja decyzja którego wyjście jest oszacowanie  θ i funkcją kwadratową strat ( squared error strata )
funkcja ryzyka staje się błędem średniokwadratowym oszacowania,
funkcja ryzyka staje się średnim zintegrowanym błędem kwadratowym

Wybór ekonomiczny w warunkach niepewności

W ekonomii podejmowanie decyzji w warunkach niepewności jest często modelowane przy użyciu funkcji użyteczności von Neumanna-Morgensterna niepewnej zmiennej będącej przedmiotem zainteresowania, takiej jak bogactwo na koniec okresu. Ponieważ wartość tej zmiennej jest niepewna, tak samo jest z wartością funkcji użyteczności; jest to oczekiwana wartość użyteczności, która jest maksymalizowana.

Zasady podejmowania decyzji

Reguła decyzja dokonuje wyboru przy użyciu kryterium optymalności. Niektóre powszechnie stosowane kryteria to:

  • Minimax : Wybierz regułę decyzyjną z najniższą najgorszą stratą — czyli zminimalizuj najgorszy przypadek (maksymalną możliwą) stratę:
  • Niezmienność : wybierz optymalną regułę decyzyjną, która spełnia wymóg niezmienności.
  • Wybierz regułę decyzyjną z najniższą średnią stratą (tzn. minimalizuj oczekiwaną wartość funkcji straty):

Wybór funkcji straty

Rozsądna praktyka statystyczna wymaga wyboru estymatora zgodnego z rzeczywistą dopuszczalną zmiennością doświadczaną w kontekście konkretnego zastosowanego problemu. Tak więc w stosowanym wykorzystaniu funkcji strat wybór metody statystycznej do modelowania zastosowanego problemu zależy od znajomości strat, które zostaną poniesione z powodu błędnego działania w konkretnych okolicznościach problemu.

Typowym przykładem jest oszacowanie „ lokalizacji ”. Przy typowych założeniach statystycznych średnia lub średnia jest statystyką do szacowania lokalizacji, która minimalizuje oczekiwaną stratę doświadczaną w funkcji straty kwadratu błędu , podczas gdy mediana jest estymatorem, który minimalizuje oczekiwaną stratę doświadczaną w ramach funkcji straty różnicy bezwzględnej. Jeszcze inne estymatory byłyby optymalne w innych, mniej powszechnych okolicznościach.

W ekonomii, gdy agent jest neutralny pod względem ryzyka , funkcja celu jest po prostu wyrażana jako oczekiwana wartość wielkości pieniężnej, takiej jak zysk, dochód lub bogactwo na koniec okresu. W przypadku podmiotów niechętnych do ryzyka lub kochających ryzyko , stratę mierzy się jako wartość ujemną funkcji użyteczności , a funkcja celu, która ma zostać zoptymalizowana, jest oczekiwaną wartością użyteczności.

Możliwe są inne mierniki kosztów, na przykład śmiertelność lub zachorowalność w dziedzinie zdrowia publicznego lub inżynierii bezpieczeństwa .

W przypadku większości algorytmów optymalizacji pożądane jest posiadanie funkcji straty, która jest globalnie ciągła i różniczkowalna .

Dwa bardzo powszechnie używane funkcje straty są squared strata , i absolutna strata , . Jednak strata bezwzględna ma tę wadę, że nie jest różniczkowalna przy . Kwadrat zdarzenie ma tę wadę, że ma ona tendencję do zdominowany przez odstające -Gdy zsumowanie zestaw „S (jak w ), przy czym suma końcowa jest zazwyczaj wynikiem kilku szczególnie duże -values, raczej niż wyrażenie średniej wartości a .

Wybór funkcji straty nie jest arbitralny. Jest to bardzo restrykcyjne i czasami funkcja strat może charakteryzować się pożądanymi właściwościami. Wśród zasad wyboru są np. wymóg kompletności klasy statystyki symetrycznej w przypadku obserwacji iid , zasada pełnej informacji i kilka innych.

W. Edwards Deming i Nassim Nicholas Taleb twierdzą, że empiryczna rzeczywistość, a nie ładne właściwości matematyczne, powinna być jedyną podstawą wyboru funkcji strat, a rzeczywiste straty często nie są matematycznie ładne i nie są różniczkowalne, ciągłe, symetryczne itp. Na przykład, osoba, która przyleci przed zamknięciem bramki samolotu, może jeszcze zrobić samolot, ale osoba, która przyleci po nie może, nieciągłość i asymetria, które sprawiają, że przylot nieco spóźniony jest znacznie bardziej kosztowny niż przylot nieco wcześnie. W dawkowaniu leków kosztem zbyt małej ilości leku może być brak skuteczności, natomiast kosztem zbyt dużej dawki może być tolerowana toksyczność, kolejny przykład asymetrii. Ruch uliczny, rury, belki, ekologia, klimat itp. mogą tolerować zwiększone obciążenie lub naprężenia z niewielką zauważalną zmianą do pewnego momentu, a następnie ulec cofnięciu lub katastrofie. Sytuacje te, jak twierdzą Deming i Taleb, są powszechne w rzeczywistych problemach, być może częściej niż klasyczne przypadki gładkie, ciągłe, symetryczne i różniczkowe.

Zobacz też

Bibliografia

Dalsza lektura

  • Waud, Roger N. (1976). „Asymetryczne funkcje użytkowe decydenta i optymalna polityka pod niepewnością”. Ekonometria . 44 (1): 53–66. doi : 10.2307/1911380 . JSTOR  1911380 .