Funkcja Softmax - Softmax function

Funkcja softmax, znana również jako softargmax lub znormalizowana funkcja wykładnicza , jest uogólnieniem funkcji logistycznej na wiele wymiarów. Jest on stosowany w wielomianu regresji logistycznej i jest często używany jako ostatni funkcji aktywacji z sieci neuronowej do normalizacji wyjście sieci do rozkładu prawdopodobieństwa nad przewidywanymi klasach mocy, w oparciu o wybór aksjomatu Luce .

Funkcja SoftMax której wejścia wprowadzany jest wektor Z z K rzeczywistych numerów i normalizuje się do rozkładu prawdopodobieństwa obejmującej K prawdopodobieństw proporcjonalny do wykładniczych tych liczb. Oznacza to, że przed zastosowaniem softmaxa niektóre składowe wektora mogą być ujemne lub większe niż jeden; i może nie sumować się do 1; ale po zastosowaniu softmax każdy składnik znajdzie się w przedziale , a składniki zsumują się do 1, aby można je było zinterpretować jako prawdopodobieństwa. Co więcej, większe komponenty wejściowe będą odpowiadały większym prawdopodobieństwu. $[0,1]$

Standardowa (jednostkowa) funkcja softmax jest określona wzorem ${\ Displaystyle \ sigma: \ mathbb {R} ^ {K} \ do [0,1] ^ {K}}$

{\ Displaystyle \ sigma (\ mathbf {z}) _ {i} = {\ Frac {e ^ {z_ {i}}} {\ suma _ {j = 1} ^ {K} e ^ {z_ {j} }}}\ \ \ \ {\text{ dla }}i=1,\dotsc ,K{\text{ i }}\mathbf {z} =(z_{1},\dotsc ,z_{K})\ w \mathbb {R} ^{K}.}

W prostych słowach, stosuje standardową funkcję wykładniczą do każdego elementu wektora wejściowego i normalizuje te wartości, dzieląc przez sumę wszystkich tych wykładników; ta normalizacja zapewnia, że suma składowych wektora wyjściowego wynosi 1. $z_{i}$ $\mathbf {z}$ ${\ Displaystyle \ sigma (\ mathbf {z} )}$

Zamiast $e$ można zastosować inną podstawę $b > 0$ . Jeśli $0 < b < 1$ , mniejsze komponenty wejściowe spowodują większe prawdopodobieństwa wyjściowe, a zmniejszenie wartości $b$ stworzy rozkłady prawdopodobieństwa, które są bardziej skoncentrowane wokół pozycji o najmniejszych wartościach wejściowych. I odwrotnie, jeśli $b > 1$ , większe komponenty wejściowe spowodują większe prawdopodobieństwa wyjściowe, a zwiększenie wartości $b$ stworzy rozkłady prawdopodobieństwa, które są bardziej skoncentrowane wokół pozycji o największych wartościach wejściowych. Zapisując lub (dla rzeczywistego $β$ ) otrzymujemy wyrażenia: $b=e^{\beta}$ $b=e^{-\beta}$

{\ Displaystyle \ Sigma (\ mathbf {z}) _ {i} = {\ Frac {e ^ {\ beta z_ {i}}}} {\ suma _ {j = 1} ^ {K} e ^ {\ beta z_{j}}}}{\text{ lub }}\sigma (\mathbf {z} )_{i}={\frac {e^{-\beta z_{i}}}{\sum _{j =1}^{K}e^{-\beta z_{j}}}}{\text{ dla }}i=1,\dotsc ,K.}

W niektórych dziedzinach podstawa jest stała, odpowiadająca ustalonej skali, podczas gdy w innych parametr $β$ jest zmienny.

Interpretacje

Gładki arg max

Nazwa „softmax” jest myląca; funkcja nie jest gładkim maksimum ( gładkim przybliżeniem do maksimum funkcji), ale raczej gładkim przybliżeniem funkcji arg max : funkcji, której wartość jest tym, który indeks ma maksimum. W rzeczywistości termin „softmax” jest również używany dla ściśle powiązanej funkcji LogSumExp , która jest płynnym maksimum. Z tego powodu niektórzy wolą dokładniejszy termin „softargmax”, ale termin „softmax” jest konwencjonalny w uczeniu maszynowym. Ta sekcja używa terminu „softargmax”, aby podkreślić tę interpretację.

Formalnie, zamiast brać pod uwagę arg max jako funkcję z kategorycznym wyjściem (odpowiadającym indeksowi), rozważ funkcję arg max z jednorazową reprezentacją wyjścia (zakładając, że istnieje unikalny maksymalny arg): $1,\kropki,n$

{\ Displaystyle \ operatorname {arg \, max} (z_ {1}, \ kropki, z_ {n}) = (y_ {1}, \ kropki, y_ {n}) = (0, \ kropki, 0,1 ,0,\kropki ,0),}

gdzie współrzędna wyjściowa wtedy i tylko wtedy, gdy jest arg max of , co oznacza unikalną wartość maksymalną . Na przykład w tym kodowaniu, ponieważ trzeci argument to maksimum. ${\ Displaystyle y_ {i} = 1}$ $i$ ${\ Displaystyle (z_ {1}, \ kropki, z_ {n})}$ $z_{i}$ ${\ Displaystyle (z_ {1}, \ kropki, z_ {n})}$ $\operatorname {arg\,max} (1,5,10)=(0,0,1),$

Można to uogólnić na wiele wartości arg max (wiele równych jest maksimum), dzieląc 1 między wszystkie max args; formalnie $1/$ $k,$ gdzie $k$ jest liczbą argumentów przy założeniu maksimum. Na przykład, ponieważ drugi i trzeci argument to maksimum. W przypadku, gdy wszystkie argumenty są równe, jest to po prostu Punkty $z$ z wieloma wartościami arg max są punktami osobliwymi (lub osobliwościami i tworzą zbiór osobliwy) – są to punkty, w których arg max jest nieciągły (ze skokową nieciągłością ) – podczas gdy punkty z pojedynczy arg max są znane jako punkty nieosobliwe lub regularne. $z_{i}$ ${\ Displaystyle \ Operatorname {arg \, max} (1,5,5) = (0,1/2, 1/2),}$ ${\ Displaystyle \ operatorname {arg \ max} (z \ kropki z) = (1/n \ kropki, 1 / n).}$

Z ostatnim wyrażeniem podanym we wstępie, softargmax jest teraz gładkim przybliżeniem arg max: as , softargmax zbiega się do arg max. Istnieją różne pojęcia zbieżności funkcji; softargmax zbiega się punktowo do arg max , co oznacza dla każdego ustalonego wejścia $z$ jako , Jednak softargmax nie zbiega się jednostajnie do arg max, co oznacza intuicyjnie, że różne punkty zbiegają się z różnymi szybkościami i mogą zbiegać się dowolnie powoli. W rzeczywistości softargmax jest ciągły, ale arg max nie jest ciągły w zbiorze osobliwym, gdzie dwie współrzędne są równe, podczas gdy jednolita granica funkcji ciągłych jest ciągła. Powodem, dla którego nie udaje się uzyskać jednorodnej zbieżności, jest to, że dla danych wejściowych, w których dwie współrzędne są prawie równe (a jedna jest maksymalną), arg max jest indeksem jednego lub drugiego, więc mała zmiana danych wejściowych powoduje dużą zmianę danych wyjściowych. Na przykład, ale i dla wszystkich danych wejściowych: im bliżej punkty są do zbioru osobliwego , tym wolniej się zbiegają. Jednak softargmax zbiega się kompaktowo w zbiorze nieosobliwym. ${\ Displaystyle \ beta \ do \ infty}$ ${\ Displaystyle \ beta \ do \ infty}$ ${\ Displaystyle \ sigma _ {\ beta} (\ mathbf {z} ) \ do \ operatorname {arg \ max} (\ mathbf {z}).}$ ${\ Displaystyle \ sigma _ {\ beta} (1,1.0001) \ do (0,1),}$ ${\ Displaystyle \ sigma _ {\ beta} (1,0.9999) \ do (1,0)}$ ${\ Displaystyle \ sigma _ {\ beta} (1,1) = 1/2}$ $(x,x)$

Odwrotnie, jak , softargmax zbiega się do arg min w ten sam sposób, gdzie tutaj osobliwy zbiór to punkty z dwiema wartościami arg min . W języku analizy tropikalnej softmax to deformacja lub „kwantyzacja” arg max i arg min, odpowiadająca użyciu log semiring zamiast max-plus semiring (odpowiednio min-plus semiring ) i odzyskaniu arg max lub arg min przyjmując limit nazywa się „tropikalizacją” lub „dekwantyzacją”. ${\ Displaystyle \ beta \ do - \ infty}$

Jest to również przypadek, że dla dowolnego ustalonego $β$ , jeśli jedno wejście jest znacznie większe niż inne w stosunku do temperatury, , wyjście jest w przybliżeniu arg max. Na przykład różnica 10 jest duża w stosunku do temperatury 1: $z_{i}$ $T=1/\beta$

{\ Displaystyle \ Sigma (0,10): = \ Sigma _ {1} (0,10) = \ lewo (1/(1 + e ^ {10}), e ^ {10} / (1 + e ^ {10})\prawo)\ok (0.00005,0.99995)}

Jeśli jednak różnica jest niewielka w stosunku do temperatury, to wartość nie jest zbliżona do arg max. Na przykład różnica 10 jest niewielka w stosunku do temperatury 100:

{\ Displaystyle \ Sigma _ {1/100} (0,10) = \ lewo (1/(1 + e ^ {1/10}), e ^ {1/10} / (1 + e ^ {1} 10})\prawo)\ok (0,475,0,525).}

Ponieważ , temperatura dochodzi do zera, więc ostatecznie wszystkie różnice stają się duże (w stosunku do malejącej temperatury), co daje inną interpretację zachowania granicznego. ${\ Displaystyle \ beta \ do \ infty}$ ${\ Displaystyle T = 1 / \ beta \ do 0}$

Teoria prawdopodobieństwa

W teorii prawdopodobieństwa dane wyjściowe funkcji softargmax można wykorzystać do przedstawienia rozkładu jakościowego – to znaczy rozkładu prawdopodobieństwa na $K$ różnych możliwych wyników.

Mechanika statystyczna

W mechanice statystycznej funkcja softargmax jest znana jako rozkład Boltzmanna (lub rozkład Gibbsa ): zbiór indeksów to mikrostany systemu; wejścia są energiami tego stanu; mianownik jest znany jako funkcja podziału , często oznaczana przez $Z$ ; a czynnik $β$ nazywa się chłodem (lub termodynamiczną beta lub odwrotną temperaturą ). ${1,\kropki,k}$ $z_{i}$

Aplikacje

Funkcja softmax jest wykorzystywana w różnych wieloklasowych metodach klasyfikacji , takich jak wielomianowa regresja logistyczna (znana również jako regresja softmax) [1] , wieloklasowa liniowa analiza dyskryminacyjna , naiwne klasyfikatory Bayesa oraz sztuczne sieci neuronowe . W szczególności, w wielomianowej regresji logistycznej i liniowej analizie dyskryminacyjnej dane wejściowe funkcji są wynikiem $K$ różnych funkcji liniowych , a przewidywane prawdopodobieństwo dla $j$ -tej klasy przy danym wektorze próbki $x$ i wektorze ważenia $w$ wynosi:

{\ Displaystyle P (y = j \ mid \ mathbf {x} ) = {\ Frac {e ^ {\ mathbf {x} ^ {\ mathsf {T}} \ mathbf {w} _ {j}}} {\ suma _{k=1}^{K}e^{\mathbf {x} ^{\mathsf {T}}\mathbf {w} _{k}}}}}

Może to być postrzegane jako kompozycja o $K$ liniowej funkcji i funkcji SOFTmax (gdzie oznacza wewnętrzny produkt i ). Operacja ta jest równoważna zastosowaniu operatora liniowego zdefiniowanego przez to vectors , co powoduje przekształcenie oryginalnego, prawdopodobnie wielowymiarowego, danych wejściowych do wektorów w przestrzeni $K-$ wymiarowej . ${\ Displaystyle \ mathbf {x} \ mapsto \ mathbf {x} ^ {\ mathsf {T}} \ mathbf {w} _ {1} \ ldots \ mathbf {x} \ mapsto \ mathbf {x} ^ { \mathsf {T}}\mathbf {w} _{K}}$ ${\ Displaystyle \ mathbf {x} ^ {\ mathsf {T}} \ mathbf {w}}$ $\mathbf {x}$ $\mathbf {w}$ $\mathbf {w}$ $\mathbf {x}$ ${\ Displaystyle \ mathbb {R} ^ {K}}$

Sieci neuronowe

Funkcja softmax jest często używana w ostatniej warstwie klasyfikatora opartego na sieci neuronowej. Takie sieci są zwykle trenowane w reżimie utraty logarytmów (lub entropii krzyżowej ), co daje nieliniowy wariant wielomianowej regresji logistycznej.

Ponieważ funkcja odwzorowuje wektor i określony indeks na wartość rzeczywistą, pochodna musi uwzględniać indeks: $i$

{\ Displaystyle {\ Frac {\ częściowy }{\ częściowy q_ {k}}} \ sigma ({\ textbf {q}}, ja) = \ sigma ({\ textbf {q}}, ja) (\ delta _ {ik}-\sigma ({\textbf {q}},k)).}

Wyrażenie to jest symetryczne w indeksach i dlatego może być również wyrażone jako $ja,k$

{\ Displaystyle {\ Frac {\ częściowy }{\ częściowy q_ {k}}} \ sigma ({\ textbf {q}}, i) = \ sigma ({\ textbf {q}}, k) (\ delta _ {ik}-\sigma ({\textbf {q}},i)).}

Tutaj dla uproszczenia użyto delty Kroneckera (por. pochodna funkcji sigmoidalnej wyrażona przez samą funkcję).

Jeśli funkcja jest skalowana za pomocą parametru , wyrażenia te należy pomnożyć przez . ${\ Displaystyle \ beta}$ ${\ Displaystyle \ beta}$

Zobacz Logit wielomianowy, aby zapoznać się z modelem prawdopodobieństwa, który wykorzystuje funkcję aktywacji softmax.

Nauka wzmacniania

W dziedzinie uczenia się przez wzmacnianie można użyć funkcji softmax do konwersji wartości na prawdopodobieństwa działania. Powszechnie używana funkcja to:

{\ Displaystyle P_ {t} (a) = {\ Frac {\ exp (q_ {t} (a) / \ tau)} {\ suma _ {i = 1} ^ {n} \ exp (q_ {t} (i)/\tau )}}{\text{,}}}

gdzie wartość akcji odpowiada oczekiwanej nagrodzie za następującą akcję a i nazywamy parametrem temperatury (w nawiązaniu do mechaniki statystycznej ). W przypadku wysokich temperatur ( ) wszystkie działania mają prawie takie samo prawdopodobieństwo, a im niższa temperatura, tym więcej oczekiwanych nagród wpływa na prawdopodobieństwo. W przypadku niskiej temperatury ( ) prawdopodobieństwo akcji z najwyższą oczekiwaną nagrodą wynosi 1. ${\ Displaystyle q_ {t} (a)}$ ${\ Displaystyle \ tau}$ ${\ Displaystyle \ tau \ do \ infty}$ ${\ Displaystyle \ tau \ do 0 ^ {+}}$

Nieruchomości

Geometrycznie funkcja SoftMax odwzorowuje przestrzeń wektorową do granicy z normą -simplex , cięcie wymiar o jeden (zasięg jest wymiarowa simplex w -wymiarowej przestrzeni), ze względu na ograniczenia liniowego że wszystko suma wyjściowa do 1, co oznacza, że leży na hiperpłaszczyźnie . ${\ Displaystyle \ mathbb {R} ^ {K}}$ ${\ Displaystyle (K-1)}$ ${\ Displaystyle (K-1)}$ ${\ Displaystyle K}$

Wzdłuż głównej przekątnej softmax jest tylko równomiernym rozkładem na wyjściach : równe wyniki dają równe prawdopodobieństwa. $(x,x,\kropki,x),$ $(1/n,\kropki,1/n)$

Mówiąc bardziej ogólnie, softmax jest niezmienny w tłumaczeniu o tę samą wartość w każdej współrzędnej: dodanie do danych wejściowych daje , ponieważ mnoży każdy wykładnik przez ten sam współczynnik (ponieważ ), więc stosunki się nie zmieniają: ${\ Displaystyle \ mathbf {c} = (c \ kropki, c)}$ $\mathbf {z}$ ${\ Displaystyle \ sigma (\ mathbf {z} + \ mathbf {c} ) = \ sigma (\ mathbf {z})}$ ${\ Displaystyle e ^ {c}}$ ${\ Displaystyle e ^ {z_ {i} + c} = e ^ {z_ {i}} \ cdot e ^ {c}}$

{\ Displaystyle \ sigma (\ mathbf {z} + \ mathbf {c}) _ {j} = {\ Frac {e ^ {z_ {j} + c}} {\ suma _ {k = 1} ^ {K }e^{z_{k}+c}}}={\frac {e^{z_{j}}\cdot e^{c}}{\sum _{k=1}^{K}e^{ z_{k}}\cdot e^{c}}}=\sigma (\mathbf {z} )_{j}.}

Z geometrycznego punktu widzenia softmax jest stały na przekątnych: jest to wymiar, który jest eliminowany i odpowiada temu, że wynik softmaxu jest niezależny od translacji wyników wejściowych (do wyboru 0 punktów). Można znormalizować wyniki wejściowe, zakładając, że suma wynosi zero (odjąć średnią: gdzie ), a następnie softmax przenosi hiperpłaszczyznę punktów, które sumują się do zera , do otwartego simpleksu wartości dodatnich, które sumują się do 1 , analogicznie do jak wykładnik przyjmuje wartość od 0 do 1 i jest dodatni. $\mathbf {c}$ ${\textstyle c={\frac {1}{n}}\sum z_{i}}$ ${\textstyle \sum z_{i}=0}$ ${\textstyle \sum \sigma (\mathbf {z} )_{i}=1}$ ${\ Displaystyle e ^ {0} = 1}$

Natomiast softmax nie jest niezmienny przy skalowaniu. Na przykład, ale ${\ Displaystyle \ sigma {\ bigl (} (0,1) {\ bigr )} = {\ bigl (} 1 / (1 + e), e / (1 + e) {\ bigr )}}$ ${\ Displaystyle \ Sigma {\ Bigl (} (0,2) {\ Bigr)} = {\ Bigl (} 1 / (1 + e ^ {2}), e ^ {2} / (1 + e ^ { 2}){\duży )}.}$

Standardowych funkcji logistycznej jest szczególnym przypadku osi 1 w przestrzeni trójwymiarowej 2-wymiarowe, powiedzmy x -osiowy w $(x, y)$ płaszczyźnie. Jedna zmienna jest ustalona na 0 (powiedzmy ), więc , a druga zmienna może się różnić, oznacza to , czyli standardową funkcję logistyczną i jej uzupełnienie (co oznacza, że sumują się do 1). Jednowymiarowe dane wejściowe można alternatywnie wyrazić jako linię , z wyjściami i $z_{2}=0$ ${\ Displaystyle e ^ {0} = 1}$ $z_{1}=x$ ${\textstyle e^{z_{1}}/\sum _{k=1}^{2}e^{z_{k}}=e^{x}/(e^{x}+1),}$ ${\textstyle e^{z_{2}}/\sum _{k=1}^{2}e^{z_{k}}=1/(e^{x}+1),}$ ${\ Displaystyle (x/2, -x/2)}$ ${\ Displaystyle e ^ {x/2} / (e ^ {x/2} + e ^ {-x/2}) = e ^ {x} / (e ^ {x} + 1)}$ ${\ Displaystyle e ^ {-x/2} / (e ^ {x/2} + e ^ {-x / 2}) = 1 / (e ^ {x} + 1).}$

Funkcja softmax jest również gradientem funkcji LogSumExp , płynnym maksimum :

{\ Displaystyle {\ Frac {\ częściowy }{\ częściowy Z_ {i}}} \ nazwa operatora {LSE} (\ mathbf {z} ) = {\ Frac {\ exp z_ {i}}} {\ suma _ {j = 1}^{K}\exp z_{j}}}=\sigma (\mathbf {z} )_{i},\quad {\text{ dla }}i=1,\dotsc ,K,\quad \ mathbf {z} =(z_{1},\dotsc ,z_{K})\in \mathbb {R} ^{K},}

gdzie funkcja LogSumExp jest zdefiniowana jako . ${\ Displaystyle \ operatorname {LSE} (z_ {1}, \ kropki, z_ {n}) = \ log \ lewo (\ exp (z_ {1}) + \ cdots + \ exp (z_ {n}) \ prawo )}$

Historia

Funkcja softmax została wykorzystana w mechanice statystycznej jako rozkład Boltzmanna w fundamentalnej pracy Boltzmann (1868) , sformalizowanej i spopularyzowanej we wpływowym podręczniku Gibbs (1902) .

Użycie softmaxu w teorii decyzji przypisuje się Luce (1959) , która wykorzystała aksjomat niezależności nieistotnych alternatyw w teorii racjonalnego wyboru, aby wydedukować softmax z aksjomatu wyboru Luce dla preferencji względnych.

W uczenia maszynowego, termin „SoftMax” przypisuje się John S. wędzidłem w dwóch 1989 referatów konferencyjnych, Ogłowie (1990a) : a Ogłowie (1990b) :

Zajmujemy się nieliniowymi sieciami typu feed-forward (wielowarstwowymi perceptronami lub MLP) z wieloma wyjściami. Chcemy traktować wyjścia sieci jako prawdopodobieństwa alternatyw ( np. klasy wzorców), uwarunkowane wejściami. Poszukujemy odpowiednich nieliniowości wyjściowych oraz odpowiednich kryteriów dostosowania parametrów sieci ( np. wag). Wyjaśniamy dwie modyfikacje: scoring prawdopodobieństwa, który jest alternatywą dla minimalizacji błędu kwadratowego, oraz znormalizowane wykładnicze ( softmax ) wielowejściowe uogólnienie nieliniowości logistycznej.

Dla każdego wejścia wszystkie wyjścia muszą być dodatnie i muszą sumować się do jedności. ...

Mając zestaw nieograniczonych wartości, możemy zapewnić oba warunki za pomocą znormalizowanego przekształcenia wykładniczego: ${\ Displaystyle V_ {j} (x)}$

${\ Displaystyle Q_ {j} (x) = \ left.e ^ {V_ {j} (x)} \ prawej / \ suma _ {k} e ^ {V_ {k} (x)}}$

Przekształcenie to można uznać za wielowejściowe uogólnienie logistyki, działające na całej warstwie wyjściowej. Zachowuje porządek rang swoich wartości wejściowych i jest różniczkowalnym uogólnieniem operacji „zwycięzca bierze wszystko” polegającej na wybraniu wartości maksymalnej. Z tego powodu lubimy go nazywać softmax .

Przykład

Jeśli weźmiemy dane wejściowe [1, 2, 3, 4, 1, 2, 3], softmax tego wynosi [0,024, 0,064, 0,175, 0,475, 0,024, 0,064, 0,175]. Wyjście ma większość swojej wagi tam, gdzie cyfra „4” znajdowała się na pierwotnym wejściu. Do tego zwykle służy ta funkcja: do podświetlania największych wartości i tłumienia wartości, które są znacznie poniżej wartości maksymalnej. Ale uwaga: softmax nie jest niezmiennikiem skali, więc jeśli dane wejściowe byłyby [0,1, 0,2, 0,3, 0,4, 0,1, 0,2, 0,3] (co daje 1,6), softmax byłby [0,125, 0,138, 0,153, 0,169, 0,125, 0,138, 0,153]. Pokazuje to, że dla wartości pomiędzy 0 a 1 softmax w rzeczywistości nie podkreśla wartości maksymalnej (zauważ, że 0,169 to nie tylko mniej niż 0,475, ale także mniej niż początkowa proporcja 0,4/1,6=0,25).

Obliczenie tego przykładu przy użyciu kodu Pythona :

>>> import numpy as np
>>> a = [1.0, 2.0, 3.0, 4.0, 1.0, 2.0, 3.0]
>>> np.exp(a) / np.sum(np.exp(a)) 
array([0.02364054, 0.06426166, 0.1746813, 0.474833, 0.02364054,
       0.06426166, 0.1746813])

Oto przykład kodu Julii :

julia> A = [1.0, 2.0, 3.0, 4.0, 1.0, 2.0, 3.0];  # semicolon to suppress interactive output

julia> exp.(A) ./ sum(exp.(A))
7-element Array{Float64,1}:
 0.0236405
 0.0642617
 0.174681
 0.474833
 0.0236405
 0.0642617
 0.174681

Oto przykład kodu R :

> z <- c(1.0, 2.0, 3.0, 4.0, 1.0, 2.0, 3.0)
> softmax <- exp(z)/sum(exp(z))
> softmax
[1] 0.02364054 0.06426166 0.17468130 0.47483300 0.02364054 0.06426166 0.17468130

Oto przykład kodu Elixir :

iex> t = Nx.tensor([[1, 2], [3, 4]])
iex> Nx.divide(Nx.exp(t), Nx.sum(Nx.exp(t)))

#Nx.Tensor<
  f64[2][2]
  [
    [0.03205860328008499, 0.08714431874203257],
    [0.23688281808991013, 0.6439142598879722]
  ]
>

Zobacz też

Softplus
Wielomianowa regresja logistyczna
Rozkład Dirichleta – alternatywny sposób próbkowania rozkładów kategorycznych
Funkcja partycji

Languages

In other projects