Wzajemna informacja punktowa - Pointwise mutual information
Wzajemna informacja punktowa ( PMI ), czyli punktowa informacja wzajemna , jest miarą powiązań wykorzystywaną w teorii informacji i statystyce . W przeciwieństwie do informacji wzajemnych (MI), która opiera się na PMI, odnosi się do pojedynczych zdarzeń, podczas gdy MI odnosi się do średniej wszystkich możliwych zdarzeń.
Definicja
Wskaźnik PMI pary wyników x i y należących do dyskretnych zmiennych losowych X i Y określa ilościowo rozbieżność między prawdopodobieństwem ich zbieżności, biorąc pod uwagę ich łączny rozkład i ich rozkłady indywidualne, zakładając niezależność . Matematycznie:
Informacja wzajemna (MI) o zmiennych losowych X i Y jest oczekiwana wartość PMI (w stosunku do wszystkich możliwych wyników).
Miara jest symetryczna ( ). Może przyjmować wartości dodatnie lub ujemne, ale wynosi zero, jeśli X i Y są niezależne . Należy zauważyć, że nawet jeśli PMI może być ujemny lub dodatni, jego oczekiwany wynik dla wszystkich wspólnych zdarzeń (MI) jest dodatni. PMI maksymalizuje, gdy X i Y są doskonale powiązane (tj. lub ), dając następujące ograniczenia:
Wreszcie wzrośnie, jeśli zostanie ustalona, ale maleje.
Oto przykład ilustrujący:
x | tak | p ( x , y ) |
---|---|---|
0 | 0 | 0,1 |
0 | 1 | 0,7 |
1 | 0 | 0,15 |
1 | 1 | 0,05 |
Korzystając z tej tabeli możemy zmarginalizować, aby uzyskać następującą dodatkową tabelę dla poszczególnych dystrybucji:
p ( x ) | P ( R ) | |
---|---|---|
0 | 0,8 | 0,25 |
1 | 0,2 | 0,75 |
W tym przykładzie możemy obliczyć cztery wartości dla . Używając logarytmów o podstawie 2:
pmi(x=0;y=0) | = | -1 |
pmi(x=0;y=1) | = | 0,222392 |
pmi(x=1;y=0) | = | 1,584963 |
pmi(x=1;y=1) | = | -1,584963 |
(Dla odniesienia, wzajemne informacje byłyby wtedy 0,2141709)
Podobieństwa do informacji wzajemnych
Pointwise Mutual Information ma wiele takich samych relacji jak informacje wzajemne. W szczególności,
Gdzie jest informacja o sobie , lub .
Znormalizowana wzajemna informacja punktowa (npmi)
Wzajemne informacje punktowe mogą być znormalizowane między [-1,+1], co daje -1 (w limicie) dla nigdy nie występujących razem, 0 dla niezależności i +1 dla całkowitego współwystępowania .
Gdzie jest wspólna informacja o sobie , którą szacuje się jako .
Warianty PMI
Oprócz wspomnianych wyżej npmi, PMI ma wiele innych ciekawych wariantów. Studium porównawcze tych wariantów można znaleźć w:
Reguła łańcuchowa dla pmi
Podobnie jak wzajemne informacje , wzajemne informacje punktowe są zgodne z regułą łańcucha , to znaczy
Łatwo to udowodnić:
Aplikacje
W lingwistyce komputerowej PMI jest używany do wyszukiwania kolokacji i skojarzeń między słowami. Na przykład zliczanie wystąpień i współwystępowania słów w korpusie tekstowym może służyć do aproksymacji prawdopodobieństw i odpowiednio. Poniższa tabela przedstawia liczbę par słów uzyskujących najwięcej i najmniej wyników PMI w pierwszych 50 milionach słów w Wikipedii (zrzut z października 2015 r.) filtrowanych według 1000 lub więcej współwystępowania. Częstotliwość każdego liczenia można uzyskać, dzieląc jego wartość przez 50 000 952. (Uwaga: logarytm naturalny jest używany do obliczenia wartości PMI w tym przykładzie, zamiast logarytmicznej podstawy 2)
słowo 1 | słowo 2 | policz słowo 1 | policz słowo 2 | liczba współwystąpień | PMI |
---|---|---|---|---|---|
porto | rico | 1938 | 1311 | 1159 | 10.0349081703 |
hong | kong | 2438 | 2694 | 2205 | 9.72831972408 |
przegrać | aniołowie | 3501 | 2808 | 2791 | 9.56067615065 |
węgiel | dwutlenek | 4265 | 1353 | 1032 | 9.09852946116 |
nagroda | laureat | 5131 | 1676 | 1210 | 8.85870710982 |
san | Franciszek | 5237 | 2477 | 1779 | 8.83305176711 |
nobel | nagroda | 4098 | 5131 | 2498 | 8.68948811416 |
lód | hokej | 5607 | 3002 | 1933 | 8.6555759741 |
gwiazda | wędrówka | 8264 | 1594 | 1489 | 8.63974676575 |
samochód | kierowca | 5578 | 2749 | 1384 | 8.41470768304 |
to | the | 283891 | 3293296 | 3347 | -1,72037278119 |
są | z | 234458 | 1761436 | 1019 | -2,09254205335 |
to | the | 199882 | 3293296 | 1211 | -2,38612756961 |
jest | z | 565679 | 1761436 | 1562 | -2.54614706831 |
i | z | 1375396 | 1761436 | 2949 | -2.79911817902 |
za | i | 984442 | 1375396 | 1457 | -2,92239510038 |
w | i | 1187652 | 1375396 | 1537 | -3.05660070757 |
do | i | 1025659 | 1375396 | 1286 | -3,08825363041 |
do | w | 1025659 | 1187652 | 1066 | -3,12911348956 |
z | i | 1761436 | 1375396 | 1190 | -3.70663100173 |
Dobre pary kolokacyjne mają wysokie PMI, ponieważ prawdopodobieństwo współwystępowania jest tylko nieznacznie niższe niż prawdopodobieństwa wystąpienia każdego słowa. I odwrotnie, para słów, których prawdopodobieństwo wystąpienia jest znacznie wyższe niż prawdopodobieństwo współwystępowania, otrzymuje niski wynik PMI.
Bibliografia
- Fano, RM (1961). "Rozdział 2". Przekazywanie informacji: statystyczna teoria komunikacji . MIT Press, Cambridge, MA. Numer ISBN 978-0262561693.
Linki zewnętrzne
- Demo na Rensselaer MSR Server (wartości PMI znormalizowane między 0 a 1)