Wzajemna informacja punktowa - Pointwise mutual information

Wzajemna informacja punktowa ( PMI ), czyli punktowa informacja wzajemna , jest miarą powiązań wykorzystywaną w teorii informacji i statystyce . W przeciwieństwie do informacji wzajemnych (MI), która opiera się na PMI, odnosi się do pojedynczych zdarzeń, podczas gdy MI odnosi się do średniej wszystkich możliwych zdarzeń.

Definicja

Wskaźnik PMI pary wyników x i y należących do dyskretnych zmiennych losowych X i Y określa ilościowo rozbieżność między prawdopodobieństwem ich zbieżności, biorąc pod uwagę ich łączny rozkład i ich rozkłady indywidualne, zakładając niezależność . Matematycznie:

Informacja wzajemna (MI) o zmiennych losowych X i Y jest oczekiwana wartość PMI (w stosunku do wszystkich możliwych wyników).

Miara jest symetryczna ( ). Może przyjmować wartości dodatnie lub ujemne, ale wynosi zero, jeśli X i Yniezależne . Należy zauważyć, że nawet jeśli PMI może być ujemny lub dodatni, jego oczekiwany wynik dla wszystkich wspólnych zdarzeń (MI) jest dodatni. PMI maksymalizuje, gdy X i Y są doskonale powiązane (tj. lub ), dając następujące ograniczenia:

Wreszcie wzrośnie, jeśli zostanie ustalona, ​​ale maleje.

Oto przykład ilustrujący:

x tak p ( xy )
0 0 0,1
0 1 0,7
1 0 0,15
1 1 0,05

Korzystając z tej tabeli możemy zmarginalizować, aby uzyskać następującą dodatkową tabelę dla poszczególnych dystrybucji:

p ( x ) P ( R )
0 0,8 0,25
1 0,2 0,75

W tym przykładzie możemy obliczyć cztery wartości dla . Używając logarytmów o podstawie 2:

pmi(x=0;y=0) = -1
pmi(x=0;y=1) = 0,222392
pmi(x=1;y=0) = 1,584963
pmi(x=1;y=1) = -1,584963

(Dla odniesienia, wzajemne informacje byłyby wtedy 0,2141709)

Podobieństwa do informacji wzajemnych

Pointwise Mutual Information ma wiele takich samych relacji jak informacje wzajemne. W szczególności,

Gdzie jest informacja o sobie , lub .

Znormalizowana wzajemna informacja punktowa (npmi)

Wzajemne informacje punktowe mogą być znormalizowane między [-1,+1], co daje -1 (w limicie) dla nigdy nie występujących razem, 0 dla niezależności i +1 dla całkowitego współwystępowania .

Gdzie jest wspólna informacja o sobie , którą szacuje się jako .

Warianty PMI

Oprócz wspomnianych wyżej npmi, PMI ma wiele innych ciekawych wariantów. Studium porównawcze tych wariantów można znaleźć w:

Reguła łańcuchowa dla pmi

Podobnie jak wzajemne informacje , wzajemne informacje punktowe są zgodne z regułą łańcucha , to znaczy

Łatwo to udowodnić:

Aplikacje

W lingwistyce komputerowej PMI jest używany do wyszukiwania kolokacji i skojarzeń między słowami. Na przykład zliczanie wystąpień i współwystępowania słów w korpusie tekstowym może służyć do aproksymacji prawdopodobieństw i odpowiednio. Poniższa tabela przedstawia liczbę par słów uzyskujących najwięcej i najmniej wyników PMI w pierwszych 50 milionach słów w Wikipedii (zrzut z października 2015 r.) filtrowanych według 1000 lub więcej współwystępowania. Częstotliwość każdego liczenia można uzyskać, dzieląc jego wartość przez 50 000 952. (Uwaga: logarytm naturalny jest używany do obliczenia wartości PMI w tym przykładzie, zamiast logarytmicznej podstawy 2)

słowo 1 słowo 2 policz słowo 1 policz słowo 2 liczba współwystąpień PMI
porto rico 1938 1311 1159 10.0349081703
hong kong 2438 2694 2205 9.72831972408
przegrać aniołowie 3501 2808 2791 9.56067615065
węgiel dwutlenek 4265 1353 1032 9.09852946116
nagroda laureat 5131 1676 1210 8.85870710982
san Franciszek 5237 2477 1779 8.83305176711
nobel nagroda 4098 5131 2498 8.68948811416
lód hokej 5607 3002 1933 8.6555759741
gwiazda wędrówka 8264 1594 1489 8.63974676575
samochód kierowca 5578 2749 1384 8.41470768304
to the 283891 3293296 3347 -1,72037278119
z 234458 1761436 1019 -2,09254205335
to the 199882 3293296 1211 -2,38612756961
jest z 565679 1761436 1562 -2.54614706831
i z 1375396 1761436 2949 -2.79911817902
za i 984442 1375396 1457 -2,92239510038
w i 1187652 1375396 1537 -3.05660070757
do i 1025659 1375396 1286 -3,08825363041
do w 1025659 1187652 1066 -3,12911348956
z i 1761436 1375396 1190 -3.70663100173

Dobre pary kolokacyjne mają wysokie PMI, ponieważ prawdopodobieństwo współwystępowania jest tylko nieznacznie niższe niż prawdopodobieństwa wystąpienia każdego słowa. I odwrotnie, para słów, których prawdopodobieństwo wystąpienia jest znacznie wyższe niż prawdopodobieństwo współwystępowania, otrzymuje niski wynik PMI.

Bibliografia

Linki zewnętrzne