Minimalna długość wiadomości - Minimum message length

Minimalna długość wiadomości (MML) to metoda bayesowskiej teorii informacji służąca do porównywania i selekcji modeli statystycznych. Zapewnia formalną teorię informacji przekształcenia Brzytwy Ockhama : nawet jeśli modele są równe pod względem dokładności dopasowania do obserwowanych danych, ten, który generuje najbardziej zwięzłe wyjaśnienie danych, jest bardziej prawdopodobny (gdzie wyjaśnienie składa się z zestawienie modelu, a następnie bezstratne kodowanie danych przy użyciu podanego modelu). MML został wymyślony przez Chrisa Wallace'a , który po raz pierwszy pojawił się w nowatorskim artykule „Miara informacyjna do klasyfikacji”. MML jest pomyślany nie tylko jako konstrukcja teoretyczna, ale jako technika, którą można zastosować w praktyce. Różni się od pokrewnej koncepcji złożoności Kołmogorowa tym, że nie wymaga użycia kompletnego języka Turinga do modelowania danych.

Definicja

Shannon „s matematyczna teoria komunikacji (1948) stwierdza, że w kodzie optymalną długość wiadomości (binarnie) zdarzenia , gdzie jest prawdopodobieństwo , podaje .

Twierdzenie Bayesa stwierdza, że ​​prawdopodobieństwo (zmiennej) hipotezy przy danych ustalonych dowodach jest proporcjonalne do , które z definicji prawdopodobieństwa warunkowego jest równe . Chcemy modelu (hipotezy) o najwyższym takim późniejszym prawdopodobieństwie . Załóżmy, że kodujemy wiadomość, która reprezentuje (opisuje) zarówno model, jak i dane łącznie. Ponieważ najbardziej prawdopodobny model będzie miał najkrótszy taki komunikat. Przerywa wiadomość na dwie części: . Pierwsza część koduje sam model. Druga część zawiera informacje (np. Wartości parametrów lub warunki początkowe itp.), Które po przetworzeniu przez model dają zaobserwowane dane.

MML w naturalny i precyzyjny sposób zamienia złożoność modelu na dobre dopasowanie. Bardziej skomplikowany model zajmuje więcej czasu (dłuższa pierwsza część), ale prawdopodobnie lepiej pasuje do danych (krótsza druga część). Tak więc metryka MML nie wybierze skomplikowanego modelu, chyba że ten model się opłaci.

Parametry o wartościach ciągłych

Jednym z powodów, dla których model może być dłuższy, byłby po prostu fakt, że jego różne parametry są określone z większą precyzją, co wymaga transmisji większej liczby cyfr. Duża moc MML wynika z obsługi tego, jak dokładnie określa się parametry w modelu, oraz z różnych przybliżeń, które sprawiają, że jest to wykonalne w praktyce. Pozwala to na użyteczne porównanie, powiedzmy, modelu z wieloma parametrami niedokładnie określonymi z modelem z mniejszą liczbą parametrów, które są dokładniej określone.

Kluczowe cechy MML

  • MML może służyć do porównywania modeli o różnej strukturze. Na przykład jego najwcześniejsze zastosowanie polegało na znalezieniu modeli mieszanin o optymalnej liczbie klas. Dodanie dodatkowych klas do modelu mieszaniny zawsze pozwoli na dopasowanie danych z większą dokładnością, ale zgodnie z MML należy to porównać z dodatkowymi bitami wymaganymi do zakodowania parametrów definiujących te klasy.
  • MML to metoda porównywania modeli bayesowskich . Daje każdemu modelowi punktację.
  • MML jest niezmiennikiem skali i niezmiennym statystycznie. W przeciwieństwie do wielu metod selekcji bayesowskiej, MML nie dba o to, czy zmienisz pomiar długości na objętość, czy ze współrzędnych kartezjańskich na współrzędne biegunowe.
  • MML jest statystycznie spójny. W przypadku problemów, takich jak problem Neymana-Scotta (1948) lub analiza czynnikowa, w których ilość danych na parametr jest ograniczona powyżej, MML może oszacować wszystkie parametry ze spójnością statystyczną .
  • MML odpowiada za precyzję pomiaru. Wykorzystuje informacje Fishera (w przybliżeniu Wallace'a-Freemana 1987 lub innych hiper-tomów w innych przybliżeniach ), aby optymalnie zdyskretyzować parametry ciągłe. Dlatego późniejsze jest zawsze prawdopodobieństwem, a nie gęstością prawdopodobieństwa.
  • MML jest używany od 1968 roku. Schematy kodowania MML zostały opracowane dla kilku dystrybucji i wielu rodzajów uczących się maszyn, w tym klasyfikacja bez nadzoru, drzewa decyzyjne i wykresy, sekwencje DNA, sieci bayesowskie, sieci neuronowe (dotychczas tylko jednowarstwowe), kompresja obrazu, segmentacja obrazu i funkcji itp.

Zobacz też

Bibliografia

Linki zewnętrzne

Oryginalna publikacja:

Książki:

Powiązane linki: