Prawdopodobnie w przybliżeniu poprawna nauka - Probably approximately correct learning

W teorii uczenia komputerowego , prawdopodobnie w przybliżeniu poprawne ( PAC ) uczenie jest podstawą matematycznej analizy uczenia maszynowego . Zaproponował ją w 1984 Leslie Valiant .

W tych ramach uczący się otrzymuje próbki i musi wybrać funkcję uogólnienia (zwaną hipotezą ) z pewnej klasy możliwych funkcji. Celem jest, aby z dużym prawdopodobieństwem (część „prawdopodobnie”) wybrana funkcja miała niski błąd uogólnienia (część „w przybliżeniu poprawna”). Osoba ucząca się musi być w stanie nauczyć się pojęcia przy dowolnym współczynniku aproksymacji, prawdopodobieństwie sukcesu lub rozkładzie próbek .

Model został później rozszerzony o obróbkę szumu (błędnie sklasyfikowane próbki).

Ważną innowacją w ramach PAC jest wprowadzenie koncepcji teorii złożoności obliczeniowej do uczenia maszynowego. W szczególności oczekuje się, że uczący się znajdzie efektywne funkcje (wymagania czasowe i przestrzenne związane z wielomianem wielkości przykładu), a sam uczący się musi zaimplementować wydajną procedurę (wymagającą liczby przykładów związanych z wielomianem wielkości pojęciowej, zmodyfikowanej przez aproksymację i granice prawdopodobieństwa ).

Definicje i terminologia

Aby podać definicję czegoś, czego można się nauczyć przez PAC, musimy najpierw wprowadzić pewną terminologię.

Dla poniższych definicji zostaną użyte dwa przykłady. Pierwszym z nich jest problem rozpoznawania znaków na podstawie tablicy bitów kodujących obraz o wartości binarnej. Drugim przykładem jest problem ze znalezieniem przedziału, który poprawnie zaklasyfikuje punkty w przedziale jako dodatnie, a punkty spoza przedziału jako ujemne.

Niech będzie zbiorem zwanym przestrzenią instancji lub kodowaniem wszystkich próbek. W problemie rozpoznawania znaków przestrzeń instancji to . W zadaniu przedziałowym przestrzeń instancji, , jest zbiorem wszystkich ograniczonych przedziałów w , gdzie oznacza zbiór wszystkich liczb rzeczywistych .

Koncepcja jest podzbiorem . Jedną z koncepcji jest zestaw wszystkich wzorców bitów, w których koduje się obraz litery „P”. Przykładową koncepcją z drugiego przykładu jest zbiór otwartych przedziałów , z których każdy zawiera tylko punkty dodatnie. Klasa pojęcie to zbiór pojęć ponad . Może to być zestaw wszystkich podzbiorów tablicy bitów, które są połączone w szkielet 4 (szerokość czcionki wynosi 1).

Niech będzie procedurą, która rysuje przykład , używając rozkładu prawdopodobieństwa i daje poprawną etykietę , czyli 1 jeśli i 0 w przeciwnym razie.

Teraz załóżmy, że istnieje algorytm i wielomian w (oraz inne istotne parametry klasy ) takie, że przy danej próbce o rozmiarze wylosowanej zgodnie z , to z prawdopodobieństwem co najmniej , wyprowadza hipotezę, która ma średni błąd mniejsze lub równe on przy tym samym rozkładzie . Dalej, jeśli powyższe stwierdzenie dla algorytmu jest prawdziwe dla każdego pojęcia i dla każdej dystrybucji ponad , i dla wszystkich, wtedy jest (efektywnie) uczący się PAC (lub uczący się PAC bez dystrybucji ). Możemy również powiedzieć, że jest to algorytm uczenia PAC dla .

Równorzędność

W pewnych warunkach regularności warunki te są równoważne:

  1. Koncepcji klasy C można się nauczyć PAC.
  2. Wymiar VC z C jest skończona.
  3. C to jednolita klasa Glivenka–Cantelli .
  4. C jest ściśliwe w sensie Littlestone i Warmuth

Zobacz też

Bibliografia

  1. ^ L. Valiant. Teoria uczenia się. Komunikaty ACM, 27, 1984.
  2. ^ Kearns i Vazirani, str. 1-12,
  3. ^ Balas Kausik Natarajan, Uczenie maszynowe, podejście teoretyczne , Morgan Kaufmann Publishers, 1991
  4. ^ Blumer, Anzelm; Ehrenfeucht, Andrzej; Dawida, Hausslera; Manfred, Warmuth (październik 1989). „Uczenie się i wymiar Vapnik-Chervonenkis”. Czasopismo Stowarzyszenia Maszyn Komputerowych . 36 (4): 929–965. doi : 10.1145/76359.76371 . S2CID  1138467 .

https://users.soe.ucsc.edu/~manfred/pubs/lrnk-olivier.pdf

Moran, Shay; Yehudayoff, Amir (2015). „Przykładowe schematy kompresji dla klas VC”. arXiv : 1503.06960 [ cs.LG ].

Dalsza lektura