Najbliższy klasyfikator centroidów — Nearest centroid classifier

Klasyfikacja Rocchio

W uczeniu maszynowym najbliższy klasyfikator centroidu lub najbliższy klasyfikator prototypu to model klasyfikacji, który przypisuje obserwacjom etykietę klasy próbek uczących , których średnia ( centroid ) jest najbliższa obserwacji.

W przypadku zastosowania do klasyfikacji tekstu przy użyciu wektorów tf*idf do reprezentowania dokumentów, najbliższy klasyfikator centroid jest znany jako klasyfikator Rocchio ze względu na podobieństwo do algorytmu Rocchio dla informacji zwrotnych o istotności .

Rozszerzona wersja najbliższego klasyfikatora centroidów znalazła zastosowanie w medycynie, w szczególności w klasyfikacji nowotworów .

Algorytm

  • Procedura treningowa: podane oznaczone próbki treningowe z etykietami klas , oblicz centroidy dla poszczególnych klas, gdzie jest zbiorem indeksów próbek należących do klasy .
  • Funkcja predykcji: klasa przypisana do obserwacji to .

Zobacz też

Bibliografia

  1. ^ Manning, Christopher; Raghavan, Prabhakar; Schütze, Hinrich (2008). „Klasyfikacja przestrzeni wektorowej”. Wprowadzenie do wyszukiwania informacji . Wydawnictwo Uniwersytetu Cambridge.
  2. ^ Tibshirani, Robert ; Pośpiech, Trevor ; Narasimhan, Balasubramanian; Chu, Gilbert (2002). „Diagnostyka wielu typów nowotworów przez skurczone centroidy ekspresji genów” . Materiały Narodowej Akademii Nauk . 99 (10): 6567–6572. doi : 10.1073/pnas.082099299 . PMC  124443 . PMID  12011421 .