Najbliższy klasyfikator centroidów — Nearest centroid classifier
W uczeniu maszynowym najbliższy klasyfikator centroidu lub najbliższy klasyfikator prototypu to model klasyfikacji, który przypisuje obserwacjom etykietę klasy próbek uczących , których średnia ( centroid ) jest najbliższa obserwacji.
W przypadku zastosowania do klasyfikacji tekstu przy użyciu wektorów tf*idf do reprezentowania dokumentów, najbliższy klasyfikator centroid jest znany jako klasyfikator Rocchio ze względu na podobieństwo do algorytmu Rocchio dla informacji zwrotnych o istotności .
Rozszerzona wersja najbliższego klasyfikatora centroidów znalazła zastosowanie w medycynie, w szczególności w klasyfikacji nowotworów .
Algorytm
- Procedura treningowa: podane oznaczone próbki treningowe z etykietami klas , oblicz centroidy dla poszczególnych klas, gdzie jest zbiorem indeksów próbek należących do klasy .
- Funkcja predykcji: klasa przypisana do obserwacji to .
Zobacz też
- Hipoteza klastra
- k - oznacza grupowanie
- k – algorytm najbliższego sąsiada
- Liniowa analiza dyskryminacyjna
Bibliografia
- ^ Manning, Christopher; Raghavan, Prabhakar; Schütze, Hinrich (2008). „Klasyfikacja przestrzeni wektorowej”. Wprowadzenie do wyszukiwania informacji . Wydawnictwo Uniwersytetu Cambridge.
- ^ Tibshirani, Robert ; Pośpiech, Trevor ; Narasimhan, Balasubramanian; Chu, Gilbert (2002). „Diagnostyka wielu typów nowotworów przez skurczone centroidy ekspresji genów” . Materiały Narodowej Akademii Nauk . 99 (10): 6567–6572. doi : 10.1073/pnas.082099299 . PMC 124443 . PMID 12011421 .