Miara podobieństwa - Similarity measure

W statystyce i powiązanych dziedzinach miara podobieństwa lub funkcja podobieństwa to funkcja o wartościach rzeczywistych, która określa ilościowo podobieństwo między dwoma obiektami. Chociaż nie istnieje jedna definicja miary podobieństwa, zazwyczaj takie miary są w pewnym sensie odwrotnością metryk odległości : przyjmują duże wartości dla podobnych obiektów i zero lub ujemną wartość dla bardzo niepodobnych obiektów.

Podobieństwo kosinusowe jest powszechnie stosowaną miarą podobieństwa dla wektorów o wartościach rzeczywistych, wykorzystywaną (między innymi) w wyszukiwaniu informacji do oceny podobieństwa dokumentów w modelu przestrzeni wektorowej . W uczeniu maszynowym typowe funkcje jądra, takie jak jądro RBF, można postrzegać jako funkcje podobieństwa.

Użyj w klastrowaniu

W klastrowaniu widmowym miara podobieństwa lub powinowactwa służy do przekształcania danych w celu przezwyciężenia trudności związanych z brakiem wypukłości w kształcie rozkładu danych. Miara daje początek wielkości macierzy podobieństwa dla zbioru n punktów, gdzie wpis w macierzy może być po prostu (ujemną) odległością euklidesową między i lub może być bardziej złożoną miarą odległości, taką jak Gaussa . Powszechna jest również dalsza modyfikacja tego wyniku za pomocą technik analizy sieci.

Użyj w wyrównaniu sekwencji

Macierze podobieństwa są używane do dopasowywania sekwencji . Wyższe wyniki są przyznawane bardziej podobnym postaciom, a niższe lub negatywne wyniki dla niepodobnych postaci.

Macierze podobieństwa nukleotydów są wykorzystywane do dopasowania sekwencji kwasów nukleinowych . Ponieważ w DNA występują tylko cztery nukleotydy ( adenina (A), cytozyna (C), guanina (G) i tymina (T)), macierze podobieństwa nukleotydów są znacznie prostsze niż macierze podobieństwa białek . Na przykład prosta macierz przypisze identycznym zasadom wynik +1, a nieidentycznym zasadom wynik -1. Bardziej skomplikowana macierz dawałaby wyższy wynik przejściom (zmiany z pirymidyny takiej jak C lub T na inną pirymidynę lub z puryny takiej jak A lub G na inną purynę) niż transwersji (z pirymidyny do puryny lub imadła). odwrotnie). Stosunek dopasowania/niedopasowania macierzy wyznacza docelowy dystans ewolucyjny. Matryca DNA +1/-3 używana przez BLASTN najlepiej nadaje się do znajdowania dopasowań między sekwencjami, które są identyczne w 99%; macierz +1/-1 (lub +4/-4) jest znacznie bardziej odpowiednia dla sekwencji o około 70% podobieństwie. Macierze dla sekwencji o niższym podobieństwie wymagają dłuższego dopasowania sekwencji.

Macierze podobieństwa aminokwasów są bardziej skomplikowane, ponieważ kod genetyczny koduje 20 aminokwasów , a więc większą liczbę możliwych podstawień. Dlatego macierz podobieństwa dla aminokwasów zawiera 400 wpisów (choć zwykle jest symetryczna ). W pierwszym podejściu wszystkie zmiany aminokwasów zostały ocenione jednakowo. Późniejsze udoskonalenie polegało na określeniu podobieństw aminokwasów na podstawie liczby zmian zasad wymaganych do zmiany kodonu w celu zakodowania tego aminokwasu. Ten model jest lepszy, ale nie uwzględnia presji selekcyjnej zmian aminokwasów. Lepsze modele uwzględniały właściwości chemiczne aminokwasów.

Jednym z podejść było empiryczne generowanie macierzy podobieństwa. Metoda Dayhoffa wykorzystywała drzewa filogenetyczne i sekwencje pobrane od gatunków na drzewie. Takie podejście dało początek serii macierzy PAM . Macierze PAM są znakowane na podstawie liczby zmian nukleotydów na 100 aminokwasów. Chociaż macierze PAM czerpią korzyści z posiadania dobrze poznanego modelu ewolucyjnego, są najbardziej przydatne na krótkich dystansach ewolucyjnych (PAM10–PAM120). Na długich dystansach ewolucyjnych, na przykład PAM250 lub 20% identyczności, wykazano, że matryce BLOSUM są znacznie bardziej efektywne.

Serie BLOSUM zostały wygenerowane przez porównanie kilku rozbieżnych sekwencji. Serie BLOSUM są oznakowane na podstawie tego, jaka część entropii pozostaje niezmutowana między wszystkimi sekwencjami, więc niższa liczba BLOSUM odpowiada wyższej liczbie PAM.

Zobacz też

Bibliografia