Metryka ciągu - String metric
W matematyce i informatyce , o metrykę ciąg (znany również jako podobieństwa ciąg metrycznym lub funkcji odległości ciąg ) jest metryka , że środki odległość ( „odwrotny podobieństwo”) pomiędzy dwa ciągi tekstowe dla przybliżonego dopasowywania strun lub porównania i rozmyty poszukiwań strun . Wymaganiem dla metryki łańcuchowej (np. W przeciwieństwie do dopasowania łańcuchowego ) jest spełnienie nierówności trójkąta . Na przykład ciągi „Sam” i „Samuel” można uznać za bliskie. Metryka łańcuchowa zawiera liczbę wskazującą specyficzne dla algorytmu wskazanie odległości.
Najbardziej znaną metryką łańcuchową jest prymitywna metryka zwana odległością Levenshteina (znana również jako odległość edycji). Działa między dwoma ciągami wejściowymi, zwracając liczbę odpowiadającą liczbie podstawień i usunięć potrzebnych do przekształcenia jednego ciągu wejściowego w inny. Uproszczone metryki ciągów, takie jak odległość Levenshteina, zostały rozszerzone o metody porównań fonetycznych, tokenowych , gramatycznych i znakowych.
Metryki ciągów są intensywnie wykorzystywane w integracji informacji i są obecnie wykorzystywane w takich obszarach, jak wykrywanie oszustw , analiza odcisków palców , wykrywanie plagiatów , łączenie ontologii , analiza DNA, analiza RNA, analiza obrazu , uczenie maszynowe oparte na dowodach , deduplikacja danych w bazie danych , eksploracja danych , przyrostowe wyszukiwanie , integracja danych , wykrywanie złośliwego oprogramowania i semantyczna integracja wiedzy .
Lista metryk ciągów
- Odległość Levenshteina lub odległość edycji uogólnienia
- Odległość Damerau – Levenshteina
- Współczynnik Sørensena – Dice
- Odległość blokowa lub odległość L1 lub odległość blokowa miasta
- Odległość Hamminga
- Odległość Jaro – Winklera
- Prosty współczynnik dopasowania (SMC)
- Podobieństwo Jaccarda lub współczynnik Jaccarda lub współczynnik Tanimoto
- Indeks Tversky
- Współczynnik nakładania się
- Odległość zmienna
- Odległość Hellingera lub odległość Bhattacharyya
- Promień informacyjny ( rozbieżność Jensena – Shannona )
- Skośna dywergencja
- Prawdopodobieństwo pomyłki
- Metryka Tau , przybliżenie dywergencji Kullbacka-Leiblera
- Metryka Fellegi i Sunters (SFS)
- Maksymalne dopasowania
- Odległość oparta na gramatyce
- Metryka odległości TFIDF
Wybrane przykłady miar łańcuchowych
Nazwa | Przykład |
---|---|
Odległość Hamminga | „ ka rol in ” i „ ka thr in ” to 3. |
Odległość Levenshteina i odległość Damerau – Levenshteina |
k itt e n i s itt i n g mają odległość 3.
|
Odległość Jaro – Winklera | JaroWinklerDist ("MARTHA", "MARHTA") =
|
Najczęstsze k znaków | MostFreqKeySimilarity (' r e s e a r ch', 's ee king', 2) = 2 |
Bibliografia
Zewnętrzne linki
- https://web.archive.org/web/20070304092115/http://www.dcs.shef.ac.uk/~sam/stringmetrics.html#qgram Dość kompletny przegląd Indeks archiwum w Wayback Machine
- Biblioteka open source Carnegie Mellon University
- StringMetric wystawać do Scala biblioteki metryk smyczkowych i algorytmów fonetycznych
- Wystawać naturalny jest JavaScript języka naturalnego przetwarzania biblioteki, która zawiera implementacje popularnych wskaźników łańcuchowych