Zatrzymaj słowo - Stop word

Zatrzymane słowa to dowolne słowa z listy stop (lub stoplisty lub słownika negatywnego), które są odfiltrowywane (tj. zatrzymywane) przed lub po przetworzeniu danych języka naturalnego (tekstu). Nie ma jednej uniwersalnej listy słów ignorowanych używanej przez wszystkie narzędzia przetwarzające język naturalny , ani żadnych uzgodnionych reguł identyfikacji słów ignorowanych, a nawet nie wszystkie narzędzia używają takiej listy. Dlatego każda grupa słów może być wybrana jako słowa stopu dla danego celu. „Ogólny trend w systemach [wyszukiwania informacji] na przestrzeni czasu polegał na przejściu od standardowego stosowania dość dużych list przystanków (200–300 terminów) do bardzo małych list przystanków (7–12 terminów) do braku listy przystanków w ogóle”

Historia słów stop

Przy tworzeniu niektórych konkordancji wykorzystano koncepcję poprzednika . Na przykład pierwsza konkordancja hebrajska, Me'ir nativ, zawierała jednostronicową listę nieindeksowanych słów, z nierzeczywistymi przyimkami i spójnikami, które są podobne do współczesnych słów stopowych.

Hans Peter Luhn , jeden z pionierów w wyszukiwaniu informacji , jest uważany za twórcę tej frazy i użycie tej koncepcji podczas wprowadzania swojego procesu automatycznego indeksowania słów kluczowych w kontekście. Wyrażenie „słowo stop”, którego nie ma w prezentacji Luhna z 1959 roku, oraz związane z nim terminy „lista stop” i „lista stop” pojawiają się w literaturze wkrótce potem.

Chociaż powszechnie przyjmuje się, że stoplisty zawierają tylko najczęstsze słowa w danym języku, to CJ Van Rijsbergen zaproponował pierwszą ustandaryzowaną listę, która nie była oparta na informacjach o częstotliwości słów. „Lista samochodów dostawczych” zawierała 250 angielskich słów. Program oparty na wyszukiwaniu słów Martina Portera opracowany w latach 80. XX wieku oparty na liście Van, a lista Portera jest obecnie powszechnie używana jako domyślna lista stop w różnych aplikacjach.

W 1990 roku Christopher Fox zaproponował pierwszą ogólną listę przystanków opartą na empirycznych informacjach o częstotliwości słów pochodzących z Brown Corpus:

Niniejszy artykuł opisuje ćwiczenie polegające na generowaniu listy stop dla tekstu ogólnego w oparciu o korpus Browna składający się z 1014 000 słów zaczerpniętych z szerokiego zakresu literatury w języku angielskim. Zaczynamy od listy tokenów występujących ponad 300 razy w korpusie Browna. Z tej listy 278 słów 32 zostały wybrane ze względu na to, że są one zbyt ważne jako potencjalne terminy indeksowe. Następnie do listy dodaje się dwadzieścia sześć słów w przekonaniu, że mogą one występować bardzo często w niektórych rodzajach literatury. Ostatecznie do listy dodano 149 słów, ponieważ filtr oparty na automatach skończonych, w którym ta lista ma być używana, jest w stanie je filtrować prawie bez żadnych kosztów. Produktem końcowym jest lista 421 słów stop, które powinny być maksymalnie wydajne i skuteczne w filtrowaniu najczęściej występujących i neutralnych semantycznie słów w literaturze ogólnej w języku angielskim.

W terminologii SEO słowa stop są najczęstszymi słowami, których wiele wyszukiwarek unika, aby zaoszczędzić miejsce i czas podczas przetwarzania dużych danych podczas przeszukiwania lub indeksowania . Pomaga to wyszukiwarkom zaoszczędzić miejsce w swoich bazach danych.

Dla niektórych wyszukiwarkach , są to jedne z najczęstszych, krótkie wyrazy funkcyjne , takie jak , to , co , który , i na . W takim przypadku słowa stop mogą powodować problemy podczas wyszukiwania fraz, które je zawierają, szczególnie w nazwach takich jak „ Kto ”, „ The ” lub „ Take to ”. Inne wyszukiwarki usuwają z zapytania niektóre z najpopularniejszych słów — w tym słowa leksykalne , takie jak „chcę” — w celu poprawy wydajności.

Zobacz też

Bibliografia

Zewnętrzne linki