Hałaśliwy tekst - Noisy text

Hałaśliwy tekst to tekst z różnicami między formą powierzchniową zakodowanej reprezentacji tekstu a zamierzonym, poprawnym lub oryginalnym tekstem. Hałasu może być spowodowane typograficznych błędów lub potoczne zawsze obecnych w języku naturalnym i zazwyczaj obniża jakość danych w sposób, który sprawia, że tekst mniej dostępne dla automatycznego przetwarzania przez komputery, w tym przetwarzania języka naturalnego . Hałas mógł również zostać wprowadzony w wyniku procesu ekstrakcji (np. Transkrypcji lub OCR ) z nośników innych niż oryginalne teksty elektroniczne .

Używanie języka w dyskursach za pośrednictwem komputera, takich jak czaty , e - maile i SMS - y , znacznie różni się od standardowej formy języka. Dążenie do krótszej długości przekazu, ułatwiającego szybsze pisanie, oraz potrzeba jasności semantycznej kształtują strukturę tego tekstu używanego w tego typu dyskursach.

Różni analitycy biznesowi szacują, że nieustrukturyzowane dane stanowią około 80% wszystkich danych przedsiębiorstwa . Duża część tych danych obejmuje transkrypcje czatów, e-maile i inne nieformalne i półformalne komunikaty wewnętrzne i zewnętrzne. Zwykle taki tekst jest przeznaczony do spożycia przez ludzi, ale - biorąc pod uwagę ilość danych - ręczne przetwarzanie i ocena tych zasobów nie jest już praktycznie wykonalne. Rodzi to potrzebę solidnych metod eksploracji tekstu .

Techniki redukcji szumów

Korzystanie z narzędzi do sprawdzania pisowni i gramatyki może zmniejszyć ilość szumów we wpisywanym tekście. Wiele edytorów tekstu zawiera to w narzędziu do edycji. Internetowa wyszukiwarka Google zawiera mechanizm podpowiadania wyszukiwanych haseł, który pomaga użytkownikom popełniać błędy w zapytaniach.

Zobacz też

Bibliografia