Wstępne przetwarzanie danych - Data pre-processing

Wstępne przetwarzanie danych może odnosić się do manipulacji lub usuwania danych przed ich użyciem w celu zapewnienia lub zwiększenia wydajności i jest ważnym krokiem w procesie eksploracji danych . Wyrażenie „śmieci wchodzą, wyrzucają śmieci” ma szczególne zastosowanie w przypadku projektów eksploracji danych i uczenia maszynowego . Metody gromadzenia danych są często luźno kontrolowane, co skutkuje wartościami spoza zakresu (np. Dochód: -100), niemożliwymi kombinacjami danych (np. Płeć: Mężczyzna, Ciąża: Tak) oraz brakami wartości itp. Analizowanie danych, które nie został dokładnie przebadany pod kątem takich problemów, może dawać mylące wyniki. Tak więc reprezentacja i jakość danych jest przede wszystkim przed uruchomieniem jakiejkolwiek analizy. Często wstępne przetwarzanie danych jest najważniejszą fazą projektu uczenia maszynowego , zwłaszcza w biologii obliczeniowej .

Jeśli istnieje wiele nieistotnych i zbędnych informacji lub zaszumionych i niewiarygodnych danych, odkrywanie wiedzy w fazie szkolenia jest trudniejsze. Przygotowanie danych i etapy filtrowania mogą zająć dużo czasu na przetwarzanie. Przykłady wstępnego przetwarzania danych obejmują czyszczenie , wybór instancji , normalizację , jedno gorące kodowanie , transformację , wyodrębnianie i selekcję cech itp. Produktem wstępnego przetwarzania danych jest końcowy zestaw uczący .

Wstępne przetwarzanie danych może mieć wpływ na sposób interpretacji wyników końcowego przetwarzania danych. Ten aspekt należy dokładnie rozważyć, gdy interpretacja wyników jest kluczowym punktem, na przykład w wielowymiarowym przetwarzaniu danych chemicznych ( chemometria ).

Zadania wstępnego przetwarzania danych

Przykład

W tym przykładzie w naszym zbiorze danych mamy 5 osób dorosłych, które mają płeć mężczyzny lub kobiety i są w ciąży, czy nie. Możemy wykryć, że Adult 3 i 5 to niemożliwe kombinacje danych.

Seks W ciąży
Dorosły
1 Męski Nie
2 Płeć żeńska tak
3 Męski tak
4 Płeć żeńska Nie
5 Męski tak

Możemy wykonać czyszczenie danych i wybrać usunięcie takich danych z naszej tabeli. Usuwamy takie dane, ponieważ możemy ustalić, że takie dane istniejące w zbiorze danych są spowodowane błędami wprowadzonymi przez użytkownika lub uszkodzeniem danych. Powodem, dla którego może być konieczne usunięcie takich danych, jest to, że niemożliwe dane wpłyną na proces obliczania lub manipulacji danymi na późniejszych etapach procesu eksploracji danych.

Seks W ciąży
Dorosły
1 Męski Nie
2 Płeć żeńska tak
4 Płeć żeńska Nie

Możemy przeprowadzić edycję danych i zmienić płeć dorosłego, wiedząc, że dorosły jest w ciąży, możemy założyć, że dorosły jest kobietą i wprowadzić odpowiednie zmiany. Edytujemy zbiór danych, aby uzyskać jaśniejszą analizę danych podczas wykonywania manipulacji danymi na późniejszych etapach procesu eksploracji danych.

Seks W ciąży
Dorosły
1 Męski Nie
2 Płeć żeńska tak
3 Płeć żeńska tak
4 Płeć żeńska Nie
5 Płeć żeńska tak

Możemy użyć formy redukcji danych i posortować dane według płci, a dzięki temu możemy uprościć nasz zbiór danych i wybrać płeć, na której chcemy się bardziej skupić.

Seks W ciąży
Dorosły
2 Płeć żeńska tak
4 Płeć żeńska Nie
1 Męski Nie
3 Męski tak
5 Męski tak

Eksploracja danych

Początki wstępnego przetwarzania danych znajdują się w eksploracji danych . Ideą jest agregowanie istniejących informacji i wyszukiwanie w treści. Później okazało się, że w przypadku uczenia maszynowego i sieci neuronowych potrzebny jest również etap wstępnego przetwarzania danych. Stało się więc uniwersalną techniką, która jest używana w ogóle w informatyce.

Wstępne przetwarzanie danych pozwala na usunięcie niechcianych danych za pomocą czyszczenia danych, dzięki czemu użytkownik może mieć zestaw danych zawierający cenniejsze informacje po etapie wstępnego przetwarzania w celu późniejszej manipulacji danymi w procesie eksploracji danych. Edycja takiego zbioru danych w celu skorygowania uszkodzenia danych lub błędu ludzkiego jest kluczowym krokiem w celu uzyskania dokładnych kwantyfikatorów, takich jak prawdziwie dodatnie, prawdziwie ujemne, fałszywie dodatnie i fałszywie ujemne znalezione w macierzy pomyłek, które są powszechnie używane do diagnozy medycznej. Użytkownicy mogą łączyć ze sobą pliki danych i używać przetwarzania wstępnego do filtrowania wszelkich niepotrzebnych zakłóceń z danych, co może zapewnić większą dokładność. Użytkownicy używają skryptów programowania Python wraz z biblioteką pandas, która daje im możliwość importowania danych z wartości oddzielonych przecinkami jako ramki danych. Ramka danych jest następnie używana do manipulowania danymi, które mogą być trudne do wykonania w programie Excel. pandy (oprogramowanie), które jest potężnym narzędziem pozwalającym na analizę i manipulację danymi; co znacznie ułatwia wizualizacje danych, operacje statystyczne i wiele innych. Wielu używa również R (języka programowania) do wykonywania takich zadań.

Powodem, dla którego użytkownik przekształca istniejące pliki w nowy, jest wiele powodów. Wstępne przetwarzanie danych ma na celu dodanie brakujących wartości, zagregowanie informacji, oznaczenie danych kategoriami (grupowanie danych ) i wygładzenie trajektorii. Bardziej zaawansowane techniki, takie jak analiza głównych komponentów i wybór funkcji, działają z formułami statystycznymi i są stosowane do złożonych zestawów danych, które są rejestrowane przez urządzenia śledzące GPS i urządzenia do przechwytywania ruchu.

Wstępne przetwarzanie danych semantycznych

Złożone problemy wymagają bardziej rozbudowanych technik analizy istniejących informacji. Zamiast tworzyć prosty skrypt do agregowania różnych wartości liczbowych w jedną, warto skupić się na semantycznym przetwarzaniu danych. Oto pomysł na zbudowanie dedykowanej ontologii, która wyjaśnia na wyższym poziomie, na czym polega problem. Początkujący (oprogramowanie) jest standardowym narzędziem do tego celu. Drugą bardziej zaawansowaną techniką jest wstępne przetwarzanie rozmyte . Oto pomysł, aby ugruntować wartości liczbowe informacjami językowymi. Surowe dane są przekształcane na język naturalny .

Bibliografia

Zewnętrzne linki