Chemometria - Chemometrics

Chemometria to nauka o wydobywaniu informacji z systemów chemicznych za pomocą metod opartych na danych. Chemometria jest z natury interdyscyplinarna i wykorzystuje metody często stosowane w podstawowych dyscyplinach analizy danych, takich jak statystyka wielowymiarowa , matematyka stosowana i informatyka , w celu rozwiązywania problemów chemii , biochemii , medycyny , biologii i inżynierii chemicznej . W ten sposób odzwierciedla inne dziedziny interdyscyplinarne, takie jak psychometria i ekonometria .

Wstęp

Chemometria jest stosowana do rozwiązywania problemów opisowych i predykcyjnych w eksperymentalnych naukach przyrodniczych, zwłaszcza w chemii. W zastosowaniach opisowych właściwości systemów chemicznych są modelowane w celu poznania podstawowych relacji i struktury systemu (tj. zrozumienia i identyfikacji modelu). W zastosowaniach predykcyjnych właściwości systemów chemicznych są modelowane z zamiarem przewidywania nowych właściwości lub zachowania będącego przedmiotem zainteresowania. W obu przypadkach zbiory danych mogą być małe, ale często są bardzo duże i bardzo złożone, obejmują setki do tysięcy zmiennych i setki do tysięcy przypadków lub obserwacji.

Techniki chemometryczne są szczególnie intensywnie wykorzystywane w chemii analitycznej i metabolomice , a rozwój ulepszonych metod chemometrycznych analizy również kontynuuje postęp w dziedzinie oprzyrządowania analitycznego i metodologii. Jest to dyscyplina oparta na aplikacjach, a zatem podczas gdy standardowe metodologie chemometryczne są bardzo szeroko stosowane w przemyśle, grupy akademickie są zaangażowane w ciągły rozwój teorii, metod i aplikacji chemometrycznych.

Początki

Chociaż można argumentować, że nawet najwcześniejsze eksperymenty analityczne w chemii obejmowały formę chemometrii, powszechnie uznaje się, że dziedzina ta pojawiła się w latach 70. XX wieku, gdy komputery były coraz częściej wykorzystywane do badań naukowych. Termin „chemometria” został ukuty przez Svante Wolda we wniosku o grant z 1971 r., a wkrótce potem przez dwóch pionierów w tej dziedzinie Svante Wolda i Bruce'a Kowalskiego utworzyli Międzynarodowe Towarzystwo Chemometrii. Wold był profesorem chemii organicznej na Uniwersytecie Umeå w Szwecji, a Kowalski był profesorem chemii analitycznej na Uniwersytecie Waszyngtońskim w Seattle.

Wiele wczesnych aplikacji obejmowało klasyfikację wielowymiarową, następnie liczne aplikacje do przewidywania ilościowego, a pod koniec lat 70. i na początku lat 80. pojawiła się szeroka gama analiz chemicznych opartych na danych i komputerach.

Analiza wielowymiarowa była krytycznym aspektem nawet w najwcześniejszych zastosowaniach chemometrii. Dane z spektroskopii w podczerwieni i UV/widzialnej są często liczone w tysiącach pomiarów na próbkę. Spektrometria mas, magnetyczny rezonans jądrowy, eksperymenty z emisją/absorpcją atomową i chromatografią są z natury wysoce wielowymiarowe. Stwierdzono, że struktura tych danych sprzyja stosowaniu technik, takich jak analiza głównych składowych (PCA) i cząstkowych najmniejszych kwadratów (PLS). Dzieje się tak przede wszystkim dlatego, że chociaż zbiory danych mogą być wysoce wielowymiarowe, istnieje silna i często liniowa struktura o niskim rangowaniu. PCA i PLS okazały się z biegiem czasu bardzo skuteczne w empirycznym modelowaniu bardziej interesującej chemicznie struktury niskiego rzędu, wykorzystując współzależności lub „zmienne ukryte” w danych i dostarczając alternatywne zwarte układy współrzędnych do dalszej analizy numerycznej, takiej jak regresja , grupowanie , i rozpoznawanie wzorców . Zwłaszcza metoda częściowego najmniejszego kwadratu była intensywnie wykorzystywana w zastosowaniach chemometrycznych przez wiele lat, zanim zaczęła być regularnie stosowana w innych dziedzinach.

W latach 80. pojawiły się w tej dziedzinie trzy czasopisma poświęcone tej dziedzinie: Journal of Chemometrics , Chemometrics and Intelligent Laboratory Systems oraz Journal of Chemical Information and Modeling . Czasopisma te nadal obejmują zarówno badania podstawowe, jak i metodologiczne w chemometrii. Obecnie większość rutynowych zastosowań istniejących metod chemometrycznych jest powszechnie publikowana w czasopismach zorientowanych na zastosowania (np. Applied Spectroscopy, Analytical Chemistry , Anal. Chim. Acta. , Talanta ). Kilka ważnych książek / monografie chemometrią zostały również opublikowane po raz pierwszy w 1980 roku, w tym pierwszej edycji Malinowskiego analizy czynnikowej w chemii , Sharaf, Illman i Kowalskiego Chemometrics , Massart et al. Chemometria: podręcznik oraz Kalibracja wielowymiarowa autorstwa Martensa i Naesa.

Niektóre duże obszary zastosowań chemometrii zaczęły reprezentować nowe dziedziny, takie jak modelowanie molekularne i QSAR , cheminformatyka , dziedziny „-omiki” genomiki , proteomika , metabonomika i metabolomika , modelowanie procesów i technologia analizy procesów .

Opis wczesnej historii chemometrii został opublikowany w formie serii wywiadów przez Geladi i Esbensen.

Techniki

Kalibracja wielowymiarowa

Wiele problemów chemicznych i zastosowań chemometrii wiąże się z kalibracją . Celem jest opracowanie modeli, które można wykorzystać do przewidywania interesujących właściwości w oparciu o zmierzone właściwości układu chemicznego, takie jak ciśnienie, przepływ, temperatura, widma w podczerwieni , Ramana , NMR i widma masowe . Przykłady obejmują opracowanie modeli wielowymiarowych odnoszących się do 1) odpowiedzi spektralnej na wiele długości fali na stężenie analitu, 2) deskryptorów molekularnych do aktywności biologicznej, 3) wielowymiarowych warunków/stanów procesu do atrybutów produktu końcowego. Proces wymaga zestawu danych kalibracyjnych lub treningowych, który zawiera wartości odniesienia dla właściwości będących przedmiotem zainteresowania do przewidywania oraz zmierzone atrybuty, które uważa się za odpowiadające tym właściwościom. Dla przypadku 1), na przykład, można zebrać dane z wielu próbek, w tym stężenia analitu będącego przedmiotem zainteresowania dla każdej próbki (odniesienia) i odpowiadającego widma w podczerwieni tej próbki. Techniki kalibracji wielu zmiennych, takie jak regresja metodą najmniejszych kwadratów lub regresja głównych składowych (i prawie niezliczone inne metody), są następnie wykorzystywane do skonstruowania modelu matematycznego, który wiąże odpowiedź wielu zmiennych (widmo) ze stężeniem analitu będącego przedmiotem zainteresowania, i takie model może być wykorzystany do skutecznego przewidywania stężeń nowych próbek.

Techniki w kalibracji wielowymiarowej są często szeroko klasyfikowane jako metody klasyczne lub odwrotne. Podstawowa różnica między tymi podejściami polega na tym, że w klasycznej kalibracji modele są rozwiązywane w taki sposób, że są optymalne w opisie zmierzonych odpowiedzi analitycznych (np. widma) i dlatego mogą być uważane za optymalne deskryptory, podczas gdy w metodach odwrotnych modele są rozwiązywane jako optymalne w przewidywaniu interesujących właściwości (np. stężenia, optymalne predyktory). Metody odwrotne zwykle wymagają mniejszej wiedzy fizycznej o układzie chemicznym i przynajmniej teoretycznie zapewniają lepsze przewidywania w sensie błędu średniokwadratowego, a zatem podejścia odwrotne są częściej stosowane we współczesnej kalibracji wielowymiarowej.

Główną zaletą stosowania wielowymiarowych technik kalibracji jest to, że szybkie, tanie lub nieniszczące pomiary analityczne (takie jak spektroskopia optyczna) mogą być wykorzystywane do oceny właściwości próbki, które w innym przypadku wymagałyby czasochłonnych, drogich lub niszczących badań (takich jak LC-MS ). Równie ważne jest to, że kalibracja wielowymiarowa umożliwia dokładną analizę ilościową w obecności silnych zakłóceń ze strony innych analitów. Selektywność metody analitycznej zapewnia w równym stopniu kalibracja matematyczna, co analityczne modalności pomiaru. Na przykład widma bliskiej podczerwieni, które są niezwykle szerokie i nieselektywne w porównaniu z innymi technikami analitycznymi (takimi jak widma w podczerwieni lub widma Ramana), mogą być często z powodzeniem stosowane w połączeniu ze starannie opracowanymi wielowymiarowymi metodami kalibracji w celu przewidywania stężeń analitów w bardzo złożone macierze.

Klasyfikacja, rozpoznawanie wzorców, grupowanie

Nadzorowane techniki klasyfikacji wielowymiarowej są ściśle związane z technikami kalibracji wielowymiarowej w tym sensie, że zestaw kalibracyjny lub uczący jest używany do opracowania modelu matematycznego umożliwiającego klasyfikację przyszłych próbek. Techniki stosowane w chemometrii są podobne do tych stosowanych w innych dziedzinach – wielowymiarowa analiza dyskryminacyjna, regresja logistyczna, sieci neuronowe, drzewa regresji/klasyfikacji. Stosowanie technik redukcji rang w połączeniu z tymi konwencjonalnymi metodami klasyfikacji jest rutynowe w chemometrii, na przykład analiza dyskryminacyjna głównych składowych lub wyniki cząstkowych najmniejszych kwadratów .

Rodzina technik, określana jako modelowanie klasowe lub klasyfikatory jednoklasowe , umożliwia budowanie modeli dla poszczególnych klas. Takie metody są szczególnie przydatne w przypadku kontroli jakości i weryfikacji autentyczności produktów.

Klasyfikacja nienadzorowana (nazywana również analizą skupień ) jest również powszechnie stosowana do wykrywania wzorców w złożonych zestawach danych, a wiele podstawowych technik stosowanych w chemometrii jest wspólnych dla innych dziedzin, takich jak uczenie maszynowe i uczenie statystyczne.

Rozdzielczość krzywej wielowymiarowej

W żargonie chemometrycznej rozdzielczość krzywej wielowymiarowej ma na celu dekonstrukcję zbiorów danych z ograniczonymi lub nieobecnymi informacjami referencyjnymi i wiedzą o systemie. Niektóre z najwcześniejszych prac nad tymi technikami wykonali Lawton i Sylvestre we wczesnych latach siedemdziesiątych. Podejścia te są również nazywane samomodelującą analizą mieszanin, ślepą separacją źródła/sygnału oraz rozbijaniem widma. Na przykład, ze zbioru danych zawierającego widma fluorescencyjne z serii próbek, z których każda zawiera wiele fluoroforów, do ekstrakcji widm fluorescencji poszczególnych fluoroforów, wraz z ich względnymi stężeniami w każdej z próbek, można zastosować wielowymiarowe metody rozdzielczości krzywych, zasadniczo bez mieszania. całkowite widmo fluorescencji na udziały poszczególnych składników. Problem jest zwykle nierozstrzygnięty ze względu na rotacyjną niejednoznaczność (wiele możliwych rozwiązań może równoważnie reprezentować zmierzone dane), dlatego powszechne jest stosowanie dodatkowych ograniczeń, takich jak nieujemność, unimodalność lub znane współzależności między poszczególnymi składnikami (np. ograniczenia kinetyczne lub równowagi masy).

Inne techniki

Projektowanie eksperymentów pozostaje głównym obszarem badań w chemometrii, a kilka monografii poświęcono konkretnie projektowaniu eksperymentów w zastosowaniach chemicznych. Solidne zasady projektowania eksperymentów zostały szeroko przyjęte w społeczności chemometrów, chociaż wiele złożonych eksperymentów ma charakter czysto obserwacyjny i może być niewielka kontrola nad właściwościami i wzajemnymi zależnościami próbek i właściwości próbek.

Przetwarzanie sygnału jest również krytycznym elementem prawie wszystkich aplikacji chemometrycznych, w szczególności stosowania obróbki wstępnej sygnału do kondycjonowania danych przed kalibracją lub klasyfikacją. Techniki powszechnie stosowane w chemometrii są często blisko spokrewnione z technikami stosowanymi w dziedzinach pokrewnych. Wstępne przetwarzanie sygnału może wpływać na sposób interpretacji wyników końcowego przetwarzania danych.

Charakterystyka wyników i liczby zasług Jak większość dziedzin nauk fizycznych, chemometria jest zorientowana ilościowo, dlatego duży nacisk kładzie się na charakterystykę wyników, wybór modelu, weryfikację i walidację oraz liczby zasług . Wydajność modeli ilościowych jest zwykle określana przez pierwiastek błędu średniokwadratowego w przewidywaniu atrybutu będącego przedmiotem zainteresowania oraz wydajność klasyfikatorów jako pary stóp prawda-dodatnia/fałszywie-dodatnia (lub pełna krzywa ROC). Ostatni raport Olivieri et al. zapewnia kompleksowy przegląd liczb szacowania zasług i niepewności w kalibracji wielowymiarowej, w tym wielowymiarowe definicje selektywności, czułości, SNR i szacowania przedziału predykcji. Wybór modelu chemometrycznego zwykle wiąże się z użyciem narzędzi, takich jak resampling (w tym bootstrap, permutacja, walidacja krzyżowa).

Wielowymiarowa statystyczna kontrola procesu (MSPC) , modelowanie i optymalizacja stanowią istotny element historycznego rozwoju chemometrii. Spektroskopia jest z powodzeniem stosowana do monitorowania procesów produkcyjnych w trybie online od 30–40 lat, a te dane procesowe są bardzo podatne na modelowanie chemometryczne. Szczególnie pod względem MSPC, wielokierunkowe modelowanie procesów wsadowych i ciągłych jest coraz bardziej powszechne w przemyśle i pozostaje aktywnym obszarem badań w dziedzinie chemometrii i inżynierii chemicznej. Chemia analityczna procesów, jak to pierwotnie nazywano, lub nowsza technologia analityczna procesów, nadal w dużym stopniu opiera się na metodach chemometrycznych i MSPC.

Metody wielokierunkowe są intensywnie wykorzystywane w zastosowaniach chemometrycznych. Są to rozszerzenia wyższego rzędu szerzej stosowanych metod. Na przykład, podczas gdy analiza tabeli (macierzy lub tablicy drugiego rzędu) danych jest rutynowa w kilku dziedzinach, metody wielokierunkowe są stosowane do zestawów danych obejmujących 3, 4 lub wyższe rzędy. Dane tego typu są bardzo powszechne w chemii, na przykład system chromatografii cieczowej/spektrometrii masowej (LC-MS) generuje dużą macierz danych (czas elucji w funkcji m/z) dla każdej analizowanej próbki. Dane z wielu próbek stanowią zatem kostkę danych . Modelowanie procesów wsadowych obejmuje zestawy danych, które mają czas, zmienne procesu i numer partii. Wielokierunkowe metody matematyczne stosowane do tego rodzaju problemów obejmują PARAFAC , rozkład trójliniowy oraz wielokierunkowe PLS i PCA.

Bibliografia

Dalsza lektura

  • Pszczoła, KR; Pell, RJ; Seasholtz, MB (1998). Chemometria: praktyczny przewodnik . Wileya.
  • Brereton, RG (2007). Chemometria stosowana dla naukowców . Wileya.
  • Brązowy, SD; Tauler, R.; Walczak, B., wyd. (2009). Kompleksowa Chemometria: Analiza Danych Chemicznych i Biochemicznych . Zestaw 4 głośności. Elsevier.
  • Gemperline, PJ, wyd. (2006). Praktyczny przewodnik po chemometrii (wyd. 2). CRC Prasa.
  • Kramer, R. (1998). Techniki chemometryczne do analizy ilościowej . CRC Prasa.
  • Maeder, M.; Neuhold, J.-M. (2007). Praktyczna analiza danych w chemii . Elsevier.
  • Mark, H.; Workman, J. (2007). Chemometria w spektroskopii . Prasa akademicka-Elsevier.
  • Martens, H.; Naes, T. (1989). Kalibracja wielowymiarowa . Wileya.
  • Massart, DL; Vandeginste, BGM; Deminga, SM; Michotte, Y.; Kaufman, L. (1988). Chemometria: podręcznik . Elsevier.
  • Otto, M. (2007). Chemometria: statystyka i zastosowanie komputera w chemii analitycznej (wyd. 2). Wiley-VCH.
  • Vandeginste, BGM; Massart, DL; Kupdens, LKM; De Jong, S.; Lewi, PJ; Smeyers-Verbeke, J. (1998). Podręcznik Chemometrii i Qualimetrii: Część A i Część B . Elsevier.

Zewnętrzne linki