Wyszukiwanie informacji multimedialnych - Multimedia information retrieval
Multimedialne wyszukiwanie informacji ( MMIR lub MIR ) to dyscyplina naukowa informatyki, której celem jest wydobywanie informacji semantycznych ze źródeł multimedialnych . Źródła danych obejmują bezpośrednio dostrzegalne media, takie jak audio , obraz i wideo , źródła dostrzegalne pośrednio, takie jak tekst , opisy semantyczne, biosygnały, a także źródła niewidoczne, takie jak bioinformacje, ceny akcji itp. Metodologię MMIR można podzielić na trzy grupy :
- Metody podsumowania treści medialnych ( ekstrakcja cech ). Wynikiem ekstrakcji cech jest opis.
- Metody filtrowania opisów mediów (na przykład eliminacja redundancji )
- Metody kategoryzacji opisów mediów na klasy.
Metody ekstrakcji cech
Wyodrębnianie cech motywuje sam rozmiar obiektów multimedialnych, a także ich nadmiarowość i ewentualnie hałaśliwość. Ogólnie rzecz biorąc, dwa możliwe cele można osiągnąć poprzez wyodrębnianie cech:
- Podsumowanie treści medialnych. Metody podsumowania obejmują w dziedzinie audio, na przykład, współczynniki cepstralne o częstotliwości mel, współczynnik przejścia przez zero, energię krótkotrwałą. W dziedzinie wizualnej do podsumowania można użyć histogramów kolorów, takich jak MPEG-7 Scalable Color Descriptor.
- Wykrywanie wzorców za pomocą autokorelacji i / lub korelacji krzyżowej . Wzorce to powtarzające się fragmenty multimediów, które można wykryć porównując fragmenty pod względem wymiarów multimediów (czas, przestrzeń itp.) Lub porównując fragmenty multimediów z szablonami (np. Szablony twarzy, frazy). Typowe metody obejmują liniowe kodowanie predykcyjne w dziedzinie audio / biosygnałów, opis tekstur w domenie wizualnej i n-gramów w wyszukiwaniu informacji tekstowych.
Scalanie i filtrowanie metod
Odzyskiwanie informacji multimedialnych oznacza, że do zrozumienia treści multimedialnych wykorzystywanych jest wiele kanałów. Każdy z tych kanałów jest opisany przez transformacje funkcji specyficznych dla mediów. Wynikowe opisy należy scalić w jeden opis na obiekt multimedialny. Scalanie można przeprowadzić za pomocą prostej konkatenacji, jeśli opisy mają stały rozmiar. Opisy o zmiennej wielkości - ponieważ często występują w opisach ruchu - należy najpierw znormalizować do stałej długości.
Często stosowane metody filtrowania opisu obejmują analizę czynnikową (np. Metodą PCA), dekompozycję wartości osobliwych (np. Jako ukryte indeksowanie semantyczne w wyszukiwaniu tekstu) oraz ekstrakcję i testowanie momentów statystycznych. Do łączenia opisów używane są zaawansowane koncepcje, takie jak filtr Kalmana .
Metody kategoryzacji
Ogólnie rzecz biorąc, do kategoryzacji opisów multimedialnych można zastosować wszystkie formy uczenia maszynowego, chociaż niektóre metody są częściej stosowane w jednym obszarze niż w innym. Na przykład, ukryte modele Markowa są najnowocześniejsze w rozpoznawaniu mowy , podczas gdy dynamiczne dopasowanie czasu - metoda semantycznie powiązana - jest najnowocześniejszą metodą dopasowywania sekwencji genów. Lista odpowiednich klasyfikatorów obejmuje:
- Podejścia metryczne ( analiza skupień , model przestrzeni wektorowej , odległości Minkowskiego , wyrównanie dynamiczne)
- Metody najbliższego sąsiada (algorytm K-najbliższych sąsiadów , K-średnie, samoorganizująca się mapa )
- Minimalizacja ryzyka (regresja wektora nośnego, maszyna wektorów nośnych , liniowa analiza dyskryminacyjna )
- Metody oparte na gęstości (sieci Bayesa, procesy Markowa , modele mieszanin)
- Sieci neuronowe ( perceptron , pamięci asocjacyjne, sieci kolczaste)
- Heurystyka ( drzewa decyzyjne , losowe lasy itp.)
Wybór najlepszego klasyfikatora do danego problemu (zestaw testowy z opisami i etykietami klas, tzw. Prawda gruntu ) może odbywać się automatycznie, np. Przy pomocy Weka Data Miner.
Otwarte problemy
Jakość systemów MMIR zależy w dużym stopniu od jakości danych szkoleniowych. Opisy dyskryminujące można wyodrębnić ze źródeł medialnych w różnych formach. Uczenie maszynowe zapewnia metody kategoryzacji dla wszystkich typów danych. Jednak klasyfikator może być tylko tak dobry, jak podane dane szkoleniowe. Z drugiej strony zapewnienie etykiet klas dla dużych baz danych wymaga znacznego wysiłku. Przyszły sukces MMIR będzie zależał od dostarczenia takich danych. Coroczny konkurs TRECVID jest obecnie jednym z najbardziej odpowiednich źródeł wysokiej jakości informacji o gruncie.
Powiązane obszary
MMIR zawiera przegląd metod stosowanych w obszarach wyszukiwania informacji. Metody z jednego obszaru są adaptowane i stosowane na innych typach mediów. Treść multimedialna jest łączona przed dokonaniem klasyfikacji. Dlatego metody MMIR są zwykle ponownie wykorzystywane z innych dziedzin, takich jak:
- Analiza bioinformacyjna
- Przetwarzanie sygnałów biologicznych
- Pobieranie obrazów i wideo w oparciu o zawartość
- Rozpoznawanie twarzy
- Klasyfikacja audio i muzyki (wyszukiwanie informacji muzycznych)
- Automatyczne rozpoznawanie treści
- Rozpoznawanie mowy
- Analiza wykresów technicznych
- Przeglądanie filmów
- Pobieranie informacji tekstowych
- Pobieranie obrazu
- Nauka rangi
International Journal of Multimedia wyszukiwania informacji dokumentuje rozwój MMIR jako dyscypliny badawczej, która jest niezależna od tych obszarach. Pełne omówienie tej dyscypliny badawczej znajduje się również w Podręczniku wyszukiwania informacji multimedialnych .