Wyszukiwanie informacji multimedialnych - Multimedia information retrieval

Multimedialne wyszukiwanie informacji ( MMIR lub MIR ) to dyscyplina naukowa informatyki, której celem jest wydobywanie informacji semantycznych ze źródeł multimedialnych . Źródła danych obejmują bezpośrednio dostrzegalne media, takie jak audio , obraz i wideo , źródła dostrzegalne pośrednio, takie jak tekst , opisy semantyczne, biosygnały, a także źródła niewidoczne, takie jak bioinformacje, ceny akcji itp. Metodologię MMIR można podzielić na trzy grupy :

Metody podsumowania treści medialnych ( ekstrakcja cech ). Wynikiem ekstrakcji cech jest opis.
Metody filtrowania opisów mediów (na przykład eliminacja redundancji )
Metody kategoryzacji opisów mediów na klasy.

Metody ekstrakcji cech

Wyodrębnianie cech motywuje sam rozmiar obiektów multimedialnych, a także ich nadmiarowość i ewentualnie hałaśliwość. Ogólnie rzecz biorąc, dwa możliwe cele można osiągnąć poprzez wyodrębnianie cech:

Podsumowanie treści medialnych. Metody podsumowania obejmują w dziedzinie audio, na przykład, współczynniki cepstralne o częstotliwości mel, współczynnik przejścia przez zero, energię krótkotrwałą. W dziedzinie wizualnej do podsumowania można użyć histogramów kolorów, takich jak MPEG-7 Scalable Color Descriptor.
Wykrywanie wzorców za pomocą autokorelacji i / lub korelacji krzyżowej . Wzorce to powtarzające się fragmenty multimediów, które można wykryć porównując fragmenty pod względem wymiarów multimediów (czas, przestrzeń itp.) Lub porównując fragmenty multimediów z szablonami (np. Szablony twarzy, frazy). Typowe metody obejmują liniowe kodowanie predykcyjne w dziedzinie audio / biosygnałów, opis tekstur w domenie wizualnej i n-gramów w wyszukiwaniu informacji tekstowych.

Scalanie i filtrowanie metod

Odzyskiwanie informacji multimedialnych oznacza, że do zrozumienia treści multimedialnych wykorzystywanych jest wiele kanałów. Każdy z tych kanałów jest opisany przez transformacje funkcji specyficznych dla mediów. Wynikowe opisy należy scalić w jeden opis na obiekt multimedialny. Scalanie można przeprowadzić za pomocą prostej konkatenacji, jeśli opisy mają stały rozmiar. Opisy o zmiennej wielkości - ponieważ często występują w opisach ruchu - należy najpierw znormalizować do stałej długości.

Często stosowane metody filtrowania opisu obejmują analizę czynnikową (np. Metodą PCA), dekompozycję wartości osobliwych (np. Jako ukryte indeksowanie semantyczne w wyszukiwaniu tekstu) oraz ekstrakcję i testowanie momentów statystycznych. Do łączenia opisów używane są zaawansowane koncepcje, takie jak filtr Kalmana .

Metody kategoryzacji

Ogólnie rzecz biorąc, do kategoryzacji opisów multimedialnych można zastosować wszystkie formy uczenia maszynowego, chociaż niektóre metody są częściej stosowane w jednym obszarze niż w innym. Na przykład, ukryte modele Markowa są najnowocześniejsze w rozpoznawaniu mowy , podczas gdy dynamiczne dopasowanie czasu - metoda semantycznie powiązana - jest najnowocześniejszą metodą dopasowywania sekwencji genów. Lista odpowiednich klasyfikatorów obejmuje:

Podejścia metryczne ( analiza skupień , model przestrzeni wektorowej , odległości Minkowskiego , wyrównanie dynamiczne)
Metody najbliższego sąsiada (algorytm K-najbliższych sąsiadów , K-średnie, samoorganizująca się mapa )
Minimalizacja ryzyka (regresja wektora nośnego, maszyna wektorów nośnych , liniowa analiza dyskryminacyjna )
Metody oparte na gęstości (sieci Bayesa, procesy Markowa , modele mieszanin)
Sieci neuronowe ( perceptron , pamięci asocjacyjne, sieci kolczaste)
Heurystyka ( drzewa decyzyjne , losowe lasy itp.)

Wybór najlepszego klasyfikatora do danego problemu (zestaw testowy z opisami i etykietami klas, tzw. Prawda gruntu ) może odbywać się automatycznie, np. Przy pomocy Weka Data Miner.

Otwarte problemy

Jakość systemów MMIR zależy w dużym stopniu od jakości danych szkoleniowych. Opisy dyskryminujące można wyodrębnić ze źródeł medialnych w różnych formach. Uczenie maszynowe zapewnia metody kategoryzacji dla wszystkich typów danych. Jednak klasyfikator może być tylko tak dobry, jak podane dane szkoleniowe. Z drugiej strony zapewnienie etykiet klas dla dużych baz danych wymaga znacznego wysiłku. Przyszły sukces MMIR będzie zależał od dostarczenia takich danych. Coroczny konkurs TRECVID jest obecnie jednym z najbardziej odpowiednich źródeł wysokiej jakości informacji o gruncie.

Powiązane obszary

MMIR zawiera przegląd metod stosowanych w obszarach wyszukiwania informacji. Metody z jednego obszaru są adaptowane i stosowane na innych typach mediów. Treść multimedialna jest łączona przed dokonaniem klasyfikacji. Dlatego metody MMIR są zwykle ponownie wykorzystywane z innych dziedzin, takich jak:

International Journal of Multimedia wyszukiwania informacji dokumentuje rozwój MMIR jako dyscypliny badawczej, która jest niezależna od tych obszarach. Pełne omówienie tej dyscypliny badawczej znajduje się również w Podręczniku wyszukiwania informacji multimedialnych .

Languages

In other projects