Wzrokowa uwaga czasowa - Visual temporal attention

Klatki wideo z kategorii działań na poręczach równoległych w zestawie danych UCF-101 (a) Cztery klatki o najwyższym rankingu pod względem wag uwagi czasowej wideo , w których sportowiec występuje na poręczach równoległych; (b) Cztery klatki o najniższym rankingu w czasowej wadze uwagi wideo , w których zawodnik stoi na ziemi. Wszystkie wagi są przewidywane przez algorytm ATW CNN. Bardzo ważone klatki wideo zazwyczaj rejestrują najbardziej charakterystyczne ruchy związane z kategorią akcji.

Wzrokowa uwaga czasowa to szczególny przypadek uwagi wzrokowej, która polega na skierowaniu uwagi na określony moment. Podobnie jak jego przestrzenny odpowiednik wzrokowo-przestrzenna uwaga , te moduły uwagi zostały szeroko zaimplementowane w analityce wideo w wizji komputerowej, aby zapewnić lepszą wydajność i zrozumiałe dla człowieka wyjaśnienie modeli głębokiego uczenia się .

Ponieważ mechanizm wizualnej uwagi przestrzennej pozwala ludzkim i/lub komputerowym systemom wizyjnym skupić się bardziej na semantycznie bardziej istotnych obszarach w przestrzeni, moduły wzrokowo-czasowej uwagi umożliwiają algorytmom uczenia maszynowego większy nacisk na krytyczne klatki wideo w zadaniach analizy wideo , takich jak rozpoznawanie ludzkich działań . W systemach opartych na splotowych sieciach neuronowych priorytetyzacja wprowadzana przez mechanizm uwagi jest regularnie implementowana jako liniowa warstwa ważenia z parametrami określanymi przez oznakowane dane treningowe.

Aplikacja w rozpoznawaniu działań

Architektura ATW CNN. Do przetwarzania przestrzennych obrazów RGB, czasowych obrazów przepływu optycznego i czasowo zniekształconych obrazów przepływu optycznego wykorzystywane są trzy strumienie CNN. Używany jest model uwagi do przypisywania wag czasowych między fragmentami dla każdego strumienia/modalności. Suma ważona służy do łączenia prognoz z trzech strumieni/modalności.

Najnowsze algorytmy segmentacji wideo często wykorzystują zarówno przestrzenne, jak i czasowe mechanizmy uwagi. Badania nad rozpoznawaniem ludzkich działań znacznie przyspieszyły od czasu wprowadzenia potężnych narzędzi, takich jak Convolutional Neural Networks (CNN) . Jednak nadal aktywnie badane są skuteczne metody włączania informacji czasowych do sieci CNN. Motywowana popularnymi modelami uwagi nawracającej w przetwarzaniu języka naturalnego , w filmach proponuje się świadomą uwagi Temporal Weighted CNN (ATW CNN), która osadza wizualny model uwagi w czasowo ważonej wielostrumieniowej CNN. Ten model uwagi jest zaimplementowany jako ważenie czasowe i skutecznie zwiększa wydajność rozpoznawania reprezentacji wideo. Poza tym każdy strumień w proponowanej strukturze ATW CNN jest zdolny do kompleksowego szkolenia, z parametrami sieci i wagami czasowymi zoptymalizowanymi przez stochastyczne zejście gradientowe (SGD) z propagacją wsteczną . Wyniki eksperymentalne pokazują, że mechanizm uwagi ATW CNN znacząco przyczynia się do wzrostu wydajności dzięki bardziej dyskryminującym fragmentom, skupiając się na bardziej odpowiednich segmentach wideo.


Zobacz też

Bibliografia