Wzrokowa uwaga czasowa - Visual temporal attention

Klatki wideo z kategorii działań na poręczach równoległych w zestawie danych UCF-101 (a) Cztery klatki o najwyższym rankingu pod względem wag uwagi czasowej wideo , w których sportowiec występuje na poręczach równoległych; (b) Cztery klatki o najniższym rankingu w czasowej wadze uwagi wideo , w których zawodnik stoi na ziemi. Wszystkie wagi są przewidywane przez algorytm ATW CNN. Bardzo ważone klatki wideo zazwyczaj rejestrują najbardziej charakterystyczne ruchy związane z kategorią akcji.

Wzrokowa uwaga czasowa to szczególny przypadek uwagi wzrokowej, która polega na skierowaniu uwagi na określony moment. Podobnie jak jego przestrzenny odpowiednik wzrokowo-przestrzenna uwaga , te moduły uwagi zostały szeroko zaimplementowane w analityce wideo w wizji komputerowej, aby zapewnić lepszą wydajność i zrozumiałe dla człowieka wyjaśnienie modeli głębokiego uczenia się .

Ponieważ mechanizm wizualnej uwagi przestrzennej pozwala ludzkim i/lub komputerowym systemom wizyjnym skupić się bardziej na semantycznie bardziej istotnych obszarach w przestrzeni, moduły wzrokowo-czasowej uwagi umożliwiają algorytmom uczenia maszynowego większy nacisk na krytyczne klatki wideo w zadaniach analizy wideo , takich jak rozpoznawanie ludzkich działań . W systemach opartych na splotowych sieciach neuronowych priorytetyzacja wprowadzana przez mechanizm uwagi jest regularnie implementowana jako liniowa warstwa ważenia z parametrami określanymi przez oznakowane dane treningowe.

Aplikacja w rozpoznawaniu działań

Architektura ATW CNN. Do przetwarzania przestrzennych obrazów RGB, czasowych obrazów przepływu optycznego i czasowo zniekształconych obrazów przepływu optycznego wykorzystywane są trzy strumienie CNN. Używany jest model uwagi do przypisywania wag czasowych między fragmentami dla każdego strumienia/modalności. Suma ważona służy do łączenia prognoz z trzech strumieni/modalności.

Najnowsze algorytmy segmentacji wideo często wykorzystują zarówno przestrzenne, jak i czasowe mechanizmy uwagi. Badania nad rozpoznawaniem ludzkich działań znacznie przyspieszyły od czasu wprowadzenia potężnych narzędzi, takich jak Convolutional Neural Networks (CNN) . Jednak nadal aktywnie badane są skuteczne metody włączania informacji czasowych do sieci CNN. Motywowana popularnymi modelami uwagi nawracającej w przetwarzaniu języka naturalnego , w filmach proponuje się świadomą uwagi Temporal Weighted CNN (ATW CNN), która osadza wizualny model uwagi w czasowo ważonej wielostrumieniowej CNN. Ten model uwagi jest zaimplementowany jako ważenie czasowe i skutecznie zwiększa wydajność rozpoznawania reprezentacji wideo. Poza tym każdy strumień w proponowanej strukturze ATW CNN jest zdolny do kompleksowego szkolenia, z parametrami sieci i wagami czasowymi zoptymalizowanymi przez stochastyczne zejście gradientowe (SGD) z propagacją wsteczną . Wyniki eksperymentalne pokazują, że mechanizm uwagi ATW CNN znacząco przyczynia się do wzrostu wydajności dzięki bardziej dyskryminującym fragmentom, skupiając się na bardziej odpowiednich segmentach wideo.

Languages

In other projects

Wzrokowa uwaga czasowa - Visual temporal attention

Aplikacja w rozpoznawaniu działań

Zobacz też

Bibliografia