Wzrokowa uwaga czasowa - Visual temporal attention
Wzrokowa uwaga czasowa to szczególny przypadek uwagi wzrokowej, która polega na skierowaniu uwagi na określony moment. Podobnie jak jego przestrzenny odpowiednik wzrokowo-przestrzenna uwaga , te moduły uwagi zostały szeroko zaimplementowane w analityce wideo w wizji komputerowej, aby zapewnić lepszą wydajność i zrozumiałe dla człowieka wyjaśnienie modeli głębokiego uczenia się .
Ponieważ mechanizm wizualnej uwagi przestrzennej pozwala ludzkim i/lub komputerowym systemom wizyjnym skupić się bardziej na semantycznie bardziej istotnych obszarach w przestrzeni, moduły wzrokowo-czasowej uwagi umożliwiają algorytmom uczenia maszynowego większy nacisk na krytyczne klatki wideo w zadaniach analizy wideo , takich jak rozpoznawanie ludzkich działań . W systemach opartych na splotowych sieciach neuronowych priorytetyzacja wprowadzana przez mechanizm uwagi jest regularnie implementowana jako liniowa warstwa ważenia z parametrami określanymi przez oznakowane dane treningowe.
Aplikacja w rozpoznawaniu działań
Najnowsze algorytmy segmentacji wideo często wykorzystują zarówno przestrzenne, jak i czasowe mechanizmy uwagi. Badania nad rozpoznawaniem ludzkich działań znacznie przyspieszyły od czasu wprowadzenia potężnych narzędzi, takich jak Convolutional Neural Networks (CNN) . Jednak nadal aktywnie badane są skuteczne metody włączania informacji czasowych do sieci CNN. Motywowana popularnymi modelami uwagi nawracającej w przetwarzaniu języka naturalnego , w filmach proponuje się świadomą uwagi Temporal Weighted CNN (ATW CNN), która osadza wizualny model uwagi w czasowo ważonej wielostrumieniowej CNN. Ten model uwagi jest zaimplementowany jako ważenie czasowe i skutecznie zwiększa wydajność rozpoznawania reprezentacji wideo. Poza tym każdy strumień w proponowanej strukturze ATW CNN jest zdolny do kompleksowego szkolenia, z parametrami sieci i wagami czasowymi zoptymalizowanymi przez stochastyczne zejście gradientowe (SGD) z propagacją wsteczną . Wyniki eksperymentalne pokazują, że mechanizm uwagi ATW CNN znacząco przyczynia się do wzrostu wydajności dzięki bardziej dyskryminującym fragmentom, skupiając się na bardziej odpowiednich segmentach wideo.
Zobacz też
- Uwaga
- wzrokowa uwaga przestrzenna
- Rozpoznawanie działań
- Analiza treści wideo
- Konwolucyjna sieć neuronowa
- Wizja komputerowa