Hipoteza istotności V1 — V1 Saliency Hypothesis

V1 Saliency Hipoteza lub V1SH (pronounced'vish ') jest teoria o V1 do pierwotnej korze wzrokowej (V1) . Sugeruje, że V1 u naczelnych tworzy mapę wyrazistości pola widzenia, aby kierować uwagę wzrokową lub egzogenicznie zmieniać spojrzenia.

Znaczenie

V1SH jest jak dotąd jedyną teorią, która nie tylko nadaje V1 bardzo ważną funkcję poznawczą, ale także dostarcza wielu nietrywialnych przewidywań teoretycznych, które zostały następnie potwierdzone eksperymentalnie. Według V1SH, V1 tworzy mapę istotności z wejść siatkówkowych, aby kierować uwagą wzrokową lub zmianami spojrzenia. Anatomicznie, V1 jest bramą dla wzrokowych wejść siatkówkowych do kory nowej , a także jest największym obszarem korowym przeznaczonym do widzenia. W latach sześćdziesiątych David Hubel i Torsten Wiesel odkryli, że neurony V1 są aktywowane przez maleńkie plamki obrazu, które są wystarczająco duże, aby przedstawiać mały pasek, ale nie dostrzegalną twarz. Ta praca doprowadziła do nagrody Nobla, a od tego czasu V1 jest postrzegany jako pełniący jedynie funkcję zaplecza ( przetwarzania obrazu ) do późniejszego przetwarzania poznawczego w mózgu poza V1. Jednak Hubel i Wiesel skomentowali pół wieku później, że od tego czasu poczyniono niewielkie postępy w zrozumieniu późniejszego przetwarzania wizualnego. Poza ramami tradycyjnych poglądów, V1SH katalizuje zmianę ram, aby umożliwić nowe postępy w zrozumieniu wizji.

Widzieć

Pierwotna kora wzrokowa
Pierwotna kora wzrokowa

gdzie pierwotna kora wzrokowa znajduje się w mózgu i w stosunku do oczu.

V1SH stwierdza, że ​​V1 przekształca sygnały wizualne w mapę istotności pola widzenia, aby kierować uwagą wzrokową lub kierunkiem spojrzenia. Ludzie są zasadniczo ślepi na bodźce wzrokowe poza ich oknem uwagi . Dlatego bramy uwagi wzrokowej percepcji i świadomości , a teorie uwagi wzrokowej są podstawą teorii funkcji wzrokowych w mózgu.

Mapa istotności jest z definicji obliczona lub spowodowana przez zewnętrzne informacje wizualne, a nie czynniki wewnętrzne, takie jak oczekiwania lub cele zwierzęcia (np. przeczytanie książki). Dlatego mówi się, że mapa istotności kieruje uwagę egzogenicznie, a nie endogenicznie . W związku z tym ta mapa istotności jest również nazywana oddolną mapą istotności, aby kierować odruchowymi lub mimowolnymi zmianami uwagi . Na przykład, gdy czytamy książkę, kieruje nasz wzrok w kierunku owada lecącego w naszym peryferyjnym polu widzenia. Zauważ, że ta mapa istotności, która jest tworzona przez biologiczny lub naturalny mózg, nie jest tym samym rodzajem mapy istotności, która jest zaprojektowana w sztucznym lub komputerowym widzeniu, częściowo dlatego, że sztuczne mapy istotności często zawierają czynniki naprowadzania uwagi, które są endogeniczne w Natura.

Na tej (biologicznej) mapie istotności pola widzenia każda wizualna lokalizacja ma wartość istotności. Wartość tę określa się jako siłę tej lokalizacji do egzogenicznego przyciągania uwagi. Więc jeśli lokalizacja A ma wyższą wartość istotności niż lokalizacja B, wtedy lokalizacja A z większym prawdopodobieństwem przyciągnie uwagę wzrokową lub spojrzy w jej kierunku niż lokalizacja B. W V1 każdy neuron może być aktywowany tylko przez sygnały wizualne w małym obszarze pole widzenia. Ten obszar nazywany jest polem receptywnym tego neuronu i zazwyczaj obejmuje nie więcej niż rozmiar monety na wyciągnięcie ręki. Sąsiednie neurony V1 mają sąsiadujące i nakładające się pola receptywne. Dlatego każda lokalizacja wizualna może jednocześnie aktywować wiele neuronów V1. Według V1SH, najbardziej aktywowany neuron spośród tych neuronów sygnalizuje wartość istotności w tym miejscu poprzez swoją aktywność neuronową. Na reakcję neuronu V1 na bodźce wzrokowe w jego polu receptywnym wpływają również bodźce wzrokowe poza polem odbiorczym. Stąd wartość istotności w każdej lokalizacji zależy od wizualnego kontekstu wejściowego. Tak powinno być, ponieważ istotność zależy od kontekstu. Na przykład pionowy pasek jest wyraźny w obrazie, na którym wszystkie inne elementy wizualne otaczające go są poziomymi paskami, ale ten sam pionowy pasek nie jest wyraźny, jeśli te inne elementy są zamiast tego pionowymi paskami.

Mechanizmy neuronowe w V1 do generowania mapy istotności

Mapa Salience: reprezentowana przez mapę maksymalnych odpowiedzi neuronalnych V1 na sygnały wizualne, jedna maksymalna odpowiedź na lokalizację wizualną

Powyższy rysunek przedstawia schemat mechanizmów neuronowych w V1 do generowania mapy istotności. W tym przykładzie obraz na siatkówce ma wiele fioletowych pasków, wszystkie zorientowane jednolicie (nachylone w prawo), z wyjątkiem jednego paska, który jest zorientowany jednoznacznie (nachylony w lewo). Ta orientacja singletona jest najbardziej wyrazista na tym obrazie, więc przyciąga uwagę lub spojrzenie, co zaobserwowano w eksperymentach psychologicznych. W V1 wiele neuronów ma swoje preferowane orientacje dla sygnałów wizualnych. Na przykład reakcja neuronu na słupek w jego polu receptywnym jest wyższa, gdy słupek ten jest zorientowany w preferowanej orientacji. Analogicznie wiele neuronów V1 ma swoje preferowane kolory. Na tym schemacie każdy pasek wejściowy do siatkówki aktywuje dwa (grupy) neuronów V1, jeden preferuje swoją orientację, a drugi jego kolor. Odpowiedzi neuronów aktywowanych przez ich preferowane orientacje w ich polach odbiorczych są wizualizowane na schemacie za pomocą czarnych kropek na płaszczyźnie reprezentującej odpowiedzi neuronalne V1. Podobnie odpowiedzi neuronów aktywowanych przez ich preferowane kolory w ich polach receptywnych są wizualizowane przez fioletowe kropki. Rozmiary kropek wizualizują siłę odpowiedzi neuronalnych V1. W tym przykładzie największa odpowiedź pochodzi od neuronów preferujących i reagujących na wyjątkowo zorientowany słupek. Dzieje się tak z powodu tłumienia izoorientacji: gdy dwa neurony V1 znajdują się blisko siebie i mają takie same lub podobne preferowane orientacje, mają tendencję do tłumienia swoich działań. Dlatego wśród grupy neuronów, które preferują i reagują na jednolicie zorientowane paski tła, każdy neuron otrzymuje tłumienie izoorientacji od innych neuronów z tej grupy. Tymczasem neuron odpowiadający na orientację singleton nie należy do tej grupy i tym samym wymyka się tej supresji, stąd jego odpowiedź jest wyższa niż pozostałe odpowiedzi neuronalne. Tłumienie izo-koloru jest analogiczne do tłumienia izo-orientacji, więc wszystkie neurony preferujące i reagujące na fioletowe kolory pasków wejściowych podlegają tłumieniu izo-koloru. Zgodnie z V1SH, maksymalna odpowiedź w lokalizacji każdego słupka reprezentuje wartość istotności w lokalizacji każdego słupka. Ta wartość istotności jest zatem najwyższa w lokalizacji singletona orientacji i jest reprezentowana przez odpowiedź neuronów preferujących i odpowiadających na orientację tego singletona. Te wartości istotności są wysyłane do górnego wzgórka , obszaru śródmózgowia , w celu wykonania przesunięcia spojrzenia do pola receptywnego najbardziej aktywowanego neuronu, który odpowiada na wzrokową przestrzeń wejściową. Stąd dla tego obrazu wejściowego na powyższym rysunku singleton orientacji, który wywołuje najwyższą odpowiedź V1 na ten obraz, przyciąga wzrok lub spojrzenie.

V1SH wyjaśnia dane behawioralne dotyczące wyszukiwania/segmentacji wizualnej

V1SH może wyjaśniać dane dotyczące wyszukiwania wizualnego , takie jak krótkie czasy odpowiedzi w celu znalezienia wyjątkowo czerwonego elementu wśród zielonych elementów, unikalnego pionowego paska wśród poziomych pasków lub elementu unikalnie przesuwającego się w prawo wśród elementów przesuwających się w lewo. Tego rodzaju wyszukiwania wizualne są nazywane wyszukiwaniami funkcji , gdy cel wyszukiwania jest unikalny pod względem podstawowej wartości funkcji, takiej jak orientacja, kolor lub kierunek ruchu. Krótszy czas odpowiedzi wyszukiwania oznacza wyższą wartość istotności w lokalizacji celu wyszukiwania, aby przyciągnąć uwagę. V1SH wyjaśnia również, dlaczego znalezienie unikalnego czerwono-pionowego paska między czerwonymi poziomymi i zielono-pionowymi paskami zajmuje więcej czasu. Jest to przykład wyszukiwania koniunkcyjnego, gdy cel wyszukiwania jest unikalny tylko dzięki połączeniu dwóch cech, z których każda jest obecna w scenie wizualnej.

Maskowanie wyraźnej granicy między dwiema teksturami poprzez dodanie jednolitej tekstury

Ponadto V1SH wyjaśnia dane, które są trudne do wyjaśnienia za pomocą alternatywnych ram. Powyższy rysunek ilustruje przykład: dwie sąsiednie tekstury w A, jedna wykonana z równomiernie nachylonych w lewo pasków, a druga z równomiernie nachylonych w prawo, są bardzo łatwe do oddzielenia od siebie ludzkim wzrokiem. Dzieje się tak, ponieważ paski tekstury na granicy między dwiema teksturami wywołują najwyższe reakcje neuronowe V1 (ponieważ są one najmniej tłumione przez tłumienie izoorientacji), dlatego paski graniczne są najbardziej wyraziste na obrazie, aby przyciągnąć uwagę do granicy . Jednak segmentacja staje się znacznie trudniejsza, jeśli tekstura w B zostanie nałożona na oryginalny obraz w A (wynik przedstawiono w C). Dzieje się tak dlatego, że w lokalizacjach tekstur bez granic odpowiedzi neuronowe V1 na słupki poziome i pionowe (od B) są wyższe niż na słupki ukośne (od A); te wyższe odpowiedzi dyktują i podnoszą wartości istotności w tych lokalizacjach poza granicami, sprawiając, że granica nie jest już tak konkurencyjna pod względem istotności.

Spór

Uchwycenie wzroku przez ocznego singletona
Uchwycenie wzroku przez ocznego singletona

V1SH został zaproponowany pod koniec lat 90-tych przez Li Zhaopinga . Początkowo nie miało to wpływu, ponieważ przez dziesięciolecia uważano, że kierowanie uwagą jest zasadniczo lub tylko kontrolowane przez obszary mózgu wyższego poziomu. Te obszary mózgu wyższego poziomu obejmują przednie pole oka i obszary kory ciemieniowej w przedniej i bardziej przedniej części mózgu i uważa się, że są one inteligentne w zakresie kontroli uwagi i wykonawczej . Ponadto pierwotna kora wzrokowa, V1, zlokalizowana w płacie potylicznym w tylnej lub tylnej części mózgu, tradycyjnie uważana jest za obszar wzrokowy niskiego poziomu, który odgrywa głównie rolę wspierającą dla innych obszarów mózgu ze względu na ich ważniejsze funkcje wizualne. Opinie zaczęły się zmieniać od zaskakującego fragmentu danych behawioralnych: przedmiot wyjątkowo widoczny na jedno oko wśród podobnie wyglądających przedmiotów pokazanych drugiemu oku (przy użyciu np. okularów do oglądania filmów 3D ) może automatycznie przyciągnąć wzrok lub uwagę. Przykład jest zilustrowany na tym rysunku. Tutaj obraz zawierający pojedynczą literę „X” jest pokazywany dla prawego oka, a inny obraz zawierający tablicę tych samych „X” i literę „O” jest pokazywany dla lewego oka. W takiej sytuacji, ludzcy obserwatorzy zwykle postrzegają obraz przypominający superpozycję dwóch obrazów jednookularowych, tak że widzą układ wszystkich „X” i pojedynczego „O”. Znak „X” wyłaniający się z obrazu prawego oka nie będzie wyróżniał się. Niemniej jednak, nawet gdy wykonują zadanie poszukiwania (w swoim postrzeganym obrazie) unikalnego i percepcyjnie wyróżniającego się „O” tak szybko, jak to możliwe, ich wzrok automatycznie lub mimowolnie przenosi się na „X” powstające z obrazu prawego oka, często zanim ich wzrok przeniesie się na „O”. Ta obserwacja była sprzeczna z intuicją, została łatwo odtworzona przez innych badaczy wizji i została jednoznacznie przewidziana przez V1SH. Ponieważ V1 jest jedynym wizualnym obszarem korowym z neuronami dostrojonymi do oka pochodzenia bodźców wzrokowych, obserwacja ta silnie wspiera rolę V1 w kierowaniu uwagą.

Następnie przeprowadzono więcej eksperymentów w celu dalszego zbadania V1SH, a dane pomocnicze wyłoniły się z funkcjonalnego obrazowania mózgu, psychofizyki wzrokowej i elektrofizjologii małp. Od tego czasu V1SH stał się bardziej popularny w wystąpieniach zaproszonych i przemówieniach na różnych prestiżowych międzynarodowych konferencjach naukowych. V1 jest obecnie postrzegany jako jeden z kamieni węgielnych sieci mózgowych mechanizmów uwagi, a jego funkcjonalna rola w kierowaniu uwagą wzrokową pojawia się w podręcznikach i podręcznikach. Jednak niektóre dane elektrofizjologiczne małp potwierdzające V1SH są sprzeczne z poprzednim fragmentem danych elektrofizjologicznych małp. Zhaoping przekonuje, że jeśli V1SH jest poprawne, idee dotyczące działania systemu wizualnego , a co za tym idzie pytania, które należy zadać w przyszłych badaniach nad wzrokiem, powinny zostać fundamentalnie zmienione.

Bibliografia