AlexNet - AlexNet

Porównanie splotu LeNet i AlexNet, puli i warstw gęstych

AlexNet to nazwa architektury konwolucyjnej sieci neuronowej (CNN), zaprojektowanej przez Alexa Krizhevsky'ego we współpracy z Ilyą Sutskever i Geoffreyem Hintonem , który był doktorem Krizhevsky'ego. doradca.

AlexNet wziął udział w konkursie ImageNet Large Scale Visual Recognition Challenge 30 września 2012 roku. Sieć osiągnęła błąd pierwszej piątki na poziomie 15,3%, o ponad 10,8 punktów procentowych niższy niż błąd w drugiej. Podstawowym rezultatem pracy oryginalnej było to, że głębokość modelu było istotne dla jego wysokiej wydajności, co było kosztowne obliczeniowo, ale wykonane wykonalne ze względu na wykorzystanie procesory graficzne (GPU) podczas treningu.

Kontekst historyczny

AlexNet nie był pierwszą szybką implementacją CNN na GPU, która wygrała konkurs rozpoznawania obrazu. CNN na GPU autorstwa K. Chellapilla et al. (2006) był 4 razy szybszy niż równoważna implementacja na CPU. Głębokie CNN Dana Cireșana i in. (2011) na IDSIA był już 60 razy szybszy i osiągnął nadludzką wydajność w sierpniu 2011. Pomiędzy 15 maja 2011 a 10 września 2012 ich CNN wygrało aż cztery konkursy wizerunkowe. Znacząco poprawiły się również w zakresie najlepszej wydajności w literaturze dla wielu baz danych obrazów .

Według gazety AlexNet, wcześniejsza sieć Cireșan jest „trochę podobna”. Oba zostały pierwotnie napisane w CUDA, aby działały z obsługą GPU . W rzeczywistości oba są tylko wariantami projektów CNN wprowadzonych przez Yanna LeCuna i in. (1989), który zastosował algorytm wstecznej propagacji błędów do wariantu oryginalnej architektury CNN Kunihiko Fukushimy o nazwie „ neocognitron ”. Architektura została później zmodyfikowana metodą J. Wenga o nazwie max-pooling .

W 2015 r. AlexNet został pokonany przez bardzo głęboką CNN firmy Microsoft Research Asia z ponad 100 warstwami, która wygrała konkurs ImageNet 2015.

Projekt sieci

AlexNet zawierał osiem warstw; pierwsze pięć było warstwami splotowymi , po niektórych z nich następowały warstwy z maksymalną pulą , a ostatnie trzy były warstwami w pełni połączonymi. Stosowany w nienasycających Relu funkcji aktywacji, które wykazało poprawę Performance nad Tanh i esicy .

Wpływ

AlexNet jest uważany za jeden z najbardziej wpływowych artykułów publikowanych w dziedzinie wizji komputerowej, ponieważ zachęcił do opublikowania wielu innych artykułów wykorzystujących CNN i GPU w celu przyspieszenia głębokiego uczenia się. Według Google Scholar do 2021 r. artykuł AlexNet był cytowany ponad 80 000 razy.

Bibliografia