ImageNet - ImageNet

Projekt ImageNet to duża wizualna baza danych przeznaczona do wykorzystania w badaniach oprogramowania do rozpoznawania obiektów wizualnych . Ponad 14 milionów obrazów zostało ręcznie opatrzonych adnotacjami w ramach projektu, aby wskazać, jakie obiekty są przedstawiane, a na co najmniej milionie obrazów znajdują się również ramki ograniczające. ImageNet zawiera ponad 20 000 kategorii z typową kategorią, taką jak „balon” czy „truskawka”, składającą się z kilkuset zdjęć. Baza danych adnotacji adresów URL obrazów stron trzecich jest swobodnie dostępna bezpośrednio z ImageNet, chociaż rzeczywiste obrazy nie są własnością ImageNet. Od 2010 roku w ramach projektu ImageNet organizowany jest coroczny konkurs oprogramowania ImageNet Large Scale Visual Recognition Challenge ( ILSVRC ), w którym programy rywalizują o prawidłową klasyfikację i wykrywanie obiektów i scen. Wyzwanie korzysta z „przyciętej” listy tysiąca nienakładających się klas.

Znaczenie dla głębokiego uczenia

30 września 2012 r. splotowa sieć neuronowa (CNN) o nazwie AlexNet osiągnęła błąd top-5 wynoszący 15,3% w konkursie ImageNet 2012 Challenge, czyli o ponad 10,8 punktów procentowych niższy niż w przypadku wicelidera. Stało się to możliwe dzięki zastosowaniu w procesory graficzne (GPU) podczas treningu, niezbędnym składnikiem do głębokiego uczenia rewolucji. Według The Economist „Nagle ludzie zaczęli zwracać na siebie uwagę, nie tylko w społeczności AI, ale w całej branży technologicznej”.

W 2015 r. AlexNet został pokonany przez bardzo głęboką CNN Microsoftu z ponad 100 warstwami, która wygrała konkurs ImageNet 2015.

Historia bazy danych

Badacz sztucznej inteligencji Fei-Fei Li rozpoczął pracę nad pomysłem na ImageNet w 2006 roku. W czasie, gdy większość badań nad sztuczną inteligencją koncentrowała się na modelach i algorytmach, Li chciał rozszerzyć i ulepszyć dostępne dane, aby trenować algorytmy sztucznej inteligencji. W 2007 roku Li spotkał się z profesorem Princeton, Christiane Fellbaum , jednym z twórców WordNet, aby omówić projekt. W wyniku tego spotkania Li zaczął budować ImageNet, zaczynając od bazy danych WordNet i korzystając z wielu jego funkcji.

Jako adiunkt w Princeton Li zebrał zespół badaczy do pracy nad projektem ImageNet. Wykorzystali Amazon Mechanical Turk do pomocy w klasyfikacji obrazów.

Po raz pierwszy zaprezentowali swoją bazę danych jako plakat na konferencji w 2009 r. na temat widzenia komputerowego i rozpoznawania wzorców (CVPR) na Florydzie.

Zbiór danych

IMAGEnet crowdsources swój proces adnotacji. Adnotacje na poziomie obrazu wskazują na obecność lub brak klasy obiektów na obrazie, np. „na tym obrazie są tygrysy” lub „na tym obrazie nie ma tygrysów”. Adnotacje na poziomie obiektu tworzą obwiednię wokół (widocznej części) wskazanego obiektu. ImageNet używa wariantu szerokiego schematu WordNet do kategoryzowania obiektów, rozszerzonego o 120 kategorii ras psów, aby zaprezentować szczegółową klasyfikację. Wadą korzystania z WordNet jest to, że kategorie mogą być bardziej „podwyższone” niż byłoby to optymalne dla ImageNet: „Większość ludzi jest bardziej zainteresowana Lady Gagą lub iPodem Mini niż tym rzadkim rodzajem diplodoka ”. W 2012 ImageNet był największym na świecie użytkownikiem akademickim Mechanical Turk . Przeciętny pracownik zidentyfikował 50 obrazów na minutę.

Historia wyzwania ImageNet

Historia liczby błędów w ImageNet (pokazuje najlepszy wynik na zespół i do 10 wpisów rocznie)

ILSVRC ma na celu „podążanie śladami” mniejszego wyzwania PASCAL VOC, ustanowionego w 2005 roku, które zawierało tylko około 20 000 obrazów i dwadzieścia klas obiektów. Aby „zdemokratyzować” ImageNet, Fei-Fei Li zaproponował zespołowi PASCAL VOC współpracę, która rozpoczęła się w 2010 roku, w ramach której zespoły badawcze oceniałyby swoje algorytmy na danym zbiorze danych i rywalizowały o osiągnięcie większej dokładności w kilku zadaniach rozpoznawania wizualnego.

Wynikający z tego coroczny konkurs jest obecnie znany jako ImageNet Large Scale Visual Recognition Challenge (ILSVRC). ILSVRC używa „przyciętej” listy tylko 1000 kategorii obrazów lub „klas”, w tym 90 ze 120 ras psów sklasyfikowanych według pełnego schematu ImageNet. W 2010 roku nastąpił dramatyczny postęp w przetwarzaniu obrazu. Około 2011 r. dobry wskaźnik błędu pierwszej piątki klasyfikacji ILSVRC wyniósł 25%. W 2012 roku głęboka, splotowa sieć neuronowa o nazwie AlexNet osiągnęła 16%; w ciągu następnych kilku lat wskaźniki błędów w pierwszej piątce spadły do ​​kilku procent. Podczas gdy przełom z 2012 r. „połączył elementy, które istniały wcześniej”, dramatyczna poprawa ilościowa oznaczała początek boomu sztucznej inteligencji w całej branży. Do 2015 roku naukowcy z Microsoftu poinformowali, że ich CNN przekroczyły ludzkie możliwości w wąskich zadaniach ILSVRC. Jednak, jak zauważyła jedna z organizatorek konkursu , Olga Russakovsky w 2015 roku, programy muszą jedynie identyfikować obrazy jako należące do jednej z tysiąca kategorii; ludzie potrafią rozpoznać większą liczbę kategorii, a także (w przeciwieństwie do programów) potrafią ocenić kontekst obrazu.

Do 2014 r. w ILSVRC wzięło udział ponad pięćdziesiąt instytucji. W 2015 roku naukowcy z Baidu zostali zablokowani na rok za używanie różnych kont w celu znacznego przekroczenia określonego limitu dwóch zgłoszeń tygodniowo. Baidu później stwierdził, że zwolnił zaangażowanego lidera zespołu i że utworzy naukowy panel doradczy.

W 2017 r. 29 z 38 rywalizujących drużyn miało celność wyższą niż 95%. W 2017 r. ImageNet ogłosił, że w 2018 r. uruchomi nowe, znacznie trudniejsze wyzwanie, polegające na klasyfikowaniu obiektów 3D za pomocą języka naturalnego. Ponieważ tworzenie danych 3D jest bardziej kosztowne niż opisywanie istniejącego obrazu 2D, oczekuje się, że zestaw danych będzie mniejszy. Zastosowania postępu w tej dziedzinie obejmowałyby od nawigacji zrobotyzowanej po rozszerzoną rzeczywistość .

Stronniczość w ImageNet

Badanie historii wielu warstw ( taksonomii , klas obiektów i etykietowania) ImageNet i WordNet w 2019 r. opisuje, w jaki sposób stronniczość jest głęboko zakorzeniona w większości podejść do klasyfikacji wszelkiego rodzaju obrazów. ImageNet pracuje nad różnymi źródłami uprzedzeń.

Zobacz też

Bibliografia

Zewnętrzne linki