LabelMe - LabelMe

LabelMe to projekt stworzony przez MIT Computer Science and Artificial Intelligence Laboratory (CSAIL), który stanowi zbiór danych z cyfrowych obrazów z adnotacjami . Zbiór danych jest dynamiczny, darmowy i otwarty na wkład publiczny. Najbardziej stosownym zastosowaniem LabelMe są badania nad widzeniem komputerowym . Na dzień 31 października 2010 r. LabelMe ma 187 240 obrazów, 62 197 obrazów z adnotacjami i 658 992 obiektów z etykietami.

Motywacja

Motywacja do stworzenia LabelMe pochodzi z historii publicznie dostępnych danych dla badaczy widzenia komputerowego. Większość dostępnych danych była dostosowana do problemów konkretnej grupy badawczej i spowodowała, że ​​nowi badacze musieli zebrać dodatkowe dane, aby rozwiązać własne problemy. LabelMe zostało stworzone, aby rozwiązać kilka typowych niedociągnięć dostępnych danych. Poniżej znajduje się lista cech, które odróżniają LabelMe od poprzednich prac.

  • Zaprojektowany do rozpoznawania klasy obiektów zamiast pojedynczych instancji obiektu. Na przykład tradycyjny zbiór danych może zawierać obrazy psów, każdy o tym samym rozmiarze i orientacji. Natomiast LabelMe zawiera obrazy psów pod różnymi kątami, rozmiarami i orientacjami.
  • Zaprojektowany do rozpoznawania obiektów osadzonych w dowolnych scenach zamiast obrazów, które są przycinane , znormalizowane i / lub zmieniane w celu wyświetlenia pojedynczego obiektu.
  • Złożona adnotacja: Zamiast oznaczać cały obraz (co również ogranicza każdy obraz do pojedynczego obiektu), LabelMe umożliwia opisywanie wielu obiektów w obrazie poprzez określenie wielokąta ograniczającego ramkę, która zawiera obiekt.
  • Zawiera dużą liczbę klas obiektów i umożliwia łatwe tworzenie nowych klas.
  • Różnorodne obrazy: LabelMe zawiera obrazy z wielu różnych scen.
  • Zawiera obrazy nieobjęte prawami autorskimi i umożliwia publiczne dodawanie do adnotacji. Tworzy to wolne środowisko.

Narzędzie adnotacyjne

Narzędzie do adnotacji LabelMe zapewnia użytkownikom możliwość wniesienia wkładu w projekt. Dostęp do narzędzia można uzyskać anonimowo lub logując się na darmowe konto. Aby uzyskać dostęp do narzędzia, użytkownicy muszą mieć kompatybilną przeglądarkę internetową z obsługą JavaScript . Po załadowaniu narzędzie wybiera losowy obraz z zestawu danych LabelMe i wyświetla go na ekranie. Jeśli z obrazem są już skojarzone etykiety obiektów, zostaną one nałożone na obraz w formacie wielokąta. Każda odrębna etykieta obiektu jest wyświetlana w innym kolorze.

Jeśli obraz nie jest całkowicie oznaczony, użytkownik może użyć myszy do narysowania wielokąta zawierającego obiekt na obrazie. Na przykład na sąsiednim obrazie, jeśli osoba stała przed budynkiem, użytkownik może kliknąć punkt na granicy tej osoby i kontynuować klikanie wzdłuż zewnętrznej krawędzi, aż do powrotu do punktu początkowego. Po zamknięciu wielokąta na ekranie pojawia się bąbelek, który umożliwia użytkownikowi wprowadzenie etykiety obiektu. Użytkownik może wybrać dowolną etykietę, która według niego najlepiej opisuje obiekt. Jeśli użytkownik nie zgadza się z poprzednim etykietowaniem obrazu, może kliknąć wielokąt konturu obiektu i całkowicie usunąć wielokąt lub edytować etykietę tekstową, aby nadać mu nową nazwę.

Gdy tylko użytkownik wprowadzi zmiany w obrazie, są one zapisywane i dostępne dla każdego do pobrania z zestawu danych LabelMe. W ten sposób dane zawsze się zmieniają dzięki wkładowi społeczności użytkowników korzystających z narzędzia. Gdy użytkownik skończy pracę z obrazem, można kliknąć łącze Pokaż inny obraz i wybrać inny losowy obraz do wyświetlenia użytkownikowi.

Problemy z danymi

Zbiór danych LabelMe ma pewne problemy. Niektóre są nieodłącznie związane z danymi, na przykład obiekty na obrazach nie są równomiernie rozmieszczone pod względem rozmiaru i lokalizacji obrazu. Wynika to z faktu, że zdjęcia są wykonywane głównie przez ludzi, którzy zwykle skupiają aparat na interesujących obiektach w scenie. Jednak losowe przycinanie i przeskalowywanie obrazów może symulować jednolity rozkład. Inne problemy są spowodowane ilością swobody przyznanej użytkownikom narzędzia do adnotacji. Oto niektóre problemy, które się pojawiają:

  • Użytkownik może wybrać, które obiekty w scenie mają zostać obrysowane. Czy należy oznaczyć okludowaną osobę? Czy podczas obrysowywania obiektu należy uwzględnić zasłoniętą część obiektu? Czy niebo powinno być oznaczone etykietą?
  • Użytkownik musi sam opisać kształt obiektu poprzez obrysowanie wielokąta. Czy należy szczegółowo zarysować palce dłoni osoby? Jaką precyzję należy zastosować podczas obrysowywania obiektów?
  • Użytkownik wybiera, jaki tekst wprowadzić jako etykietę obiektu. Czy etykietą powinna być osoba , mężczyzna czy pieszy ?

Twórcy LabelMe postanowili pozostawić te decyzje adnotatorowi. Powodem tego jest to, że wierzą, że ludzie będą mieli tendencję do przypisywania adnotacji do obrazów zgodnie z tym, co uważają za naturalne etykietowanie obrazów. Zapewnia to również pewną zmienność danych, co może pomóc naukowcom w dostrojeniu ich algorytmów, aby uwzględnić tę zmienność.

Rozszerzanie danych

Korzystanie z WordNet

Ponieważ etykiety tekstowe obiektów udostępnionych w LabelMe pochodzą z danych wejściowych użytkownika, istnieje wiele odmian używanych etykiet (jak opisano powyżej). Z tego powodu analiza obiektów może być trudna. Na przykład obraz z psem może być oznaczony jako pies , psów , pies , psiaka lub zwierzęcia . Idealnie byłoby, gdyby podczas korzystania z danych pies klasy obiektów na poziomie abstrakcyjnym zawierał wszystkie te etykiety tekstowe.

WordNet to baza danych słów zorganizowana w sposób strukturalny. Pozwala przypisać słowo do kategorii lub w języku WordNet: sens. Automatyczne przypisanie nie jest łatwe. Kiedy autorzy LabelMe próbowali automatycznego przypisywania zmysłów, odkryli, że jest ono podatne na wysoki wskaźnik błędów, więc zamiast tego ręcznie przypisywali słowa do zmysłów. Na początku może się to wydawać zniechęcającym zadaniem, ponieważ nowe etykiety są stale dodawane do projektu LabelMe. Po prawej stronie znajduje się wykres porównujący wzrost wielokątów ze wzrostem słów (opisów). Jak widać, przyrost słów jest niewielki w porównaniu z ciągłym wzrostem wielokątów, a zatem jest łatwy do ręcznego aktualizowania przez zespół LabelMe.

Po przypisaniu do WordNet przeszukiwanie bazy danych LabelMe jest znacznie bardziej efektywne. Na przykład wyszukiwanie zwierzęcia może spowodować wyświetlenie zdjęć psów , kotów i węży . Jednak ponieważ przypisanie zostało wykonane ręcznie, obraz myszy komputerowej oznaczonej jako mysz nie pojawił się podczas wyszukiwania zwierząt . Ponadto, jeśli obiekty są oznaczone bardziej złożonymi terminami, takimi jak wyprowadzanie psów , WordNet nadal umożliwia wyszukiwanie psów i zwraca te obiekty jako wyniki. WordNet sprawia, że ​​baza danych LabelMe jest znacznie bardziej użyteczna.

Hierarchia części obiektu

Posiadanie dużego zbioru danych obiektów, w przypadku których dozwolone jest nakładanie się, zapewnia wystarczającą ilość danych do podjęcia próby sklasyfikowania obiektów jako części innego obiektu. Na przykład większość etykiet przypisanych do koła jest prawdopodobnie częścią obiektów przypisanych do innych etykiet, takich jak samochód lub rower . Nazywa się to etykietami części . Aby określić, czy etykieta P jest etykietą części dla etykiety O :

  • Pozwolić oznacza zbiór obrazów zawierających przedmiot (np samochodów)
  • Pozwolić oznacza zbiór obrazów zawierających część (np koła)
  • Niech punktacja nakładania się obiektu O i części P , będzie zdefiniowana jako stosunek obszaru przecięcia do obszaru części wielokąta. (np. )
  • Pozwolić oznaczają obrazy gdzie część obiektów i wielokąty mają gdzie jest jakaś wartość progowa. Autorzy używają LabelMe
  • Wynik części obiektu dla etykiety kandydata to miejsce i liczba obrazów odpowiednio w i oraz parametr stężenia. Autorzy używają LabelMe .

Algorytm ten umożliwia automatyczną klasyfikację części obiektu, gdy obiekty części są często zawarte w obiekcie zewnętrznym.

Porządkowanie głębokości obiektów

Innym przykładem nakładania się obiektów jest sytuacja, w której jeden obiekt znajduje się na drugim. Na przykład obraz może przedstawiać osobę stojącą przed budynkiem. Osoba nie jest częścią etykiety, jak powyżej, ponieważ nie jest ona częścią budynku. Zamiast tego są dwoma oddzielnymi obiektami, które się nakładają. Aby automatycznie określić, który obiekt jest pierwszym planem, a który tłem, autorzy LabelMe proponują kilka opcji:

  • Jeśli obiekt jest całkowicie zawarty w innym obiekcie, to obiekt wewnętrzny musi znajdować się na pierwszym planie. W przeciwnym razie nie byłby widoczny na obrazie. Jedynym wyjątkiem są obiekty przezroczyste lub półprzezroczyste, ale zdarzają się one rzadko.
  • Jeden z obiektów można oznaczyć jako coś, co nie może znajdować się na pierwszym planie. Przykładami są niebo , ziemia lub droga .
  • Obiekt z większą liczbą punktów wielokątów w przecinającym się obszarze jest najprawdopodobniej pierwszym planem. Autorzy przetestowali tę hipotezę i stwierdzili, że jest bardzo trafna.
  • Można użyć przecięcia histogramu. W tym celu histogram kolorów w przecinających się obszarach jest porównywany z histogramem kolorów dwóch obiektów. Obiekt z histogramem o bliższym kolorze jest przypisywany jako pierwszy plan. Ta metoda jest mniej dokładna niż liczenie punktów wielokąta.

Matlab Toolbox

Projekt LabelMe zapewnia zestaw narzędzi do korzystania z zestawu danych LabelMe z Matlab. Ponieważ badania są często prowadzone w Matlabie, pozwala to na integrację zbioru danych z istniejącymi narzędziami widzenia komputerowego. Cały zestaw danych można pobrać i używać w trybie offline lub zestaw narzędzi umożliwia dynamiczne pobieranie treści na żądanie.

Zobacz też

Bibliografia

Bibliografia
  • Russell, Bryan C .; Torralba Antonio; Murphy, Kevin P .; Freeman, William T. (2008). „Label Me : baza danych i internetowe narzędzie do adnotacji obrazu” (PDF) . International Journal of Computer Vision . 77 (1–3): 157–173. doi : 10.1007 / s11263-007-0090-8 . S2CID   1900911 .
  • Swain, Michael J .; Ballard, Dana H. (1991). „Indeksowanie kolorów”. International Journal of Computer Vision . 7 : 11–32. doi : 10.1007 / BF00130487 . S2CID   8167136 .

Zewnętrzne linki