DeepDream - DeepDream

„Mona Lisa” z efektem DeepDream przy użyciu sieci VGG16 wytrenowanej na ImageNet

DeepDream to program komputerowy stworzony przez inżyniera Google Alexandra Mordvintseva, który wykorzystuje splotową sieć neuronową do wyszukiwania i poprawiania wzorów w obrazach za pomocą algorytmicznej pareidolii , tworząc w ten sposób senny , psychodeliczny wygląd w celowo nadmiernie przetworzonych obrazach.

Program Google spopularyzował termin (głębokie) „marzenie” w odniesieniu do generowania obrazów, które powodują pożądane aktywacje w wyszkolonej głębokiej sieci , a termin ten odnosi się teraz do zbioru powiązanych podejść.

Historia

Oprogramowanie DeepDream, powstałe w głęboko splotowej sieci o nazwie kodowej „Incepcja” po filmie o tym samym tytule , zostało opracowane na potrzeby ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) w 2014 roku i wydane w lipcu 2015 roku.

Wymarzony pomysł i nazwa stały się popularne w Internecie w 2015 roku dzięki programowi Google DeepDream. Pomysł pochodzi z wczesnej historii sieci neuronowych, a podobne metody były używane do syntezy tekstur wizualnych. Powiązane pomysły na wizualizacje zostały opracowane (przed pracą Google) przez kilka grup badawczych.

Po Google opublikował swoje techniki i uczynił ich kodu open-source , szereg narzędzi, w postaci usług internetowych, aplikacji mobilnych i oprogramowania na pulpicie pojawiły się na rynku w celu umożliwienia użytkownikom przekształcić własne zdjęcia.

Proces

Obraz meduzy na niebieskim tle
Obraz meduzy przetworzony za pomocą DeepDream po dziesięciu iteracjach
Obraz meduzy przetworzony za pomocą DeepDream po pięćdziesięciu iteracjach
Oryginalny obraz (góra) po zastosowaniu dziesięciu (w środku) i pięćdziesięciu (na dole) iteracji DeepDream, sieć została przeszkolona w postrzeganiu psów

Oprogramowanie jest przeznaczone do wykrywania twarzy i innych wzorów na obrazach w celu automatycznej klasyfikacji obrazów. Jednak po wytrenowaniu sieć można również uruchomić w odwrotnej kolejności, prosząc o nieznaczne dostosowanie oryginalnego obrazu, aby dany neuron wyjściowy (np. ten dla twarzy lub niektórych zwierząt) dawał wyższy wynik ufności. Można to wykorzystać do wizualizacji, aby lepiej zrozumieć wyłaniającą się strukturę sieci neuronowej i jest podstawą koncepcji DeepDream. Ta procedura odwrócenia nigdy nie jest całkowicie jasna i jednoznaczna, ponieważ wykorzystuje proces mapowania jeden-do-wielu . Jednak po wystarczających powtórzeniach nawet wyobrażenia początkowo pozbawione poszukiwanych cech zostaną na tyle skorygowane, że powstanie forma pareidolia , dzięki której algorytmicznie generowane są psychodeliczne i surrealistyczne obrazy. Optymalizacja przypomina wsteczną propagację , jednak zamiast dostosowywać wagi sieci, wagi są utrzymywane na stałym poziomie, a dane wejściowe są dostosowywane.

Na przykład, istniejący obraz może być zmieniony tak, aby był „bardziej podobny do kota”, a wynikowy ulepszony obraz może być ponownie wprowadzony do procedury. To użycie przypomina czynność poszukiwania zwierząt lub innych wzorów w chmurach.

Zastosowanie gradientu opadania niezależnie do każdego piksela wejściowego tworzy obrazy, w których sąsiednie piksele mają niewiele relacji, a zatem obraz ma zbyt dużo informacji o wysokiej częstotliwości. Wygenerowane obrazy można znacznie ulepszyć, dołączając wcześniejszy lub regularyzator, który preferuje dane wejściowe, które mają naturalne statystyki obrazu (bez preferencji dla żadnego konkretnego obrazu) lub są po prostu gładkie. Na przykład Mahendran i in. użył regulatora całkowitej zmienności, który preferuje obrazy, które są odcinkowo stałe. W dalszej części omówiono różne regulatory. Dogłębna, wizualna eksploracja technik wizualizacji cech i regularyzacji została opublikowana niedawno.

Cytowane podobieństwo wyobrażeń do halucynacji wywołanych LSD i psilocybiną sugeruje funkcjonalne podobieństwo między sztucznymi sieciami neuronowymi a poszczególnymi warstwami kory wzrokowej.

Computerphile, program informatyczny , szczegółowo opisuje procesy uczenia maszynowego wykorzystywane przez Google Dream.

Stosowanie

Mocno przetworzona przez DeepDream fotografia trzech mężczyzn w basenie

Idea śnienia może być zastosowana do ukrytych (wewnętrznych) neuronów innych niż te na wyjściu, co pozwala na eksplorację ról i reprezentacji różnych części sieci. Możliwe jest również zoptymalizowanie danych wejściowych, aby zadowolić pojedynczy neuron (to użycie jest czasami nazywane Maksymalizacją Aktywności) lub całą warstwę neuronów.

Podczas gdy śnienie jest najczęściej używane do wizualizacji sieci lub tworzenia grafiki komputerowej, ostatnio zaproponowano, że dodanie „wyśnionych” danych wejściowych do zestawu treningowego może poprawić czas treningu abstrakcji w informatyce.

Wykazano również, że model DeepDream ma zastosowanie w dziedzinie historii sztuki .

DeepDream został wykorzystany w teledysku Foster the People do piosenki „Doing It for the Money”.

W 2017 r. grupa badawcza z University of Sussex stworzyła maszynę halucynacyjną , stosując algorytm DeepDream do nagranego wcześniej filmu panoramicznego, umożliwiając użytkownikom eksplorację środowisk wirtualnej rzeczywistości w celu naśladowania doświadczeń związanych z substancjami psychoaktywnymi i/lub stanami psychopatologicznymi. Byli w stanie zademonstrować, że subiektywne doznania wywołane przez Maszynę Halucynacji różniły się znacząco od wideo kontrolnych (nie-'halucynogennych'), niosąc fenomenologiczne podobieństwa do stanu psychedelicznego (po podaniu psilocybiny).

Zobacz też

Bibliografia

Linki zewnętrzne