Song-Chun Zhu - Song-Chun Zhu

Song-Chun Zhu
Song-Chun Zhu
Urodzony	Czerwiec 1968 ; Ezhou , Hubei , Chiny
Narodowość	chiński
Zawód	Informatyk, matematyk stosowany
Nagrody	Nagroda Helmholtza za próbę czasu ; IEEE Fellow ; David Marr Prize
Wykształcenie
Alma Mater	University of Science and Technology of China (licencjat z informatyki) ; Harvard University (magister i doktorat z informatyki)
Praca dyplomowa	Teorie statystyczne i obliczeniowe dotyczące segmentacji obrazu, modelowania tekstur i rozpoznawania obiektów (1996)
Doradca doktorancki	David Mumford
Praca akademicka
Dyscyplina	Informatyka i statystyka
Instytucje	Uniwersytet Kalifornijski w Los Angeles
Główne zainteresowania	Sztuczna inteligencja
Stronie internetowej	www .stat .ucla .edu / ~ sczhu

Song-Chun Zhu ( chiński : 朱松纯 ) to chiński informatyk i matematyk stosowany, znany ze swojej pracy w dziedzinie widzenia komputerowego , sztucznej inteligencji poznawczej i robotyki . Zhu jest profesorem na Wydziale Statystyki i Informatyki Uniwersytetu Kalifornijskiego w Los Angeles . Zhu jest również dyrektorem Centrum wzroku, poznania, uczenia się i autonomii UCLA (VCLA).

W 2005 roku Zhu założył Lotus Hill Institute, niezależną organizację non-profit promującą międzynarodową współpracę w dziedzinie komputerowej wizji i rozpoznawania wzorców . Zhu publikował obszernie i wykładał na całym świecie na temat sztucznej inteligencji, aw 2011 roku został stypendystą IEEE ( Institute of Electrical and Electronics Engineers ) za „wkład w modelowanie statystyczne, uczenie się i wnioskowanie w wizji komputerowej”.

Zhu ma dwie córki, Stephanie i Beverly. Beverly Yi Zhu ( chiński : 朱易 ) to chińsko-amerykańska łyżwiarka figurowa .

Wczesne życie i edukacja

Urodzony i wychowany w Ezhou , Chin , Zhu znaleźć inspirację, gdy był młody, w rozwoju komputerów grających w szachy, wywołując jego zainteresowanie sztucznej inteligencji. W 1991 roku Zhu uzyskał tytuł licencjata z informatyki na Uniwersytecie Nauki i Technologii w Hefei . Podczas studiów licencjackich Zhu, który odkrył, że obliczeniowa teoria widzenia autorstwa nieżyjącego już neuronaukowca z MIT, Davida Marra, jest bardzo wpływowa, dążył do wypracowania ogólnej zunifikowanej teorii widzenia i sztucznej inteligencji. W 1992 Zhu kontynuował naukę wizji komputerowej w Harvard Graduate School of Arts and Sciences . Na Harvardzie Zhu studiował pod kierunkiem amerykańskiego matematyka Davida Mumforda i uzyskał wprowadzenie do nauki „prawdopodobnie w przybliżeniu poprawnej” (PAC) pod kierunkiem Leslie Valiant . Zhu zakończył studia na Harvardzie w 1996 r., Uzyskując doktorat. Doktorat z informatyki, a następnie Mumford na Wydziale Matematyki Stosowanej na Brown University jako stażysta podoktorancki.

Kariera

Po uzyskaniu stażu podoktorskiego Zhu wykładał krótko na Wydziale Informatyki Uniwersytetu Stanforda . W 1998 roku dołączył do Ohio State University jako adiunkt na wydziale informatyki i kognitywistyki. W 2002 roku Zhu dołączył do Uniwersytetu Kalifornijskiego w Los Angeles jako profesor nadzwyczajny, aw 2006 roku awansował na stanowisko profesora zwyczajnego. Na UCLA Zhu założył Centrum Wzroku, Poznania, Nauki i Autonomii. Jego główne zainteresowania badawcze polegały na opracowywaniu ujednoliconych ram statystycznych i obliczeniowych dla wizji i inteligencji, które obejmują wykres przestrzenny, czasowy i przyczynowy i lub (STC-AOG) jako ujednoliconą reprezentację oraz liczne metody wnioskowania i uczenia się metodą Monte Carlo. .

W 2005 roku Zhu założył niezależną organizację non-profit w swoim rodzinnym mieście Ezhou, Lotus Hill Institute (LHI). LHI był zaangażowany w zbieranie dużych zbiorów danych obrazów i opisywanie obiektów, scen i działań, otrzymując wkład od wielu renomowanych uczonych, w tym od Harry'ego Shuma . W Instytucie działa również pełnoetatowy zespół adnotacyjny zajmujący się analizą struktur obrazów, który zgromadził do tej pory ponad 500 000 obrazów.

Od czasu założenia LHI, Zhu zorganizował liczne warsztaty i konferencje, a także był głównym przewodniczącym Konferencji na temat wizji komputerowej i rozpoznawania wzorców (CVPR) 2012 w Providence, Rhode Island , gdzie wręczył Ulf Grenanderowi medal pioniera oraz CVPR 2019, który odbył się w Long Beach w Kalifornii .

W lipcu 2017 roku Zhu założył DMAI w Los Angeles jako startup AI zajmujący się opracowywaniem ujednoliconej platformy kognitywnej AI.

We wrześniu 2020 r.Zhu wrócił do Chin, aby dołączyć do Uniwersytetu w Pekinie, aby kierować jego Instytutem Sztucznej Inteligencji, dołączając w ten sposób do innego chińskiego eksperta AI w USA i wieloletniego znajomego Zhu, byłego szefa sztucznej inteligencji i badań Microsoftu, Harry'ego Shuma. Shum został również powołany w sierpniu przez Uniwersytet w Pekinie na przewodniczącego komitetu naukowego Instytutu Sztucznej Inteligencji.

Zhu pracuje nad utworzeniem nowego, odrębnego instytutu badawczego AI - Beijing Institute for General Artificial Intelligence (BIGAI). Zgodnie ze wstępem, w oparciu o paradygmat „małych danych dla dużych zadań”, BIGAI koncentruje się na zaawansowanej technologii AI, integracji multidyscyplinarnej, międzynarodowej wymianie akademickiej, aby wychować nowe pokolenie młodych talentów AI. Oczekuje się, że instytut zgromadzi profesjonalnych badaczy, naukowców i ekspertów, aby wprowadzić w życie teoretyczne ramy sztucznej inteligencji Zhu i wspólnie promować chińskie oryginalne technologie sztucznej inteligencji oraz budować nową generację ogólnych platform sztucznej inteligencji.

Badania i praca

Zhu opublikował ponad trzysta artykułów w recenzowanych czasopismach i postępowaniach w następujących czterech fazach:

Pionierskie modele statystyczne do formułowania pojęć w ramach Marra

Na początku lat 90. Zhu, wraz ze współpracownikami z grupy teorii wzorców, opracował zaawansowane modele statystyczne dla widzenia komputerowego. Koncentrując się na opracowaniu ujednolicających ram statystycznych dla wczesnych reprezentacji wizji przedstawionych w pośmiertnie opublikowanej pracy Davida Marra zatytułowanej Vision , najpierw sformułowali tekstury w nowym modelu pola losowego Markowa , zwanym FRAME, używając zasady entropii minimaksy, aby wprowadzić odkrycia w neuronauce i psychofizyce do Rozkłady Gibbsa w fizyce statystycznej. Następnie udowodnili równoważność między modelem FRAME a zespołem mikro-kanonicznym, który nazwali zespołem Julesz. Praca ta otrzymała honorową nominację do nagrody Marr podczas Międzynarodowej Konferencji na temat widzenia komputerowego (ICCV) w 1999 roku.

W latach dziewięćdziesiątych Zhu opracował dwie nowe klasy nieliniowych równań różniczkowych cząstkowych (PDE). Jedna klasa segmentacji obrazu nosi nazwę konkurencji regionalnej. Ta praca łącząca PDE z modelami obrazów statystycznych otrzymała nagrodę za test czasu Helmholtza w ICCV 2013. Druga klasa, zwana GRADE (Równania reakcji i dyfuzji Gibbsa) została opublikowana w 1997 r. I wykorzystuje podejście dynamiki Langevina do wnioskowania i uczenia się stochastycznego zejścia gradientowego (SGD).

Na początku XXI wieku Zhu sformułował tekstony przy użyciu modeli generatywnych z rzadką teorią kodowania i zintegrował zarówno modele tekstury, jak i modele tekstonowe, aby przedstawić pierwotny szkic. Wraz z Ying Nian Wu, Zhu dokonał postępu w badaniu percepcyjnych przejść między reżimami modeli w skalowaniu informacji i zaproponował teorię przestrzeni skali percepcyjnej, aby rozszerzyć przestrzeń skali obrazu.

Rozszerzenie paradygmatu gramatycznego Fu o stochastyczny i-lub wykres

W latach 1999-2002 z tytułem doktora nauk humanistycznych. student Zhuowen Tu, Zhu opracował oparty na danych paradygmat Monte Carlo łańcucha Markowa (DDMCMC), aby przemierzyć całą przestrzeń stanów poprzez rozszerzenie pracy Grenandera-Millera na temat rozpraszania skoków. Z innym doktoratem student, Adrian Barbu, uogólnił algorytm próbkowania klastrów ( Swendsen-Wang ) w fizyce od modeli Isinga / Pottsa do arbitralnych prawdopodobieństw. Ten postęp w tej dziedzinie sprawił, że operatory split-merge po raz pierwszy w literaturze stały się odwracalne i osiągnęły 100-krotne przyspieszenie w porównaniu z samplerem Gibbsa i dyfuzją skokową. To osiągnięcie doprowadziło do pracy nad analizą obrazu, która zdobyła nagrodę Marr w ICCV 2003.

W 2004 roku Zhu przeszedł na wyższy poziom widzenia, studiując gramatykę stochastyczną . Metoda gramatyczna wywodzi się z metody rozpoznawania wzorców składniowych, zalecanej przez King-Sun Fu w latach siedemdziesiątych XX wieku. Zhu opracował modele gramatyczne dla kilku kluczowych problemów ze wzrokiem, takich jak modelowanie twarzy, starzenie się twarzy, ubranie, wykrywanie obiektów, analiza struktury prostokątnej i inne. W 2006 roku napisał wraz z Mumfordem monografię zatytułowaną A Stochastic Grammar of Images . W 2007 roku Zhu i współautorzy otrzymali nominację do nagrody Marr. W następnym roku Zhu otrzymał nagrodę JK Aggarwal od Międzynarodowego Stowarzyszenia Rozpoznawania Wzorów za „wkład w ujednoliconą podstawę do konceptualizacji wzorców wizualnych, modelowania, uczenia się i wnioskowania”.

Zhu rozszerzył modele i-lub wykres na przestrzenne, czasowe i przyczynowe i-lub wykres (STC-AOG), aby wyrazić struktury kompozycyjne jako ujednoliconą reprezentację obiektów, scen, działań, zdarzeń i efektów przyczynowych w problemy ze zrozumieniem sceny społecznej.

Badanie poznania „ciemnej materii sztucznej inteligencji” i wizualnego zdrowego rozsądku

Od 2010 roku Zhu współpracuje z naukowcami zajmującymi się kognitywistyką, sztuczną inteligencją, robotyką i językiem, badając to, co nazywa „ciemną materią sztucznej inteligencji” - 95% inteligentnego przetwarzania niewykrywalnego bezpośrednio w bodźcach sensorycznych.

Wspólnie poszerzyli parsowanie obrazu i zrozumienie problemu poprzez modelowanie poznawcze i wnioskowanie w następujących aspektach: funkcjonalność (funkcje obiektów i scen, użycie narzędzi), fizyka intuicyjna (relacje wspierające, materiały, stabilność i ryzyko), intencja uwagi (co ludzie wiedzą, myślą i zamierzają zrobić na scenie społecznej), przyczynowość (przyczynowe skutki działań zmieniających płynność obiektu) i użyteczność (wspólne wartości kierujące ludzkimi działaniami w wideo). Wyniki rozpowszechniane są w ramach serii warsztatów.

Istnieje wiele innych tematów, które Zhu zbadał w tym okresie, w tym następujące: formułowanie koncepcji sztucznej inteligencji, takich jak narzędzia, pojemnik, płyny; integracja trójwymiarowego analizowania scen i rekonstrukcji z pojedynczych obrazów poprzez funkcjonalność rozumowania, stabilność fizyczną, usytuowane dialogi poprzez wspólne parsowanie wideo i tekstu; rozwijanie uczenia się komunikatywnego; oraz mapowanie krajobrazu energetycznego niewypukłych problemów związanych z uczeniem się.

Dążenie do paradygmatu „małych danych do dużych zadań” dla ogólnej sztucznej inteligencji

W szeroko rozpowszechnionym publicznym artykule napisanym po chińsku w 2017 r. Zhu odniósł się do popularnych badań głębokiego uczenia się opartych na danych jako do paradygmatu „dużych zbiorów danych dla małych zadań”, który trenuje sieć neuronową dla każdego konkretnego zadania za pomocą ogromnych danych opatrzonych adnotacjami, co skutkuje niemożliwymi do interpretacji modele i wąska sztuczna inteligencja. Zamiast tego Zhu opowiadał się za paradygmatem „małych danych do dużych zadań”, aby osiągnąć ogólną sztuczną inteligencję.

Zhu skonstruował wielkoskalowe, realistyczne pod względem fizycznym środowisko VR / AR do szkolenia i testowania autonomicznych agentów sztucznej inteligencji odpowiedzialnych za wykonywanie dużej liczby codziennych zadań. Ta platforma VR / AR otrzymała nagrodę Best Paper Award na konferencji ACM TURC w 2019 roku. Agenci integrują możliwości z zakresu widzenia, języka, poznania, uczenia się i robotyki, w procesie rozwijania zdrowego rozsądku fizycznego i społecznego oraz komunikowania się z ludźmi za pomocą architektura poznawcza.

Nagrody i wyróżnienia

1999 - Nominacja honorowa do nagrody Marr, VII Międzynarodowa Konferencja na temat widzenia komputerowego, Korfu, Grecja
2001 - Sloan Research Fellow w dziedzinie informatyki, Alfred Sloan Foundation
2001 - Nagroda Kariery, National Science Foundation
2001 - Young Investigator Award, Office of Naval Research
2003 - Marr Prize, IX Int'l Conf. on Computer Vision, Nicea, Francja
2007 - Nominacja honorowa do nagrody Marr na 11. ICCV w Rio, Brazylia 2008
2008 - Nagroda JK Aggarwal, Międzynarodowe Stowarzyszenie Rozpoznawania Wzorców.
2011 - Fellow, IEEE Computer Society.
2013 - Nagroda Helmholtza za próbę czasu podczas 14. Międzynarodowego Konf. na temat widzenia komputerowego w Sydney w Australii
2017 - Nagroda za modelowanie obliczeniowe, Cognitive Science Society
2019 - Nagroda za najlepszy papier, konferencja ACM TURC

Publikacje

Książki

SC Zhu i DB Mumford, A Stochastic Grammar of Images , monografia, obecnie Publishers Inc. 2007.
A.Barbu and SC Zhu, Monte Carlo Methods , Springer, opublikowane w 2019.
SC Zhu, AI: The Era of Big Integration - Unifying Disciplines within Artificial Intelligence , DMAI, Inc., opublikowane w 2019 r.
SC Zhu i YN Wu, Concepts and Representations in Vision and Cognition , Szkic nauczany przez ponad 10 lat, Springer, Przygotowanie do 2020.

Dokumenty tożsamości

Zhu, SC, Wu, Y. i Mumford, D. (1998). RAMKA: filtry, pola losowe i entropia minimaksów w kierunku ujednoliconej teorii modelowania tekstur. International Journal of Computer Vision, 27 (2) s. 1–20.
YN Wu, SC Zhu i XW Liu, (2000). Równoważność modeli Julesz Ensemble i FRAME International Journal of Computer Vision, 38 (3), 247-265.
Tu, Z. and Zhu, S.-C. Segmentacja obrazu według opartej na danych łańcucha Markowa Monte Carlo, IEEE Trans. w PAMI, 24 (5), 657-673, 2002.
Barbu, A. and Zhu, S.-C., Generalizing Swendsen-Wang to Sampling Arbitrary Posterior Probabilities, IEEE Trans. w sprawie PAMI, 27 (8), 1239-1253, 2005.
Tu, Z., Chen, X., Yuille i Zhu, S.-C. (2003). Analiza obrazu: ujednolicenie segmentacji, wykrywania i rozpoznawania. Proceedings Dziewiąta Międzynarodowa Konferencja IEEE nt. Widzenia komputerowego.
Zhu, SC, & Yuille, A. (1996). Konkurencja regionalna: zjednoczenie węży, wzrost regionu i Bayes / MDL dla wielopasmowej segmentacji obrazu. IEEE Transactions on Pattern Analysis and Machine Intelligence, 18 (9), 884–900.
Zhu, SC, & Mumford, D. (1997). Wcześniejsza nauka i dyfuzja reakcji Gibbsa. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19 (11), 1236–1250.
Zhu, S.-C., Guo, C., Wang, Y. i Xu, Z. (2005). Co to są Textony? International Journal of Computer Vision, 62 (1/2), 121–143.
Zhu, S.-C. & Mumford, D. (2006). Gramatyka stochastyczna obrazów. Podstawy i trendy w grafice komputerowej i wizji, 2 (4), 259–362.
Guo, C. Zhu, S.-C. and Wu, Y. (2007), Primal sketch: Integrating Texture and Structure. Computer Vision and Image Understanding, vol. 106, wydanie 1, 5-19.
YN Wu, CE Guo i SC Zhu (2008), From Information Scaling of Natural Images to Regimes of Statistical Models, Quarterly of Applied Mathematics, vol. 66, nie. 1, 81-122.
B. Zheng, Y. Zhao, J. Yu, K. Ikeuchi i SC Zhu (2015), Scene Understanding by Reasoning Stability and Safety, Int'l Journal of Computer Vision, vol. 112, nie. 2, 2015, s. 221–238.
Y. Zhu, YB Zhao and SC Zhu (2015), Understanding Tools: Task-Oriented Object Modeling, Learning and Recognition, Proc. IEEE Conf. w sprawie widzenia komputerowego i rozpoznawania wzorców (CVPR).
Fire, A. and SC Zhu (2016), Learning Perceptual Causality from Video, ACM Trans. w sprawie inteligentnych systemów i technologii, 7 (2): 23.
YX Zhu, C. Jiang, Y. Zhao, D. Terzopoulos and SC Zhu (2016), Inferring Forces and Learning Human Utilities from Video, Proc. IEEE Conf. w sprawie widzenia komputerowego i rozpoznawania wzorców (CVPR).
D. Xie, T. Shu, S. Todorovic and SC Zhu (2018), Learning and Inferring „Dark Matter” and Predicting Human Intents and Trajectories in Videos, IEEE Trans on Pattern Analysis and Machine Intelligence, 40 (7): 1639- 1652.
Zhu, Y. et al (2020) Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Human-like Commonsense, Engineering special issue on AI.
SC Zhu, (2019) AI: The Era of Big Integration - Unifying Disciplines within Artificial Intelligence, DMAI, Inc.

Languages

In other projects