Lista zbiorów danych do badań nad uczeniem maszynowym - List of datasets for machine-learning research
Część serii na |
Uczenie maszynowe i eksploracja danych |
---|
Te zbiory danych są stosowane do badań nad uczeniem maszynowym i były cytowane w recenzowanych czasopismach naukowych. Zbiory danych są integralną częścią dziedziny uczenia maszynowego. Główne postępy w tej dziedzinie mogą wynikać z postępów w algorytmach uczenia (takich jak uczenie głębokie ), sprzętu komputerowego oraz, mniej intuicyjnie, dostępności wysokiej jakości zestawów danych szkoleniowych. Wysokiej jakości oznakowane zestawy danych szkoleniowych dla nadzorowanych i częściowo nadzorowanych algorytmów uczenia maszynowego są zwykle trudne i drogie w produkcji ze względu na dużą ilość czasu potrzebnego na oznaczenie danych. Chociaż nie trzeba ich oznaczać, tworzenie wysokiej jakości zbiorów danych do uczenia się bez nadzoru może być trudne i kosztowne.
Dane obrazu
Zbiory danych składające się głównie z obrazów lub filmów do zadań takich jak wykrywanie obiektów , rozpoznawanie twarzy i klasyfikacja z wieloma etykietami .
Rozpoznawanie twarzy
W wizji komputerowej obrazy twarzy były szeroko wykorzystywane do opracowywania systemów rozpoznawania twarzy , wykrywania twarzy i wielu innych projektów wykorzystujących obrazy twarzy.
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Aff-Wild | 298 filmów 200 osób, ~1 250 000 ręcznie opatrzonych adnotacjami obrazów: opatrzone adnotacjami pod względem afektu wymiarowego (pobudzenie walencyjne); na wolności; baza kolorów; różne rozdzielczości (średnia = 640x360) | wykryte twarze, punkty orientacyjne twarzy i adnotacje walencyjno-pobudzeniowe | ~1 250 000 obrazów ręcznie opatrzonych adnotacjami | wideo (wizualne + audio modalności) | wpływać na rozpoznawanie (oszacowanie walencyjno-pobudzeniowe) | 2017 | CVPR
IJCV |
D. Kollias i in. |
Aff-Wild2 | 558 filmów 458 osób, ~2 800 000 ręcznie adnotowanych obrazów: z adnotacjami i) kategorycznego afektu (7 podstawowych wyrażeń: neutralność, szczęście, smutek, zaskoczenie, strach, wstręt, złość); ii) afekt wymiarowy (pobudzenie walencyjne); iii) jednostki działania (AU 1,2,4,6,12,15,20,25); na wolności; baza kolorów; różne rozdzielczości (średnia = 1030x630) | wykryte twarze, wykryte i wyrównane twarze i adnotacje | ~2 800 000 obrazów z ręcznie dodanymi adnotacjami | wideo (wizualne + audio modalności) | rozpoznawanie wpływu (oszacowanie walencyjno-pobudzeniowe, podstawowa klasyfikacja ekspresji, wykrywanie jednostek działania) | 2019 | BMVC
FG |
D. Kollias i in. |
FERET (technologia rozpoznawania twarzy) | 11338 zdjęć 1199 osób w różnych pozycjach iw różnym czasie. | Nic. | 11 338 | Obrazy | Klasyfikacja, rozpoznawanie twarzy | 2003 | Departament Obrony Stanów Zjednoczonych | |
Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) | 7.356 nagrań wideo i audio 24 zawodowych aktorów. 8 emocji o dwóch intensywnościach. | Pliki oznaczone wyrażeniem. Oceny walidacji percepcyjnej dostarczone przez 319 oceniających. | 7356 | Pliki wideo, dźwiękowe | Klasyfikacja, rozpoznawanie twarzy, rozpoznawanie głosu | 2018 | SR Livingstone i FA Russo | |
SCFace | Kolorowe obrazy twarzy pod różnymi kątami. | Lokalizacja wyodrębnionych rysów twarzy. Podane współrzędne cech. | 4160 | Obrazy, tekst | Klasyfikacja , rozpoznawanie twarzy | 2011 | M. Grgic i in. | |
Baza danych twarzy Yale | Twarze 15 osób w 11 różnych wyrazach twarzy. | Etykiety wyrażeń. | 165 | Obrazy | Rozpoznawanie twarzy | 1997 | J. Yang i in. | |
Cohn-Kanade AU-Coded Expression Database | Duża baza zdjęć z etykietami do wyrażeń. | Śledzenie niektórych rysów twarzy. | 500+ sekwencji | Obrazy, tekst | Analiza wyrazu twarzy | 2000 | T. Kanade i in. | |
Baza danych wyrazu twarzy JAFFE | 213 zdjęć 7 wyrazów twarzy (6 podstawowych wyrazów twarzy + 1 neutralny) przedstawionych przez 10 japońskich modelek. | Obrazy są przycinane do obszaru twarzy. Zawiera semantyczne dane ocen na etykietach emocji. | 213 | Obrazy, tekst | Poznanie mimiki twarzy | 1998 | Lyon, Kamachi, Gyoba | |
TwarzScrub | Obrazy osób publicznych wyczyszczone z wyszukiwania obrazów. | Imię i adnotacja m/f. | 107,818 | Obrazy, tekst | Rozpoznawanie twarzy | 2014 | H. Ng i in. | |
Baza danych twarzy BioID | Obrazy twarzy z zaznaczonymi pozycjami oczu. | Ręcznie ustaw pozycje oczu. | 1521 | Obrazy, tekst | Rozpoznawanie twarzy | 2001 | BioID | |
Zestaw danych segmentacji skóry | Losowo próbkowane wartości kolorów z obrazów twarzy. | B, G, R, wyodrębnione wartości. | 245 057 | Tekst | Segmentacja, klasyfikacja | 2012 | R. Bhatt. | |
Bosfor | Baza danych obrazów twarzy 3D. | 34 jednostki działania i 6 wyrażeń oznaczonych; Oznaczono 24 punkty orientacyjne na twarzy. | 4652 |
Obrazy, tekst |
Rozpoznawanie twarzy, klasyfikacja | 2008 | Savran i in. | |
UOY 3D-Twarz | neutralna twarz, 5 wyrazów: złość, szczęście, smutek, zamknięte oczy, uniesione brwi. | etykietowanie. | 5250 |
Obrazy, tekst |
Rozpoznawanie twarzy, klasyfikacja | 2004 | Uniwersytet w Yorku | |
CASIA Baza danych twarzy 3D | Wyrażenia: złość, uśmiech, śmiech, zaskoczenie, zamknięte oczy. | Nic. | 4624 |
Obrazy, tekst |
Rozpoznawanie twarzy, klasyfikacja | 2007 | Instytut Automatyki Chińskiej Akademii Nauk | |
CASIA NIR | Wyrażenia: Gniew Obrzydzenie Strach Szczęście Smutek Niespodzianka | Nic. | 480 | Przechwytuje wideo w zakresie widzialnym i bliskiej podczerwieni z adnotacjami z szybkością 25 klatek na sekundę | Rozpoznawanie twarzy, klasyfikacja | 2011 | Zhao, G. i in. | |
BU-3DFE | neutralna twarz i 6 wyrazów: złość, szczęście, smutek, zaskoczenie, wstręt, strach (4 poziomy). Wyodrębnione obrazy 3D. | Nic. | 2500 | Obrazy, tekst | Rozpoznawanie mimiki twarzy, klasyfikacja | 2006 | Uniwersytet w Binghamton | |
Zestaw danych Grand Challenge do rozpoznawania twarzy | Do 22 próbek na każdy temat. Wyrażenia: złość, szczęście, smutek, zaskoczenie, wstręt, opuchlizna. Dane 3D. | Nic. | 4007 | Obrazy, tekst | Rozpoznawanie twarzy, klasyfikacja | 2004 | Narodowy Instytut Standardów i Technologii | |
Gavabdb | Do 61 próbek dla każdego przedmiotu. Wyrazy neutralnej twarzy, uśmiechu, zaakcentowanego śmiechu z przodu, przypadkowego gestu z przodu. Obrazy 3D. | Nic. | 549 | Obrazy, tekst | Rozpoznawanie twarzy, klasyfikacja | 2008 | Uniwersytet Króla Juana Carlosa | |
3D-RMA | Do 100 tematów, wyrażenia w większości neutralne. Kilka pozycji. | Nic. | 9971 | Obrazy, tekst | Rozpoznawanie twarzy, klasyfikacja | 2004 | Królewska Akademia Wojskowa (Belgia) | |
SoF | 112 osób (66 mężczyzn i 46 kobiet) nosi okulary w różnych warunkach oświetleniowych. | Zestaw filtrów syntetycznych (rozmycie, okluzje, szum, posteryzacja) o różnym stopniu trudności. | 42 592 (2 662 oryginalne zdjęcie × 16 zdjęcie syntetyczne) | Obrazy, plik Mat | Klasyfikacja płci, wykrywanie twarzy, rozpoznawanie twarzy, szacowanie wieku i wykrywanie okularów | 2017 | Afifi, M. i in. | |
IMDB-WIKI | Obrazy twarzy IMDB i Wikipedia z etykietami płci i wieku. | Nic | 523,051 | Obrazy | Klasyfikacja płci, wykrywanie twarzy, rozpoznawanie twarzy, szacowanie wieku | 2015 | R. Rothe, R. Timofte, LV Gool |
Rozpoznawanie działań
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zbiór danych dotyczących interakcji między ludźmi w telewizji | Filmy z 20 różnych programów telewizyjnych do przewidywania akcji społecznych: uścisk dłoni, przybicie piątki, przytulenie, pocałunek i brak. | Nic. | 6766 klipów wideo | klipy wideo | Przewidywanie działań | 2013 | Patron-Perez, A. i in. | |
Berkeley multimodalna baza danych o ludzkich działaniach (MHAD) | Nagrania pojedynczej osoby wykonującej 12 czynności | Wstępne przetwarzanie MoCap | 660 próbek akcji | 8 przechwytywania ruchu PhaseSpace, 2 kamery stereo, 4 kamery poczwórne, 6 akcelerometrów, 4 mikrofony | Klasyfikacja działań | 2013 | Ofli, F. i in. | |
Zbiór danych THUMOS | Duży zbiór danych wideo do klasyfikacji działań. | Działania sklasyfikowane i oznaczone. | 45 mln klatek wideo | Wideo, obrazy, tekst | Klasyfikacja, wykrywanie działań | 2013 | Y. Jiang i in. | |
MEXAkcja2 | Zestaw danych wideo do lokalizacji akcji i wykrywania | Działania sklasyfikowane i oznaczone. | 1000 | Wideo | Wykrywanie akcji | 2014 | Stoian i in. |
Wykrywanie i rozpoznawanie obiektów
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Genom wizualny | Obrazy i ich opis | 108 000 | obrazy, tekst | Podpisy obrazów | 2016 | R. Krishna i in. | ||
Zbiór danych obiektów 3-D Berkeley | 849 zdjęć zrobionych w 75 różnych scenach. Oznakowano około 50 różnych klas obiektów. | Ramki ograniczające obiekt i etykiety. | 849 | oznaczone obrazy, tekst | Rozpoznawanie obiektów | 2014 | A. Janoch i in. | |
Zestaw danych segmentacji Berkeley i testy porównawcze 500 (BSDS500) | 500 naturalnych obrazów, wyraźnie podzielonych na rozłączne podzbiory pociągów, walidacji i testów + kod benchmarkingowy. Na podstawie BSDS300. | Każdy obraz jest podzielony średnio na pięć różnych tematów. | 500 | Obrazy podzielone na segmenty | Wykrywanie konturów i hierarchiczna segmentacja obrazu | 2011 | Uniwersytet Kalifornijski w Berkeley | |
Wspólne obiekty firmy Microsoft w kontekście (COCO) | złożone sceny z życia codziennego pospolitych przedmiotów w ich naturalnym kontekście. | Wyróżnianie obiektów, etykietowanie i klasyfikacja do 91 typów obiektów. | 2 500 000 | Oznaczone obrazy, tekst | Rozpoznawanie obiektów | 2015 | T. Lin i in. | |
Baza danych SUN | Bardzo duża baza danych rozpoznawania scen i obiektów. | Miejsca i obiekty są oznakowane. Obiekty są podzielone na segmenty. | 131 067 | Obrazy, tekst | Rozpoznawanie obiektów, rozpoznawanie scen | 2014 | J. Xiao i in. | |
ImageNet | Baza danych obrazów obiektów oznaczonych etykietami, używana w wyzwaniu ImageNet Large Scale Visual Recognition Challenge | Oznaczone obiekty, obwiedni, słowa opisowe, funkcje SIFT | 14197122 | Obrazy, tekst | Rozpoznawanie obiektów, rozpoznawanie scen | 2009 (2014) | J. Deng i in. | |
Otwórz obrazy | Duży zestaw obrazów oznaczonych jako posiadające licencję CC BY 2.0 z etykietami na poziomie obrazu i ramkami ograniczającymi obejmującymi tysiące klas. | Etykiety na poziomie obrazu, Pudełka ograniczające | 9178275 | Obrazy, tekst | Klasyfikacja, rozpoznawanie obiektów | 2017 | ||
Zbiór danych dotyczących wykrywania komercyjnego kanału wiadomości telewizyjnych | Reklamy telewizyjne i audycje informacyjne. | Funkcje audio i wideo wyodrębnione z obrazów nieruchomych. | 129 685 | Tekst | Klastrowanie, klasyfikacja | 2015 | P. Guha i in. | |
Statlog (segmentacja obrazu) Zbiór danych | Instancje zostały losowo wybrane z bazy danych zawierającej 7 obrazów zewnętrznych i ręcznie posegmentowane, aby stworzyć klasyfikację dla każdego piksela. | Obliczono wiele funkcji. | 2310 | Tekst | Klasyfikacja | 1990 | Uniwersytet Massachusetts | |
Caltech 101 | Zdjęcia obiektów. | Zaznaczono szczegółowe kontury obiektów. | 9146 | Obrazy | Klasyfikacja, rozpoznawanie obiektów. | 2003 | F. Li i in. | |
Caltech-256 | Duży zbiór danych obrazów do klasyfikacji obiektów. | Obrazy skategoryzowane i ręcznie posortowane. | 30 607 | Obrazy, tekst | Klasyfikacja, wykrywanie obiektów | 2007 | G. Griffin i in. | |
Zbiór danych SIFT10M | Funkcje SIFT zbioru danych Caltech-256. | Rozbudowana ekstrakcja funkcji SIFT. | 11 164 866 | Tekst | Klasyfikacja, wykrywanie obiektów | 2016 | X. Fu i in. | |
EtykietaMe | Zdjęcia scen z adnotacjami. | Przedstawione obiekty. | 187 240 | Obrazy, tekst | Klasyfikacja, wykrywanie obiektów | 2005 | Laboratorium Informatyki i Sztucznej Inteligencji MIT | |
Zestaw danych miast | Stereofoniczne sekwencje wideo nagrane w scenach ulicznych z adnotacjami na poziomie pikseli. Uwzględniono również metadane. | Segmentacja i etykietowanie na poziomie pikseli | 25 000 | Obrazy, tekst | Klasyfikacja, wykrywanie obiektów | 2016 | Daimler AG i in. | |
Zbiór danych PASCAL VOC | Duża liczba obrazów do zadań klasyfikacyjnych. | Etykietowanie, w zestawie pudełko ograniczające | 500 000 | Obrazy, tekst | Klasyfikacja, wykrywanie obiektów | 2010 | M. Everingham i in. | |
Zbiór danych CIFAR-10 | Wiele małych obrazów o niskiej rozdzielczości 10 klas obiektów. | Klasy oznaczone, utworzone podziały zestawów treningowych. | 60 000 | Obrazy | Klasyfikacja | 2009 | A. Krizhevsky i in. | |
Zbiór danych CIFAR-100 | Jak CIFAR-10 powyżej, ale podano 100 klas obiektów. | Klasy oznaczone, utworzone podziały zestawów treningowych. | 60 000 | Obrazy | Klasyfikacja | 2009 | A. Krizhevsky i in. | |
Zbiór danych CINIC-10 | Zunifikowany wkład CIFAR-10 i Imagenet z 10 klasami i 3 splitami. Większy niż CIFAR-10. | Oznakowane klasy, uczenie, walidacja, utworzone podziały zestawu testowego. | 270 000 | Obrazy | Klasyfikacja | 2018 | Luke N. Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey | |
Moda-MNIST | Baza danych produktów modowych podobna do MNIST | Klasy oznaczone, utworzone podziały zestawów treningowych. | 60 000 | Obrazy | Klasyfikacja | 2017 | Zalando SE | |
notMNIST | Niektóre publicznie dostępne czcionki i wyodrębnione z nich glify w celu utworzenia zestawu danych podobnego do MNIST. Jest 10 klas, z literami AJ zaczerpniętymi z różnych czcionek. | Klasy oznaczone, utworzone podziały zestawów treningowych. | 500 000 | Obrazy | Klasyfikacja | 2011 | Jarosław Bułatow | |
Niemiecki zestaw danych porównawczych wykrywania znaków drogowych | Obrazy z pojazdów znaków drogowych na niemieckich drogach. Znaki te są zgodne z normami ONZ i dlatego są takie same jak w innych krajach. | Znaki ręcznie oznakowane | 900 | Obrazy | Klasyfikacja | 2013 | S Houben i in. | |
Zestaw danych KITTI Vision Benchmark | Autonomiczne pojazdy przejeżdżające przez średniej wielkości miasto rejestrowały obrazy różnych obszarów za pomocą kamer i skanerów laserowych. | Wiele benchmarków wyodrębnionych z danych. | >100 GB danych | Obrazy, tekst | Klasyfikacja, wykrywanie obiektów | 2012 | Geiger i in. | |
Zbiór danych Linneusza 5 | Obrazy 5 klas obiektów. | Klasy oznaczone, utworzone podziały zestawów treningowych. | 8000 | Obrazy | Klasyfikacja | 2017 | Chaladze i Kalatozishvili | |
FieldSAFE | Multimodalny zestaw danych do wykrywania przeszkód w rolnictwie, w tym kamera stereo, kamera termowizyjna, kamera internetowa, kamera 360 stopni, lidar, radar i precyzyjna lokalizacja. | Klasy oznaczone geograficznie. | >400 GB danych | Obrazy i chmury punktów 3D | Klasyfikacja, wykrywanie obiektów, lokalizacja obiektów | 2017 | M. Kragh i in. | |
11 000 rąk | 11076 obrazów dłoni (1600 x 1200 pikseli) 190 osób w różnym wieku od 18 do 75 lat, w celu rozpoznania płci i identyfikacji biometrycznej. | Nic | 11076 obrazów dłoni | Obrazy i pliki etykiet (.mat, .txt i .csv) | Rozpoznawanie płci i identyfikacja biometryczna | 2017 | M Afifi | |
Rdzeń50 | Specjalnie zaprojektowany do ciągłego uczenia się i rozpoznawania obiektów, jest zbiorem ponad 500 filmów (30 klatek na sekundę) z 50 przedmiotami domowymi należącymi do 10 różnych kategorii. | Klasy oznaczone, podziały zestawów treningowych utworzone na podstawie 3-way, multi-runs benchmark. | 164 866 obrazów RBG-D | obrazy (.png lub .pkl)
i (.pkl, .txt, .tsv) pliki etykiet |
Klasyfikacja, rozpoznawanie obiektów | 2017 | V. Lomonaco i D. Maltoni | |
Obiekt OpenLORIS | Zestaw danych Lifelong/Continual Robotic Vision (OpenLORIS-Object) gromadzony przez prawdziwe roboty zamontowane za pomocą wielu czujników o wysokiej rozdzielczości, zawiera zbiór 121 instancji obiektów (pierwsza wersja zestawu danych, 40 kategorii obiektów codziennego użytku w 20 scenach). Zestaw danych rygorystycznie uwzględnia 4 czynniki środowiskowe w różnych scenach, w tym oświetlenie, okluzję, rozmiar piksela obiektu i bałagan, oraz wyraźnie definiuje poziomy trudności każdego czynnika. | Klasy oznaczone, podziały zestawów treningowych/walidacyjnych/testowych utworzone przez skrypty porównawcze. | 1 106 424 obrazów RBG-D | obrazy (.png i .pkl)
i (.pkl) pliki etykiet |
Klasyfikacja, Rozpoznawanie obiektów przez całe życie, Robotic Vision | 2019 | P. Ona i in. | |
Zestaw danych THz i termicznych wideo | Ten wielospektralny zestaw danych obejmuje filmy terahercowe, termiczne, wizualne, bliskie podczerwieni i trójwymiarowe filmy obiektów ukrytych pod ubraniami ludzi. | Dostępne są tabele przeglądowe 3D, które umożliwiają rzutowanie obrazów na chmury punktów 3D. | Ponad 20 filmów. Czas trwania każdego filmu to około 85 sekund (około 345 klatek). | AP2J | Eksperymenty z wykrywaniem ukrytych obiektów | 2019 | Aleksiej A. Morozow i Olga S. Sushkova |
Pismo odręczne i rozpoznawanie znaków
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zestaw danych sztucznych znaków | Sztucznie wygenerowane dane opisujące strukturę 10 wielkich angielskich liter. | Współrzędne narysowanych linii podane jako liczby całkowite. Różne inne funkcje. | 6000 | Tekst | Rozpoznawanie pisma ręcznego, klasyfikacja | 1992 | H. Guvenir i in. | |
Zbiór danych listowych | Wielkie litery drukowane. | Ze wszystkich obrazów wyodrębniono 17 funkcji. | 20 000 | Tekst | OCR, klasyfikacja | 1991 | D. Slate i in. | |
CASIA-HWDB | Offline odręcznie pisana baza danych chińskich znaków . 3755 klas w zestawie znaków GB 2312 . | Obrazy w skali szarości z pikselami tła oznaczonymi jako 255. | 1172,907 | Obrazy, tekst | Rozpoznawanie pisma ręcznego, klasyfikacja | 2009 | CASIA | |
CASIA-OLHWDB | Internetowa baza danych odręcznych chińskich znaków, zebrana za pomocą pióra Anoto na papierze. 3755 klas w zestawie znaków GB 2312 . | Udostępnia sekwencje współrzędnych pociągnięć. | 1 174 364 | Obrazy, tekst | Rozpoznawanie pisma ręcznego, klasyfikacja | 2009 | CASIA | |
Zestaw danych trajektorii znaków | Oznakowane próbki trajektorii końcówek pióra dla osób piszących proste znaki. | 3-wymiarowa macierz trajektorii prędkości końcówki pióra dla każdej próbki | 2858 | Tekst | Rozpoznawanie pisma ręcznego, klasyfikacja | 2008 | B. Williamsa | |
Zbiór danych Chars74K | Rozpoznawanie znaków w naturalnych obrazach symboli używanych zarówno w języku angielskim, jak i kannada | 74 107 | Rozpoznawanie znaków, rozpoznawanie pisma ręcznego, OCR, klasyfikacja | 2009 | T. de Campos | |||
Zestaw danych znaków pióra UJI | Pojedyncze odręczne znaki | Podano współrzędne położenia pióra w postaci napisanych znaków. | 11 640 | Tekst | Rozpoznawanie pisma ręcznego, klasyfikacja | 2009 | F. Prat i in. | |
Zbiór danych Gisette | Próbki pisma odręcznego z często mylonych 4 i 9 znaków. | Funkcje wyodrębnione z obrazów, podzielone na pociąg/test, obrazy pisma ręcznego o znormalizowanym rozmiarze. | 13500 | Obrazy, tekst | Rozpoznawanie pisma ręcznego, klasyfikacja | 2003 | Yann LeCun i in. | |
Zbiór danych Omniglotu | 1623 różnych odręcznych znaków z 50 różnych alfabetów. | Znakowane ręcznie. | 38,300 | Obrazy, tekst, obrysy | Klasyfikacja, jednorazowa nauka | 2015 | Amerykańskie Stowarzyszenie Postępu Nauki | |
Baza danych MNIST | Baza odręcznych cyfr. | Znakowane ręcznie. | 60 000 | Obrazy, tekst | Klasyfikacja | 1998 | Narodowy Instytut Standardów i Technologii | |
Optyczne rozpoznawanie zbioru danych odręcznych cyfr | Znormalizowane mapy bitowe danych pisanych odręcznie. | Rozmiar znormalizowany i mapowany na mapy bitowe. | 5620 | Obrazy, tekst | Rozpoznawanie pisma ręcznego, klasyfikacja | 1998 | E. Alpaydin i in. | |
Rozpoznawanie za pomocą pióra zbioru danych odręcznych cyfr | Odręcznie napisane cyfry na elektronicznym tablecie z piórem. | Wyodrębnione wektory cech są równomiernie rozmieszczone. | 10 992 | Obrazy, tekst | Rozpoznawanie pisma ręcznego, klasyfikacja | 1998 | E. Alpaydin i in. | |
Semeion odręcznie napisany zestaw danych cyfrowych | Cyfry odręcznie od 80 osób. | Wszystkie odręczne cyfry zostały znormalizowane pod kątem rozmiaru i przyporządkowane do tej samej siatki. | 1593 | Obrazy, tekst | Rozpoznawanie pisma ręcznego, klasyfikacja | 2008 | T. Srl | |
HASYv2 | Odręczne symbole matematyczne | Wszystkie symbole są wyśrodkowane i mają rozmiar 32px x 32px. | 168233 | Obrazy, tekst | Klasyfikacja | 2017 | Martina Thomasa | |
Głośny odręczny zestaw danych Bangla | Zawiera odręczny zestaw danych liczbowych (10 klas) i podstawowy zestaw danych znakowych (50 klas), każdy zestaw danych ma trzy rodzaje szumu: biały gaussowski, rozmycie ruchu i zmniejszony kontrast. | Wszystkie obrazy są wyśrodkowane i mają rozmiar 32x32. | Zbiór danych liczbowych:
23330, Zestaw danych znaków: 76000 |
Obrazy,
tekst |
Rozpoznawanie pisma odręcznego,
Klasyfikacja |
2017 | M. Karki i in. |
Zdjęcia lotnicze
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zbiór danych segmentacji obrazu lotniczego | 80 zdjęć lotniczych o wysokiej rozdzielczości z rozdzielczością przestrzenną od 0,3 do 1,0. | Obrazy ręcznie posegmentowane. | 80 | Obrazy | Klasyfikacja lotnicza, wykrywanie obiektów | 2013 | J. Yuan i in. | |
ZESTAW ZBIORU DANYCH AIS | Wiele oznaczonych zestawów danych treningowych i ewaluacyjnych zawierających zdjęcia lotnicze tłumów. | Obrazy ręcznie oznaczone, aby pokazywać ścieżki poszczególnych osób w tłumie. | ~150 | Obrazy ze ścieżkami | Śledzenie osób, śledzenie z powietrza | 2012 | M. Butenuth i in. | |
Zbiór danych więdnięcia | Dane teledetekcyjne chorych drzew i innego pokrycia terenu. | Wyodrębniono różne funkcje. | 4899 | Obrazy | Klasyfikacja, wykrywanie obiektów lotniczych | 2014 | B. Johnsona | |
Zbiór danych MASATI | Sceny morskie optycznych zdjęć lotniczych z widma widzialnego. Zawiera kolorowe obrazy w dynamicznych środowiskach morskich, każdy obraz może zawierać jeden lub wiele celów w różnych warunkach pogodowych i oświetleniowych. | Ramki ograniczające obiekt i etykiety. | 7389 | Obrazy | Klasyfikacja, wykrywanie obiektów lotniczych | 2018 | A.-J. Gallego i in. | |
Zestaw danych mapowania typu lasu | Zdjęcia satelitarne lasów w Japonii. | Wyodrębnione pasma długości fal obrazu. | 326 | Tekst | Klasyfikacja | 2015 | B. Johnsona | |
Zbiór danych badawczych z obrazowania nad głową | Zdjęcia nad głową z adnotacjami. Obrazy z wieloma obiektami. | Ponad 30 adnotacji i ponad 60 statystyk opisujących cel w kontekście obrazu. | 1000 | Obrazy, tekst | Klasyfikacja | 2009 | F. Tanner i in. | |
Sieć kosmiczna | SpaceNet to zbiór komercyjnych zdjęć satelitarnych i oznaczonych danych treningowych. | Pliki GeoTiff i GeoJSON zawierające obrysy budynków. | >17533 | Obrazy | Klasyfikacja, identyfikacja obiektu | 2017 | DigitalGlobe, Inc. | |
Zbiór danych dotyczących użytkowania gruntów UC Merced | Te obrazy zostały ręcznie wyodrębnione z dużych obrazów z kolekcji USGS National Map Urban Area Imagery dla różnych obszarów miejskich w Stanach Zjednoczonych. | Jest to zestaw danych obrazu użytkowania gruntów 21 klasy przeznaczony do celów badawczych. Dla każdej klasy jest 100 zdjęć. | 2100 | Fragmenty obrazu 256x256, 30 cm (1 stopa) GSD | Klasyfikacja pokrycia terenu | 2010 | Yi Yang i Shawn Newsam | |
Powietrzny zestaw danych SAT-4 | Obrazy zostały wyodrębnione ze zbioru danych Narodowego Programu Obrazowania Rolnictwa (NAIP). | SAT-4 ma cztery szerokie klasy pokrycia terenu, w tym grunty jałowe, drzewa, użytki zielone oraz klasę, która obejmuje wszystkie klasy pokrycia terenu inne niż powyższe trzy. | 500 000 | Obrazy | Klasyfikacja | 2015 | S. Basu i in. | |
SAT-6 Powietrzny zestaw danych | Obrazy zostały wyodrębnione ze zbioru danych Narodowego Programu Obrazowania Rolnictwa (NAIP). | SAT-6 ma sześć szerokich klas pokrycia terenu, w tym nieużytki, drzewa, użytki zielone, drogi, budynki i zbiorniki wodne. | 405 000 | Obrazy | Klasyfikacja | 2015 | S. Basu i in. |
Inne obrazy
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zbiór danych SUPATLANTIQUE | Obrazy zeskanowanych dokumentów urzędowych i Wikipedii | Nic | 4908 | TIFF/pdf | Identyfikacja urządzenia źródłowego, wykrywanie fałszerstw, klasyfikacja, .. | 2020 | C. Ben Rabah i in. | |
Symulacje kwantowe grafenu oparte na teorii funkcjonału gęstości | Oznaczone obrazy surowych danych wejściowych do symulacji grafenu | Surowe dane (w formacie HDF5) i etykiety wyjściowe z symulacji kwantowej teorii funkcjonału gęstości | 60744 test i 501473 pliki szkoleniowe | Obrazy oznaczone etykietami | Regresja | 2019 | K. Mills i I. Tamblyn | |
Symulacje kwantowe elektronu w dwuwymiarowej studni potencjału | Oznakowane obrazy surowych danych wejściowych do symulacji mechaniki kwantowej 2D | Surowe dane (w formacie HDF5) i etykiety wyjściowe z symulacji kwantowej | 1,3 miliona obrazów | Obrazy oznaczone etykietami | Regresja | 2017 | K. Mills, MA Spanner i I. Tamblyn | |
Zbiór danych dotyczących czynności kulinarnych MPII | Filmy i zdjęcia różnych czynności kulinarnych. | Ścieżki i kierunki aktywności, etykiety, szczegółowe etykietowanie ruchu, klasa aktywności, wyodrębnianie i etykietowanie nieruchomych obrazów. | 881.755 klatek | Oznaczone filmy, obrazy, tekst | Klasyfikacja | 2012 | M. Rohrbach i in. | |
Zbiór danych FAMOS | 5000 unikalnych mikrostruktur, wszystkie próbki zostały pobrane 3 razy za pomocą dwóch różnych kamer. | Oryginalne pliki PNG, posortowane według kamery, a następnie według akwizycji. Pliki danych MATLAB z jedną matrycą 16384 razy 5000 na kamerę na akwizycję. | 30 000 | Obrazy i pliki .mat | Uwierzytelnianie | 2012 | S. Voloshynovskiy i in. | |
Zbiór danych PharmaPack | 1000 unikalnych klas z 54 obrazami na klasę. | Etykietowanie klas, wiele lokalnych deskryptorów, takich jak SIFT i aKaZE, oraz lokalne agregatory cech, takie jak Fisher Vector (FV). | 54 000 | Obrazy i pliki .mat | Klasyfikacja drobnoziarnista | 2017 | O. Taran i S. Rezaeifar, et al. | |
Zbiór danych psów Stanford | Zdjęcia 120 ras psów z całego świata. | Udostępniono podziały trenowania/testowania i adnotacje ImageNet. | 20 580 | Obrazy, tekst | Klasyfikacja drobnoziarnista | 2011 | A. Khosla i in. | |
Dodatkowy zestaw danych Stanford | Kluczowe punkty 2D i segmentacje dla zbioru danych Stanford Dogs. | Dostarczono kluczowe punkty 2D i segmentacje. | 12,035 | Obrazy oznaczone etykietami | Rekonstrukcja 3D/oszacowanie pozy | 2020 | B. Biggsa i in. | |
Zbiór danych zwierząt domowych Oxford-IIIT | 37 kategorii zwierząt domowych z około 200 obrazami każdego z nich. | Oznaczone rasą, ciasne pole ograniczające, segmentacja pierwszy plan-tło. | ~ 7400 | Obrazy, tekst | Klasyfikacja, wykrywanie obiektów | 2012 | O. Parkhi i in. | |
Corel Image Features Zestaw danych | Baza obrazów z wyodrębnionymi cechami. | Wiele funkcji, w tym histogram kolorów, tekstura współwystępowania i momenty kolorów, | 68 040 | Tekst | Klasyfikacja, wykrywanie obiektów | 1999 | M. Ortega-Bindenberger i in. | |
Charakterystyka wideo online i zbiór danych czasu transkodowania. | Czasy transkodowania dla różnych filmów i właściwości wideo. | Podano funkcje wideo. | 168 286 | Tekst | Regresja | 2015 | T. Deneke i in. | |
Narracyjny zestaw danych obrazu sekwencyjnego firmy Microsoft (SIND) | Zbiór danych dla sekwencyjnej wizji na język | Przy każdym zdjęciu podany jest opisowy podpis i narracja, a zdjęcia ułożone są w sekwencje | 81 743 | Obrazy, tekst | Opowiadanie wizualne | 2016 | Badania firmy Microsoft | |
Caltech-UCSD Birds-200-2011 Zestaw danych | Duży zbiór danych obrazów ptaków. | Lokalizacje części dla ptaków, ramki ograniczające, podano 312 atrybutów binarnych | 11 788 | Obrazy, tekst | Klasyfikacja | 2011 | C. Wah i in. | |
YouTube-8M | Duży i zróżnicowany zbiór danych wideo oznaczonych etykietami | Identyfikatory wideo YouTube i powiązane etykiety z różnorodnego słownictwa 4800 jednostek wizualnych | 8 milionów | Wideo, tekst | Klasyfikacja wideo | 2016 | S. Abu-El-Haija i in. | |
YFCC100M | Duży i różnorodny zestaw danych obrazów i wideo oznaczonych etykietami | Filmy i obrazy Flickr oraz powiązane opisy, tytuły, tagi i inne metadane (takie jak EXIF i geotagi) | 100 milionów | Wideo, obraz, tekst | Klasyfikacja wideo i obrazu | 2016 | B. Thomee i in. | |
Dyskretny LIRIS-ACCEDE | Krótkie filmy z adnotacjami o wartościowości i podnieceniu. | Etykiety walencyjne i pobudzenia. | 9800 | Wideo | Wykrywanie emocji wideo | 2015 | Y. Baveye i in. | |
Ciągły LIRIS-ACCEDE | Długie filmy z adnotacjami o waleczności i podnieceniu, a także zbierające Galvanic Skin Response. | Etykiety walencyjne i pobudzenia. | 30 | Wideo | Wykrywanie emocji wideo | 2015 | Y. Baveye i in. | |
MediaEval LIRIS-ACCEDE | Rozszerzenie Discrete LIRIS-ACCEDE o adnotacje dotyczące poziomów przemocy w filmach. | Etykiety przemocy, walencji i pobudzenia. | 10900 | Wideo | Wykrywanie emocji wideo | 2015 | Y. Baveye i in. | |
Pozycja sportowa w Leeds | Przegubowe adnotacje ludzkiej pozy w 2000 naturalnych obrazach sportowych z serwisu Flickr. | Szorstkie zbiory wokół jednej interesującej osoby z 14 wspólnymi etykietami | 2000 | Obrazy plus etykiety plików .mat | Oszacowanie ludzkiej pozy | 2010 | S. Johnson i M. Everingham | |
Leeds Sports Pose Extended Training | Przegubowe adnotacje dotyczące ludzkiej pozy na 10 000 naturalnych obrazach sportowych z serwisu Flickr. | 14 wspólnych etykiet poprzez crowdsourcing | dziesięć tysięcy | Obrazy plus etykiety plików .mat | Oszacowanie ludzkiej pozy | 2011 | S. Johnson i M. Everingham | |
Zbiór danych MCQ | 6 różnych rzeczywistych egzaminów wielokrotnego wyboru (735 arkuszy odpowiedzi i 33 540 pól odpowiedzi) w celu oceny technik widzenia komputerowego i systemów opracowanych dla systemów oceny testów wielokrotnego wyboru. | Nic | 735 arkuszy odpowiedzi i 33 540 skrzynek odpowiedzi | Obrazy i etykiety plików .mat | Rozwój systemów oceny testów wielokrotnego wyboru | 2017 | Afifi, M. i in. | |
Filmy z nadzoru | Prawdziwe nagrania wideo z monitoringu obejmują długi czas nadzoru (7 dni po 24 godziny każdy). | Nic | 19 nagrań wideo z monitoringu (7 dni po 24 godziny każdy). | Filmy | Kompresja danych | 2016 | Taj-Eddin, IATF i in. | |
LILA BC | Oznaczona Biblioteka Informacyjna Aleksandrii: Biologia i Ochrona. Obrazy z etykietami, które wspierają badania nad uczeniem maszynowym w zakresie ekologii i nauk o środowisku. | Nic | ~10 mln obrazów | Obrazy | Klasyfikacja | 2019 | Grupa robocza LILA | |
Czy możemy zobaczyć fotosyntezę? | 32 filmy dla ośmiu żywych i ośmiu martwych liści nagranych w warunkach oświetlenia DC i AC. | Nic | 32 filmy | Filmy | Wykrywanie żywotności roślin | 2017 | Taj-Eddin, IATF i in. |
Dane tekstowe
Zestawy danych składające się głównie z tekstu do zadań takich jak przetwarzanie języka naturalnego , analiza sentymentu , tłumaczenie i analiza klastrów .
Opinie
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Recenzje Amazon | Recenzje produktów w USA z Amazon.com . | Nic. | 233,1 miliona | Tekst | Klasyfikacja, analiza sentymentu | 2015 (2018) | McAuley i in. | |
Zbiór danych recenzji OpinRank | Recenzje samochodów i hoteli odpowiednio z Edmunds.com i TripAdvisor . | Nic. | 42 230 / ~259 000 odpowiednio | Tekst | Analiza nastrojów, grupowanie | 2011 | K. Ganesan i in. | |
Obiektyw filmu | 22 000 000 ocen i 580 000 tagów zastosowanych do 33 000 filmów przez 240 000 użytkowników. | Nic. | ~ 22M | Tekst | Regresja, grupowanie, klasyfikacja | 2016 | Badania GroupLens | |
Wieśniak! Muzyczne oceny artystów muzycznych | Ponad 10 milionów ocen artystów przez użytkowników Yahoo. | Nie opisano. | ~ 10M | Tekst | Klastrowanie, regresja | 2004 | Wieśniak! | |
Zestaw danych oceny samochodu | Właściwości samochodów i ich ogólna akceptowalność. | Podano sześć kategorycznych cech. | 1728 | Tekst | Klasyfikacja | 1997 | M. Bohanec | |
Zbiór danych preferencji YouTube Comedy Slam | Dane głosowania użytkowników na pary filmów wyświetlanych w YouTube. Użytkownicy głosowali na zabawniejsze filmy. | Podano metadane wideo. | 1 138 562 | Tekst | Klasyfikacja | 2012 | ||
Zbiór danych opinii użytkowników Skytrax | Recenzje użytkowników linii lotniczych, lotnisk, siedzeń i poczekalni Skytrax. | Oceny są drobiazgowe i obejmują wiele aspektów doświadczenia na lotnisku. | 41396 | Tekst | Klasyfikacja, regresja | 2015 | Q. Nguyen | |
Zbiór danych oceny asystenta nauczania | Recenzje asystenta nauczania. | Podane są cechy każdej instancji, takie jak klasa, wielkość klasy i instruktor. | 151 | Tekst | Klasyfikacja | 1997 | W. Loh i in. | |
Korpus informacji zwrotnej dla studentów wietnamskich (UIT-VSFC) | Opinie uczniów. | Uwagi | 16 000 | Tekst | Klasyfikacja | 1997 | Nguyen i in. | |
Wietnamski Korpus Emocji w Mediach Społecznościowych (UIT-VSMEC) | Komentarze użytkowników na Facebooku. | Uwagi | 6927 | Tekst | Klasyfikacja | 1997 | Nguyen i in. | |
Wietnamski zbiór danych wykrywania reklamacji w otwartej domenie (ViOCD) | Recenzje produktów klientów | Uwagi | 5485 | Tekst | Klasyfikacja | 2021 | Nguyen i in. |
Artykuły z wiadomościami
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zbiór danych NYSK | Angielskie artykuły prasowe o sprawie dotyczącej zarzutów napaści na tle seksualnym wobec byłego dyrektora MFW Dominique'a Strauss-Kahna . | Filtrowane i prezentowane w formacie XML. | 10 421 | XML, tekst | Analiza sentymentu, wyodrębnianie tematów | 2013 | Dermouche, M. i in. | |
Tom 1 Korpusu Reutera | Duży zbiór wiadomości Reuters w języku angielskim. | Kategoryzacja drobnoziarnista i kody tematów. | 810 000 | Tekst | Klasyfikacja, grupowanie, podsumowanie | 2002 | Reuters | |
Tom 2 Korpusu Reutera | Duży zbiór wiadomości Reuters w wielu językach. | Kategoryzacja drobnoziarnista i kody tematów. | 487 000 | Tekst | Klasyfikacja, grupowanie, podsumowanie | 2005 | Reuters | |
Zbiór badań tekstowych Thomson Reuters | Duży zbiór wiadomości. | Szczegóły nie opisane. | 1800,370 | Tekst | Klasyfikacja, grupowanie, podsumowanie | 2009 | T. Rose i in. | |
Gazety saudyjskie Corpus | 31.030 arabskich artykułów prasowych. | Wyodrębnione metadane. | 31.030 | JSON | Podsumowanie, grupowanie | 2015 | M. Alhagri | |
RE3D (Zestaw danych oceny relacji i wyodrębniania jednostek) | Entity and Relation oznaczały dane z różnych źródeł wiadomości i źródeł rządowych. Sponsorowane przez Dstl | Filtrowane, kategoryzacja za pomocą typów Baleen | nieznany | JSON | Klasyfikacja, rozpoznawanie podmiotów i relacji | 2017 | Dstl | |
Katalog Clickbait dla egzaminatorów spamu | Clickbait, spam, nagłówki crowd-sourced od 2010 do 2015 | Data publikacji i nagłówki | 3 089 781 | CSV | Klastrowanie, wydarzenia, nastroje | 2016 | R. Kulkarni | |
ABC Australia Aktualności Corpus | Cały korpus wiadomości ABC Australia od 2003 do 2019 roku | Data publikacji i nagłówki | 1.186.018 | CSV | Klastrowanie, wydarzenia, nastroje | 2020 | R. Kulkarni | |
Wiadomości z całego świata – zagregowane 20 tys. kanałów | Migawka wszystkich nagłówków online z tygodnia w ponad 20 językach | Czas publikacji, adres URL i nagłówki | 1 398 431 | CSV | Klastrowanie, zdarzenia, wykrywanie języka | 2018 | R. Kulkarni | |
Nagłówek wiadomości Reutera | 11 lat wydarzeń z sygnaturą czasową publikowanych w news-wire | Czas publikacji, tekst nagłówka | 16 121 310 | CSV | NLP, lingwistyka komputerowa, wydarzenia | 2018 | R. Kulkarni | |
The Irish Times Ireland News Corpus | 24 lata Irlandii Wiadomości od 1996 do 2019 | Czas publikacji, kategoria nagłówka i tekst | 1,484,340 | CSV | NLP, lingwistyka komputerowa, wydarzenia | 2020 | R. Kulkarni | |
Zbiór danych nagłówków wiadomości do wykrywania sarkazmu | Zestaw danych wysokiej jakości z sarkastycznymi i niesarkastycznymi nagłówkami wiadomości. | Czysty, znormalizowany tekst | 26 709 | JSON | NLP, klasyfikacja, językoznawstwo | 2018 | Rishabh Misra |
Wiadomości
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zbiór danych e-mail Enron | E-maile od pracowników Enronu zorganizowane w foldery. | Usunięto załączniki, nieprawidłowe adresy e-mail przekonwertowane na user@enron.com lub no_address@enron.com. | ~ 500 000 | Tekst | Analiza sieci, analiza sentymentu | 2004 (2015) | Klimt, B. i Y. Yang | |
Zbiór danych spamu Ling | Korpus zawierający zarówno legalne, jak i spamowe wiadomości e-mail. | Cztery wersje korpusu dotyczące tego, czy włączono lematyzator lub stop-listę. | 2412 Szynka 481 Spam | Tekst | Klasyfikacja | 2000 | Androutsopoulos, J. i in. | |
Zbiór danych zbierania spamu SMS | Zebrane wiadomości SMS będące spamem. | Nic. | 5,574 | Tekst | Klasyfikacja | 2011 | T. Almeida i in. | |
Zbiór danych dwudziestu grup dyskusyjnych | Wiadomości z 20 różnych grup dyskusyjnych. | Nic. | 20 000 | Tekst | Przetwarzanie języka naturalnego | 1999 | T. Mitchell i in. | |
Zbiór danych bazy spamu | E-maile spamowe. | Wyodrębniono wiele funkcji tekstowych. | 4601 | Tekst | Wykrywanie spamu, klasyfikacja | 1999 | M. Hopkins i in. | |
Zbiór danych ColBERT | Krótkie żarty. | Usunięto wartości odstające. | 200 000 | Tekst | Wykrywanie humoru, klasyfikacja | 2020 | I. Annamoradnejad. |
Twitter i tweety
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
FilmyTweetingi | Zestaw danych do oceny filmów na podstawie publicznych i dobrze ustrukturyzowanych tweetów | ~710.000 | Tekst | Klasyfikacja, regresja | 2018 | S. Zagłady | ||
Twitter100 tys. | Pary obrazków i tweetów | 100 000 | Tekst i obrazy | Wyszukiwanie cross-media | 2017 | Y. Hu i in. | ||
Sentyment140 | Dane tweeta z 2009 r., w tym oryginalny tekst, znacznik czasu, użytkownik i sentyment. | Klasyfikowane przy użyciu nadzoru na odległość od obecności emotikonów w tweecie. | 1 578 627 | Tweety, przecinek, wartości rozdzielone | Analiza sentymentu | 2009 | A. Go i in. | |
Zbiór danych ASU na Twitterze | Dane z sieci Twittera, a nie rzeczywiste tweety. Pokazuje połączenia między dużą liczbą użytkowników. | Nic. | 11 316 811 użytkowników, 85 331 846 połączeń | Tekst | Klastrowanie, analiza wykresów | 2009 | R. Zafarani i in. | |
Kręgi społecznościowe SNAP: baza danych na Twitterze | Duże dane z sieci Twittera. | Cechy węzłów, kręgi i sieci ego. | 1,768,149 | Tekst | Klastrowanie, analiza wykresów | 2012 | J. McAuley i in. | |
Zestaw danych Twittera do analizy nastrojów w języku arabskim | Arabskie tweety. | Próbki ręcznie oznakowane jako pozytywne lub negatywne. | 2000 | Tekst | Klasyfikacja | 2014 | N. Abdulla | |
Buzz w zbiorze danych mediów społecznościowych | Dane z Twittera i Tom's Hardware. Ten zbiór danych koncentruje się na konkretnych tematach buzzów omawianych w tych witrynach. | Dane są wyświetlane w oknach, dzięki czemu użytkownik może spróbować przewidzieć zdarzenia prowadzące do szumu w mediach społecznościowych. | 140 000 | Tekst | Regresja, Klasyfikacja | 2013 | F. Kawala i in. | |
Parafraza i podobieństwo semantyczne w Twitterze (PIT) | Ten zestaw danych skupia się na tym, czy tweety mają (prawie) takie samo znaczenie/informacje, czy nie. Oznaczone ręcznie. | tokenizacja, tagowanie części mowy i nazwanych encji | 18 762 | Tekst | Regresja, Klasyfikacja | 2015 | Xu i in. | |
Geoparsuj zestaw danych porównawczych Twittera | Ten zbiór danych zawiera tweety podczas różnych wydarzeń informacyjnych w różnych krajach. Ręcznie oznaczone wzmianki o lokalizacji. | adnotacje lokalizacji dodane do metadanych JSON | 6 386 | Tweety, JSON | Klasyfikacja, wyodrębnianie informacji | 2014 | SE Middleton i in. | |
Holenderska kolekcja mediów społecznościowych | Ten zbiór danych zawiera tweety na temat COVID-19 stworzone przez osoby posługujące się językiem holenderskim lub użytkowników z Holandii. Dane zostały opatrzone adnotacją maszynową | sklasyfikowany za sentyment, tekst tweeta i opis użytkownika przetłumaczony na język angielski. Wzmianki branżowe są wydobywane | 271,342 | JSONL | Sentyment, klasyfikacja z wieloma etykietami, tłumaczenie maszynowe | 2020 | Aaaksh Gupta, CoronaDlaczego |
Dialogi
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Korpus czatu NPS | Posty z czatów online dla określonych grup wiekowych. | Prywatność dłoni zamaskowana, oznaczona jako część mowy i dialog-akt. | ~ 500 000 | XML | NLP, programowanie, lingwistyka | 2007 | Forsyth E., Lin J. i Martell C. | |
Potrójny korpus na Twitterze | Trójki ABA wydobyte z Twittera. | 4232 | Tekst | NLP | 2016 | Sordini, A. i in. | ||
UseNet Corpus | Posty na forum UseNet. | Anonimowe e-maile i adresy URL. Pominięte dokumenty o długości <500 słów lub >500 000 słów lub zawierające język angielski w <90%. | 7 miliardów | Tekst | 2011 | Shaoul, C. i Westbury C. | ||
Korpus SMS NUS | Wiadomości SMS zbierane między dwoma użytkownikami, z analizą czasową. | ~ 10 000 | XML | NLP | 2011 | KAN, M | ||
Reddit Wszystkie Komentarze Corpus | Wszystkie komentarze Reddit (stan na 2015 r.). | ~ 1,7 miliarda | JSON | NLP, badania | 2015 | Stuck_In_the_Matrix | ||
Korpus dialogowy Ubuntu | Dialogi wyodrębnione ze strumienia czatu Ubuntu na IRC. | CSV | Badania systemów dialogu | 2015 | Lowe, R. i in. | |||
Wyzwanie śledzenia stanu dialogu | Wyzwania dotyczące śledzenia stanu dialogu 2 i 3 (DSTC2 i 3) były wyzwaniem badawczym skoncentrowanym na poprawie stanu wiedzy w zakresie śledzenia stanu systemów dialogu mówionego. | Transkrypcja wypowiadanych dialogów z etykietowaniem | DSTC2 zawiera ~3,2k połączeń – DSTC3 zawiera ~2,3k połączeń | Json | Śledzenie stanu dialogu | 2014 | Henderson, Matthew i Thomson, Blaise i Williams, Jason D |
Inny tekst
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zbiór danych Web of Science | Hierarchiczne zbiory danych do klasyfikacji tekstu | Nic. | 46,985 | Tekst | Klasyfikacja,
Kategoryzacja |
2017 | K. Kowsari i in. | |
Sprawozdania prawne | Sprawy Sądu Federalnego Australii od 2006 do 2009 roku. | Nic. | 4000 | Tekst | Podsumowanie,
analiza cytowań |
2012 | F. Galgani i in. | |
Korpus autorstwa Bloggera | Wpisy na blogu 19320 osób z blogger.com. | Blogger sam podał płeć, wiek, branżę i znak zodiaku. | 681.288 | Tekst | Analiza sentymentu, podsumowanie, klasyfikacja | 2006 | J. Schler i in. | |
Struktura społecznościowa sieci Facebook | Duży zbiór danych o strukturze społecznościowej Facebooka. | Nic. | Obejmuje 100 uczelni | Tekst | Analiza sieci, klastrowanie | 2012 | Traud i in. | |
Zestaw danych do maszynowego rozumienia tekstu | Historie i związane z nimi pytania do testowania rozumienia tekstu. | Nic. | 660 | Tekst | Przetwarzanie języka naturalnego, rozumienie maszynowe | 2013 | M. Richardson i in. | |
Projekt Penn Treebank | Tekst naturalnie występujący z adnotacjami dla struktury językowej. | Tekst jest dzielony na drzewa semantyczne. | ~ 1 mln słów | Tekst | Przetwarzanie języka naturalnego, podsumowania | 1995 | M. Marcus i in. | |
Zbiór danych DEXTER | Podane zadanie polega na ustaleniu, na podstawie podanych cech, które artykuły dotyczą przejęć firm. | Wyodrębnione funkcje obejmują rdzenie słów. Zawiera funkcje rozpraszające. | 2600 | Tekst | Klasyfikacja | 2008 | Reuters | |
N-gramy w Książkach Google | N-gramy z bardzo dużego zbioru książek | Nic. | 2,2 TB tekstu | Tekst | Klasyfikacja, grupowanie, regresja | 2011 | ||
Personae Corpus | Zbierane do eksperymentów w zakresie przypisywania autorstwa i przewidywania osobowości. Składa się z 145 esejów w języku niderlandzkim. | Oprócz zwykłych tekstów podane są teksty z adnotacjami składniowymi. | 145 | Tekst | Klasyfikacja, regresja | 2008 | K. Luyckx i in. | |
Zbiór danych CNAE-9 | Zadanie kategoryzacji dla dowolnych opisów tekstowych brazylijskich firm. | Wyodrębniono częstotliwość słów. | 1080 | Tekst | Klasyfikacja | 2012 | P. Ciarelli i in. | |
Zbiór danych o zdaniach oznaczonych sentymentem | 3000 zdań oznaczonych sentymentem. | Sentyment każdego zdania został ręcznie oznaczony jako pozytywny lub negatywny. | 3000 | Tekst | Klasyfikacja, analiza sentymentu | 2015 | D. Kotzias | |
Zbiór danych opinii o blogu | Zestaw danych umożliwiający przewidywanie liczby komentarzy otrzymanych przez post na podstawie jego cech. | Wyodrębniono wiele funkcji każdego posta. | 60 021 | Tekst | Regresja | 2014 | K. Buza | |
Korpus Wnioskowania o Języku Naturalnym Stanforda (SNLI) | Podpisy pod obrazami dopasowane do nowo skonstruowanych zdań, tworzących pociąganie, sprzeczność lub neutralne pary. | Etykiety klas Entailment, parsowanie składniowe przez parser Stanford PCFG | 570 000 | Tekst | Wnioskowanie w języku naturalnym/rozpoznawanie wnioskowania tekstowego | 2015 | S. Bowman i in. | |
Kolekcja DSL Corpus (DSLCC) | Wielojęzyczny zbiór krótkich fragmentów tekstów dziennikarskich w podobnych językach i dialektach. | Nic | 294 000 fraz | Tekst | Rozróżnianie podobnych języków | 2017 | Tan, Liling i in. | |
Zbiór danych słownika miejskiego | Korpus słów, głosów i definicji | Anonimizowane nazwy użytkowników | 2 580 925 | CSV | NLP, rozumienie maszyn | 2016 maj | Anonimowy | |
T-REx | Streszczenia Wikipedii dostosowane do jednostek Wikidanych | Dopasowanie trójek Wikidanych z abstraktami Wikipedii | 11 mln wyrównanych trójek | JSON i NIF [2] | NLP, ekstrakcja relacji | 2018 | H. Elsahar i in. | |
Ogólna ocena zrozumienia języka (GLUE) | Benchmark dziewięciu zadań | Różny | ~1 mln zdań i par zdań | NLU | 2018 | Wang i in. | ||
Contract Understanding Atticus Dataset (CUAD) (wcześniej znany jako Atticus Open Contract Dataset (AOK)) | Zbiór danych umów prawnych z bogatymi adnotacjami eksperckimi | ~13 000 etykiet | CSV i PDF | Przetwarzanie języka naturalnego, QnA | 2021 | Projekt Atticus | ||
Zbiór danych wietnamskich napisów do obrazów (UIT-ViIC) | Zbiór danych wietnamskich napisów do obrazów | 19 250 podpisów do 3850 obrazów | CSV i PDF | Przetwarzanie języka naturalnego, Wizja komputerowa | 2020 | Lam i in. | ||
Nazwiska wietnamskie z adnotacjami o płci (UIT-ViNames) | Nazwy wietnamskie z adnotacjami Płeć | 26 850 wietnamskich pełnych imion z adnotacjami płci | CSV | Przetwarzanie języka naturalnego | 2020 | Do et al. | ||
Zestaw wietnamskich danych dotyczących wykrywania konstruktywnej i toksycznej mowy (UIT-ViCTSD) | Wietnamski zestaw danych do wykrywania konstruktywnej i toksycznej mowy | 10 000 komentarzy wietnamskich użytkowników w gazetach internetowych w 10 domenach | CSV | Przetwarzanie języka naturalnego | 2021 | Nguyen i in. | ||
Zbiór danych ColBERT | Krótkie żarty. | Usunięto wartości odstające. | 200 000 | Tekst | Wykrywanie humoru, klasyfikacja | 2020 | Annamoradnejad i in. |
Dane dźwiękowe
Zestawy danych dźwięków i funkcji dźwiękowych.
Przemówienie
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zero Resource Speech Challenge 2015 | Mowa spontaniczna (angielski), Mowa odczytana (Xitsonga). | surowa fala | angielski: 5h, 12 mówców; Xitsonga: 2h30; 24 głośniki | dźwięk | Nienadzorowane wykrywanie funkcji mowy/jednostek podsłów/jednostek słów | 2015 | Versteegh i in. | |
Zbiór danych mowy Parkinsona | Wiele nagrań osób z chorobą Parkinsona i bez niej. | Wyodrębnione cechy głosu, choroba oceniona przez lekarza za pomocą ujednoliconej skali oceny choroby Parkinsona | 1,040 | Tekst | Klasyfikacja, regresja | 2013 | BE Sakar i in. | |
Mówione cyfry arabskie | Mówione cyfry arabskie od 44 mężczyzn i 44 kobiet. | Szeregi czasowe współczynników cepstrum mel-częstotliwości . | 8800 | Tekst | Klasyfikacja | 2010 | M. Bedda i in. | |
Zbiór danych ISOLET | Mówione nazwy liter. | Funkcje wyodrębnione z dźwięków. | 7797 | Tekst | Klasyfikacja | 1994 | R. Cole i in. | |
Zbiór danych japońskich samogłosek | Dziewięć męskich mówców wypowiedziało kolejno dwie japońskie samogłoski. | Zastosowano do niego 12-stopniową analizę predykcyjną liniową, aby uzyskać szereg dyskretnych czasowych z 12 współczynnikami cepstrum. | 640 | Tekst | Klasyfikacja | 1999 | M. Kudo i in. | |
Zbiór danych telemonitorowania Parkinsona | Wiele nagrań osób z chorobą Parkinsona i bez niej. | Wyodrębnione cechy dźwiękowe. | 5875 | Tekst | Klasyfikacja | 2009 | A. Tsanas i in. | |
TIMIT | Nagrania 630 osób mówiących w ośmiu głównych dialektach amerykańskiego angielskiego, z których każdy czyta dziesięć zdań bogatych fonetycznie. | Mowa podlega transkrypcji leksykalnej i fonemicznej. | 6300 | Tekst | Rozpoznawanie mowy, klasyfikacja. | 1986 | J. Garofolo i in. | |
Arabski Korpus Mowy | Pojedyncza głośników, Modern Standard Arabic (MSA) corpus mowy z fonetycznych i ortograficznych transkryptów ustawionych na poziomie fonemów | Mowa jest zapisywana ortograficznie i fonetycznie ze znakami akcentu. | ~1900 | Tekst, WAV | Synteza mowy, rozpoznawanie mowy, wyrównanie korpusu, terapia mowy, edukacja. | 2016 | N. Halabi | |
Wspólny głos | Baza danych domeny publicznej zawierająca dane pochodzące z crowdsourcingu w wielu różnych dialektach. | Walidacja przez innych użytkowników | Angielski: 1118 godzin | MP3 z odpowiednimi plikami tekstowymi | Rozpoznawanie mowy | czerwiec 2017 (grudzień 2019) | Mozilla |
Muzyka
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Pochodzenie geograficzne zbioru danych muzycznych | Funkcje audio próbek muzycznych z różnych lokalizacji. | Funkcje audio wyodrębnione za pomocą oprogramowania MARSYAS. | 1,059 | Tekst | Klasyfikacja geograficzna, grupowanie | 2014 | F. Zhou i in. | |
Zbiór danych miliona utworów | Funkcje audio z miliona różnych utworów. | Wyodrębnione funkcje audio. | 1M | Tekst | Klasyfikacja, grupowanie | 2011 | T. Bertin-Mahieux i in. | |
MUSDB18 | Wielościeżkowe nagrania muzyki popularnej | Surowy dźwięk | 150 | MP4, WAV | Separacja źródła | 2017 | Z. Rafii i in. | |
Darmowe archiwum muzyczne | Audio na licencji Creative Commons z 100 tys. utworów (343 dni, 1TiB) z hierarchią 161 gatunków, metadanymi, danymi użytkownika, tekstem dowolnym. | Surowe funkcje audio i audio. | 106 574 | Tekst, MP3 | Klasyfikacja, rekomendacja | 2017 | M. Defferrard i in. | |
Zbiór danych harmonii chóralnej Bacha | Akordy chorałowe Bacha. | Wyodrębnione funkcje audio. | 5665 | Tekst | Klasyfikacja | 2014 | D. Radicioni i in. |
Inne dźwięki
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Dźwięk miejski | Oznaczone nagrania dźwiękowe dźwięków, takich jak klimatyzatory, klaksony samochodowe i bawiące się dzieci. | Posortowane w foldery według klasy zdarzeń oraz metadanych w pliku JSON i adnotacji w pliku CSV. | 1,059 | Dźwięk
( WAV ) |
Klasyfikacja | 2014 | J. Salamon i in. | |
Zestaw audio | 10-sekundowe fragmenty dźwięków z filmów na YouTube i ontologia ponad 500 etykiet. | 128-d PCA-owskie funkcje VGG co 1 sekundę. | 2 084 320 | Pliki tekstowe (CSV) i TensorFlow Record | Klasyfikacja | 2017 | J. Gemmeke i in., Google | |
Wyzwanie wykrywania dźwięku ptaków | Dźwięk ze stacji monitorujących środowisko oraz nagrania z crowdsourcingu | 17 000+ | Klasyfikacja | 2016 (2018) | Queen Mary University i Stowarzyszenie Przetwarzania Sygnałów IEEE | |||
Hipsterskie mieszanki otoczenia WSJ0 | Dźwięk z WSJ0 zmieszany z szumem nagranym w rejonie zatoki San Francisco | Klipy szumów dopasowane do klipsów WSJ0 | 28 000 | Dźwięk ( WAV ) | Separacja źródła dźwięku | 2019 | Wichern, G. i in., Whisper i MERL | |
Clotho | 4981 próbek audio o długości od 15 do 30 sekund, przy czym każda próbka audio ma pięć różnych napisów o długości od 8 do 20 słów. | 24 905 | Dźwięk ( WAV ) i tekst ( CSV ) | Automatyczne napisy audio | 2020 | K. Drossos, S. Lipping i T. Virtanen |
Dane sygnału
Zestawy danych zawierające informacje o sygnale elektrycznym wymagające pewnego rodzaju przetwarzania sygnału do dalszej analizy.
Elektryczny
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zbiór danych robaka dowcipnego | Zestaw danych szczegółowo opisujący rozprzestrzenianie się robaka Witty i zainfekowanych komputerów. | Podziel na zestaw publicznie dostępny i zestaw zastrzeżony zawierający bardziej poufne informacje, takie jak nagłówki IP i UDP. | 55 909 adresów IP | Tekst | Klasyfikacja | 2004 | Centrum Stosowanej Analizy Danych Internetowych | |
Zestaw danych do szacowania ciśnienia krwi bez mankietu | Oczyszczone sygnały życiowe od ludzkich pacjentów, które można wykorzystać do oszacowania ciśnienia krwi. | Funkcje życiowe 125 Hz zostały wyczyszczone. | 12.000 | Tekst | Klasyfikacja, regresja | 2015 | M. Kachuee i in. | |
Zestaw danych dryfu czujnika gazu | Pomiary z 16 czujników chemicznych wykorzystanych w symulacjach do kompensacji dryfu. | Obszerna liczba podanych funkcji. | 13.910 | Tekst | Klasyfikacja | 2012 | A. Vergara | |
Zestaw danych serwo | Dane obejmujące nieliniowe zależności obserwowane w obwodzie serwowzmacniacza. | Podano poziomy różnych składników w funkcji innych składników. | 167 | Tekst | Regresja | 1993 | K. Ullrich | |
Zbiór danych UJIIndoorLoc-Mag | Baza danych lokalizacji wewnętrznych do testowania systemów lokalizacji wewnętrznej. Dane są oparte na polu magnetycznym. | Podano podziały treningowe i testowe. | 40 000 | Tekst | Klasyfikacja, regresja, grupowanie | 2015 | D. Rambla i in. | |
Zestaw danych diagnostyki napędu bezczujnikowego | Sygnały elektryczne z silników z uszkodzonymi komponentami. | Wyodrębnione cechy statystyczne. | 58,508 | Tekst | Klasyfikacja | 2015 | M. Bator |
Śledzenie ruchu
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Komputery do noszenia: klasyfikacja postaw i ruchów ciała (PUC-Rio) | Osoby wykonujące pięć standardowych czynności podczas noszenia trackerów ruchu. | Nic. | 165,632 | Tekst | Klasyfikacja | 2013 | Papieski Uniwersytet Katolicki w Rio de Janeiro | |
Zestaw danych segmentacji fazy gestów | Funkcje wyodrębnione z filmu przedstawiającego ludzi wykonujących różne gesty. | Wyodrębnione funkcje mają na celu zbadanie segmentacji faz gestów. | 9900 | Tekst | Klasyfikacja, grupowanie | 2014 | R. Madeo i in | |
Zbiór danych dotyczących działań fizycznych Vicon | 10 normalnych i 10 agresywnych działań fizycznych, które mierzą aktywność człowieka śledzoną przez tracker 3D. | Wiele parametrów rejestrowanych przez tracker 3D. | 3000 | Tekst | Klasyfikacja | 2011 | T. Theodoridis | |
Zbiór danych dotyczących codziennych i sportowych aktywności | Dane z czujników motorycznych dla 19 codziennych i sportowych aktywności. | Podano wiele czujników, bez wstępnego przetwarzania sygnałów. | 9120 | Tekst | Klasyfikacja | 2013 | B. Barshan i in. | |
Rozpoznawanie aktywności człowieka przy użyciu zestawu danych smartfonów | Dane z żyroskopu i akcelerometru pochodzące od osób noszących smartfony i wykonujących normalne czynności. | Wykonywane akcje są oznaczone, a wszystkie sygnały są wstępnie przetworzone pod kątem szumu. | 10,299 | Tekst | Klasyfikacja | 2012 | J. Reyes-Ortiz i in. | |
Australijskie znaki języka migowego | Znaki australijskiego języka migowego uchwycone przez rękawice do śledzenia ruchu. | Nic. | 2565 | Tekst | Klasyfikacja | 2002 | M. Kadous | |
Ćwiczenia podnoszenia ciężarów monitorowane za pomocą bezwładnościowych jednostek pomiarowych | Pięć wariantów ćwiczenia uginania bicepsa monitorowanych za pomocą IMU. | Niektóre statystyki obliczone na podstawie surowych danych. | 39 242 | Tekst | Klasyfikacja | 2013 | W. Ugulino i in. | |
sEMG dla podstawowych ruchów dłoni Zestaw danych | Dwie bazy danych powierzchniowych sygnałów elektromiograficznych 6 ruchów ręki. | Nic. | 3000 | Tekst | Klasyfikacja | 2014 | C. Sapsanis i in. | |
Zbiór danych rozpoznawania aktywności REALDISP | Ocena technik zajmujących się skutkami przemieszczenia czujnika w rozpoznawaniu aktywności noszonych na ciele. | Nic. | 1419 | Tekst | Klasyfikacja | 2014 | O. Banos i in. | |
Zbiór danych rozpoznawania aktywności heterogeniczności | Dane z wielu różnych inteligentnych urządzeń dla ludzi wykonujących różne czynności. | Nic. | 43 930 257 | Tekst | Klasyfikacja, grupowanie | 2015 | A. Stisen i in. | |
Przewidywanie ruchu użytkownika w pomieszczeniach na podstawie danych RSS | Tymczasowe dane sieci bezprzewodowej, które można wykorzystać do śledzenia ruchu osób w biurze. | Nic. | 13.197 | Tekst | Klasyfikacja | 2016 | D. Bacciu | |
Zbiór danych monitorowania aktywności fizycznej PAMAP2 | 18 różnych rodzajów aktywności fizycznej wykonywanych przez 9 osób noszących 3 IMU. | Nic. | 3 850 505 | Tekst | Klasyfikacja | 2012 | A. Reissa | |
SZANSA Zbiór danych rozpoznawania aktywności | Rozpoznawanie aktywności człowieka z czujników do noszenia, obiektów i otoczenia to zestaw danych opracowany w celu porównania algorytmów rozpoznawania aktywności człowieka. | Nic. | 2551 | Tekst | Klasyfikacja | 2012 | D. Roggen i in. | |
Zestaw danych rozpoznawania aktywności w świecie rzeczywistym | Rozpoznawanie aktywności człowieka z urządzeń do noszenia. Rozróżnia siedem pozycji urządzenia na ciele i obejmuje sześć różnych rodzajów czujników. | Nic. | 3 150 000 (na czujnik) | Tekst | Klasyfikacja | 2016 | T. Sztyler i in. | |
Zestaw danych dotyczących pozycji po udarze w Toronto Rehab | Estymacja 3D ludzkiej pozy (Kinect) pacjentów po udarze i zdrowych uczestników wykonujących zestaw zadań za pomocą robota rehabilitacyjnego po udarze. | Nic. | 10 osób zdrowych i 9 osób po udarze (3500–6000 klatek na osobę) | CSV | Klasyfikacja | 2017 | E. Dolatabadi i in. | |
Corpus of Social Touch (CoST) | 7805 gestów rejestruje 14 różnych społecznych gestów dotykowych wykonywanych przez 31 osób. Gesty wykonywano w trzech wariantach: łagodnym, normalnym i szorstkim, na siatce czujnika nacisku owiniętej wokół ramienia manekina. | Wykonywane gesty dotykowe są podzielone na segmenty i oznaczone. | 7805 przechwytywania gestów | CSV | Klasyfikacja | 2016 | M. Jung i in. |
Inne sygnały
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zestaw danych wina | Analiza chemiczna win uprawianych w tym samym regionie we Włoszech, ale pochodzących z trzech różnych odmian. | Podano 13 właściwości każdego wina | 178 | Tekst | Klasyfikacja, regresja | 1991 | M. Forina i in. | |
Zestaw danych elektrowni o cyklu kombinowanym | Dane z różnych czujników w elektrowni działającej od 6 lat. | Nic | 9568 | Tekst | Regresja | 2014 | P. Tufekci i in. |
Dane fizyczne
Zbiory danych z systemów fizycznych.
Fizyka wysokich energii
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zbiór danych HIGGS | Symulacje Monte Carlo zderzeń akceleratorów cząstek. | Podano 28 cech każdej kolizji. | 11M | Tekst | Klasyfikacja | 2014 | D. Whiteson | |
Zbiór danych HEPMASS | Symulacje Monte Carlo zderzeń akceleratorów cząstek. Celem jest oddzielenie sygnału od szumu. | Podano 28 cech każdej kolizji. | 10 500 000 | Tekst | Klasyfikacja | 2016 | D. Whiteson |
Systemy
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zbiór danych hydrodynamiki jachtu | Osiągi jachtu na podstawie wymiarów. | Dla każdego jachtu podano sześć cech. | 308 | Tekst | Regresja | 2013 | R. Lopez | |
Zbiór danych o błędach wykonania robota | 5 zestawów danych, które skupiają się na niepowodzeniu robotów w wykonywaniu typowych zadań. | Funkcje o wartościach całkowitych, takie jak moment obrotowy i inne pomiary czujników. | 463 | Tekst | Klasyfikacja | 1999 | L. Seabra i in. | |
Zbiór danych mostów Pittsburgh | Opis projektu podano w odniesieniu do kilku właściwości różnych mostów. | Podano różne cechy mostu. | 108 | Tekst | Klasyfikacja | 1990 | Y. Reich i in. | |
Zestaw danych samochodowych | Dane o samochodach, ich ryzyku ubezpieczeniowym i ich znormalizowanych stratach. | Wyodrębnione cechy samochodu. | 205 | Tekst | Regresja | 1987 | J. Schimmer i in. | |
Zestaw danych Auto MPG | Dane MPG dla samochodów. | Podano osiem cech każdego samochodu. | 398 | Tekst | Regresja | 1993 | Carnegie Mellon University | |
Zestaw danych dotyczących efektywności energetycznej | Zapotrzebowanie na ogrzewanie i chłodzenie podane w funkcji parametrów budynku. | Podane parametry budynku. | 768 | Tekst | Klasyfikacja, regresja | 2012 | A. Xifara i in. | |
Zestaw danych o hałasie własnym płata | Seria badań aerodynamicznych i akustycznych dwu- i trójwymiarowych przekrojów płata. | Podano dane o częstotliwości, kącie natarcia itp. | 1503 | Tekst | Regresja | 2014 | R. Lopez | |
Zestaw danych o pierścieniu uszczelniającym Challenger USA promu kosmicznego | Próba przewidzenia problemów z pierścieniami uszczelniającymi na podstawie wcześniejszych danych firmy Challenger. | Podano kilka cech każdego lotu, takich jak temperatura startu. | 23 | Tekst | Regresja | 1993 | D. Draper i in. | |
Zbiór danych Statlog (wahadłowy) | Zbiory danych promu kosmicznego NASA. | Podano dziewięć funkcji. | 58 000 | Tekst | Klasyfikacja | 2002 | NASA |
Astronomia
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Wulkany na Wenus – eksperyment JARtool Dataset | Obrazy Wenus zwrócone przez sondę Magellan. | Obrazy są znakowane przez ludzi. | Nie podarowany | Obrazy | Klasyfikacja | 1991 | M. Burl | |
Zestaw danych teleskopu MAGIC Gamma | Monte Carlo wygenerowało zdarzenia wysokoenergetycznych cząstek gamma. | Liczne cechy wyodrębnione z symulacji. | 19.020 | Tekst | Klasyfikacja | 2007 | R. Bock | |
Zestaw danych dotyczących rozbłysków słonecznych | Pomiary liczby określonych rodzajów rozbłysków słonecznych występujących w okresie doby. | Podano wiele cech charakterystycznych dla rozbłysku słonecznego. | 1389 | Tekst | Regresja, klasyfikacja | 1989 | G. Bradshaw |
Nauka o Ziemi
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Wulkany Świata | Dane o erupcjach wulkanów dla wszystkich znanych zdarzeń wulkanicznych na Ziemi. | Podano szczegóły, takie jak region, podregion, otoczenie tektoniczne, dominujący typ skały. | 1535 | Tekst | Regresja, klasyfikacja | 2013 | E. Venzke i in. | |
Zestaw danych o wstrząsach sejsmicznych | Aktywności sejsmiczne z kopalni węgla. | Aktywność sejsmiczna została sklasyfikowana jako niebezpieczna lub nie. | 2584 | Tekst | Klasyfikacja | 2013 | M. Sikora i in. | |
Wielbłądy -USA | Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami | patrz Odniesienie | 671 | CSV, tekst, plik kształtu | Regresja | 2017 | N. Addor i in. / A. Newman i in. | |
Wielbłądy-Chile | Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami | patrz Odniesienie | 516 | CSV, tekst, plik kształtu | Regresja | 2018 | C. Alvarez-Garreton i in. | |
Wielbłądy-Brazylia | Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami | patrz Odniesienie | 897 | CSV, tekst, plik kształtu | Regresja | 2020 | V. Chagas i in. | |
Wielbłądy-GB | Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami | patrz Odniesienie | 671 | CSV, tekst, plik kształtu | Regresja | 2020 | G. Coxon i in. | |
Wielbłądy-Australia | Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami | patrz Odniesienie | 222 | CSV, tekst, plik kształtu | Regresja | 2021 | K. Fowler i in. | |
LamaH -CE | Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami | patrz Odniesienie | 859 | CSV, tekst, plik kształtu | Regresja | 2021 | C. Klingler i in. |
Inne fizyczne
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zestaw danych dotyczących wytrzymałości betonu na ściskanie | Zestaw danych właściwości betonu i wytrzymałości na ściskanie. | Dla każdej próbki podano dziewięć cech. | 1030 | Tekst | Regresja | 2007 | I. Yeh | |
Zbiór danych z testu opadu betonu | Opad opadowy betonu podany w kategoriach właściwości. | Podane cechy betonu takie jak popiół lotny, woda itp. | 103 | Tekst | Regresja | 2009 | I. Yeh | |
Zbiór danych piżma | Wytypuj, czy cząsteczka o określonych cechach będzie piżmem, czy nie piżmem. | Dla każdej cząsteczki podano 168 cech. | 6598 | Tekst | Klasyfikacja | 1994 | Arris Pharmaceutical Corp. | |
Zestaw danych dotyczących usterek płyt stalowych | Płyty stalowe 7 różnych typów. | Dla każdej próbki podano 27 cech. | 1941 | Tekst | Klasyfikacja | 2010 | Centrum Badań Semeion |
Dane biologiczne
Zbiory danych z systemów biologicznych.
Człowiek
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Baza danych EEG | Badanie mające na celu zbadanie korelatów EEG predyspozycji genetycznych do alkoholizmu. | Pomiary z 64 elektrod umieszczonych na skórze głowy próbkowano z częstotliwością 256 Hz (epoka 3,9 ms) przez 1 sekundę. | 122 | Tekst | Klasyfikacja | 1999 | H. Begleiter | |
Zestaw danych interfejsu P300 | Dane od dziewięciu osób zebrane przy użyciu interfejsu mózg-komputer opartego na P300 dla osób niepełnosprawnych. | Podziel się na cztery sesje dla każdego tematu. Podano kod MATLAB . | 1224 | Tekst | Klasyfikacja | 2008 | U. Hoffman i in. | |
Zestaw danych dotyczących chorób serca | Przypisywane pacjentom z chorobami serca i bez. | 75 atrybutów podanych dla każdego pacjenta z pewnymi brakującymi wartościami. | 303 | Tekst | Klasyfikacja | 1988 | A. Janosi i in. | |
Zbiór danych dotyczących raka piersi w stanie Wisconsin (diagnostyka) | Zbiór danych cech mas piersi. Podana jest diagnoza lekarza. | Podano 10 cech dla każdej próbki. | 569 | Tekst | Klasyfikacja | 1995 | W. Wolberg i in. | |
Krajowa ankieta na temat używania narkotyków i zdrowia | Badanie na dużą skalę dotyczące zdrowia i używania narkotyków w Stanach Zjednoczonych. | Nic. | 55 268 | Tekst | Klasyfikacja, regresja | 2012 | Departament Zdrowia i Opieki Społecznej Stanów Zjednoczonych | |
Zbiór danych dotyczących raka płuc | Zbiór danych raka płuc bez definicji atrybutów | Dla każdego przypadku podano 56 funkcji | 32 | Tekst | Klasyfikacja | 1992 | Z. Hong i in. | |
Zestaw danych arytmii | Dane dla grupy pacjentów, z których niektórzy mają arytmię serca. | 276 funkcji dla każdej instancji. | 452 | Tekst | Klasyfikacja | 1998 | H. Altay i in. | |
Cukrzyca 130 szpitali w USA za lata 1999-2008 Zbiór danych | Dane o readmisji z 9 lat w 130 szpitalach w USA dla pacjentów z cukrzycą. | Podano wiele cech każdego readmisji. | 100 000 | Tekst | Klasyfikacja, grupowanie | 2014 | J. Clore i in. | |
Zbiór danych dotyczących retinopatii cukrzycowej w Debreczynie | Cechy wyodrębnione z obrazów oczu z retinopatią cukrzycową i bez niej. | Wyodrębnione cechy i zdiagnozowane stany. | 1151 | Tekst | Klasyfikacja | 2014 | B. Antal i in. | |
Retinopatia cukrzycowa Zbiór danych Messidora | Metody oceny technik segmentacji i indeksowania w zakresie okulistyki siatkówkowej (MESSIDOR) | Charakteryzuje się stopniem retinopatii i ryzykiem obrzęku plamki | 1200 | Obrazy, tekst | Klasyfikacja, segmentacja | 2008 | Projekt Messidor | |
Zbiór danych dotyczących zaburzeń wątroby | Dane dla osób z chorobami wątroby. | Dla każdego pacjenta podano siedem cech biologicznych. | 345 | Tekst | Klasyfikacja | 1990 | Bupa Medical Research Sp. | |
Zbiór danych dotyczących chorób tarczycy | 10 baz danych pacjentów z chorobami tarczycy. | Nic. | 7200 | Tekst | Klasyfikacja | 1987 | R. Quinlan | |
Zbiór danych międzybłoniaka | Dane pacjenta Mesothelioma. | Podano dużą liczbę cech, w tym ekspozycję na azbest. | 324 | Tekst | Klasyfikacja | 2016 | A. Tanrikulu i in. | |
Oparty na wizji zbiór danych szacowania pozycji Parkinsona | Szacunki 2D ludzkiej pozy pacjentów z chorobą Parkinsona wykonujących różne zadania. | Z trajektorii usunięto drgania kamery. | 134 | Tekst | Klasyfikacja, regresja | 2017 | M. Li i in. | |
Zbiór danych sieci reakcji metabolicznych KEGG (nieskierowany) | Sieć szlaków metabolicznych. Podano sieć reakcji i sieć relacji . | Podano szczegółowe funkcje dla każdego węzła sieci i ścieżki. | 65 554 | Tekst | Klasyfikacja, grupowanie, regresja | 2011 | M. Naeem i in. | |
Zmodyfikowany zestaw danych analizy morfologii ludzkiego nasienia (MHSMA) | Obrazy ludzkich plemników od 235 pacjentów z niepłodnością czynnika męskiego, oznaczonych jako prawidłowy lub nieprawidłowy akrosom plemnika, głowa, wakuola i ogon. | Przycięte wokół pojedynczej główki plemnika. Znormalizowane powiększenie. Utworzono podziały zestawów testowych, walidacyjnych i szkoleniowych. | 1540 | pliki .npy | Klasyfikacja | 2019 | S. Javadi i SA Mirroshandel |
Zwierzę
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zbiór danych Abalone | Fizyczne pomiary Abalone. Podane są również wzorce pogodowe i lokalizacja. | Nic. | 4177 | Tekst | Regresja | 1995 | Morskie Laboratoria Badawcze – Taroona | |
Zbiór danych zoo | Sztuczny zbiór danych obejmujący 7 klas zwierząt. | Zwierzęta są podzielone na 7 kategorii i dla każdej podane są cechy. | 101 | Tekst | Klasyfikacja | 1990 | R. Forsyth | |
Zbiór danych Demospongiae | Dane dotyczące gąbek morskich. | 503 gąbki w klasie Demosponge są opisane różnymi cechami. | 503 | Tekst | Klasyfikacja | 2010 | E. Armengol i in. | |
Zbiór danych sekwencji genów w połączeniu splicingowym | Sekwencje genów splicingu naczelnych (DNA) z powiązaną teorią niedoskonałych domen. | Nic. | 3190 | Tekst | Klasyfikacja | 1992 | G. Towell i in. | |
Zestaw danych dotyczących ekspresji białek myszy | Poziomy ekspresji 77 białek mierzone w korze mózgowej myszy. | Nic. | 1080 | Tekst | Klasyfikacja, klastrowanie | 2015 | C. Higuera i in. |
Grzyby
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zbiór danych grzybów UCI | Atrybuty i klasyfikacja grzybów. | Podano wiele właściwości każdego grzyba. | 8124 | Tekst | Klasyfikacja | 1987 | J. Schlimmer | |
Wtórny zbiór danych grzybów | Atrybuty i klasyfikacja grzybów | Symulowane dane z większych i bardziej realistycznych wpisów grzybów pierwotnych. W pełni powtarzalne. | 61069 | Tekst | Klasyfikacja | 2020 | D. Wagner i in. |
Zakład
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zbiór danych o pożarach lasów | Pożary lasów i ich właściwości. | Wyodrębniono 13 cech każdego pożaru. | 517 | Tekst | Regresja | 2008 | P. Cortez i in. | |
Zbiór danych tęczówki | Trzy rodzaje irysów są opisane przez 4 różne atrybuty. | Nic. | 150 | Tekst | Klasyfikacja | 1936 | R. Fisher | |
Zbiór danych o gatunkach roślin | Szesnaście próbek liścia ze stu gatunków roślin. | Podawany jest deskryptor kształtu, margines o małej skali i histogramy tekstury. | 1600 | Tekst | Klasyfikacja | 2012 | J. Cope i in. | |
Zbiór danych soi | Baza danych chorych roślin soi. | Podano 35 cech dla każdej rośliny. Rośliny są podzielone na 19 kategorii. | 307 | Tekst | Klasyfikacja | 1988 | R. Michalski i in. | |
Zbiór danych nasion | Pomiary właściwości geometrycznych ziarniaków trzech różnych odmian pszenicy. | Nic. | 210 | Tekst | Klasyfikacja, grupowanie | 2012 | Charytanowicz i in. | |
Zbiór danych typu okładki | Dane do prognozowania typu lesistości ściśle ze zmiennych kartograficznych. | Podano wiele cech geograficznych. | 581.012 | Tekst | Klasyfikacja | 1998 | J. Blackard i in. | |
Zestaw danych sieci sygnalizacyjnej kwasu abscysynowego | Dane dla zakładowej sieci sygnalizacyjnej. Celem jest określenie zestawu reguł rządzących siecią. | Nic. | 300 | Tekst | Odkrycie przyczynowe | 2008 | J. Jenkens i in. | |
Zestaw danych folio | 20 zdjęć liści dla każdego z 32 gatunków. | Nic. | 637 | Obrazy, tekst | Klasyfikacja, grupowanie | 2015 | T. Munisami i in. | |
Oksfordzki zbiór danych kwiatowych | Zestaw danych 17 kategorii kwiatów. | Podziały trenowania/testowania, obrazy z etykietami, | 1360 | Obrazy, tekst | Klasyfikacja | 2006 | ME Nilsback i in. | |
Zestaw danych sadzonek roślin | Zestaw danych 12 kategorii sadzonek roślin. | Obrazy z etykietami, obrazy podzielone na segmenty, | 5544 | Obrazy | Klasyfikacja, wykrywanie | 2017 | Giselsson i in. | |
Zbiór danych Owoce 360 | Baza danych ze zdjęciami 120 owoców i warzyw. | 100x100 pikseli, białe tło. | 82213 | Obrazy (jpg) | Klasyfikacja | 2017–2019 | Mihai Oltean, Horea Muresan |
Mikrob
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zbiór danych Ecoli | Miejsca lokalizacji białek. | Podano różne cechy miejsc lokalizacji białek. | 336 | Tekst | Klasyfikacja | 1996 | K. Nakai i in. | |
Zbiór danych MicroMass | Identyfikacja mikroorganizmów na podstawie danych spektrometrii masowej. | Różne funkcje spektrometru mas. | 931 | Tekst | Klasyfikacja | 2013 | P. Mahe i in. | |
Zbiór danych drożdży | Przewidywanie miejsc lokalizacji komórkowej białek. | Osiem funkcji podanych na instancję. | 1484 | Tekst | Klasyfikacja | 1996 | K. Nakai i in. |
Odkrycie narkotyków
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zbiór danych Tox21 | Przewidywanie wyników testów biologicznych. | Podano deskryptory chemiczne cząsteczek. | 12707 | Tekst | Klasyfikacja | 2016 | A. Mayr i in. |
Dane anomalii
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Test porównawczy anomalii Numenta (NAB) | Dane są uporządkowane, oznaczone sygnaturą czasową, jednowartościowe. Wszystkie pliki danych zawierają anomalie, chyba że zaznaczono inaczej. | Nic | 50+ plików | Wartości oddzielone przecinkami | Wykrywanie anomalii | 2016 (stale aktualizowane) | Numenta | |
Wskaźnik anomalii Skoltech (SKAB) | Każdy plik reprezentuje pojedynczy eksperyment i zawiera pojedynczą anomalię. Zestaw danych reprezentuje wielowymiarowe szeregi czasowe zebrane z czujników zainstalowanych na stanowisku testowym. | Istnieją dwa znaczniki problemów z wykrywaniem wartości odstających (anomalie punktowe) i wykrywaniem punktu zmiany (anomalie zbiorcze). | 30+ plików (v0.9) | Wartości oddzielone przecinkami | Wykrywanie anomalii | 2020 (stale aktualizowane) |
|
Iurii D. Katser i Wiaczesław O. Kozitsin |
O ocenie nienadzorowanego wykrywania wartości odstających: miary, zbiory danych i badanie empiryczne | Większość plików danych jest adaptowana z danych z repozytorium uczenia maszynowego UCI, niektóre są zbierane z literatury. | traktowane pod kątem braków danych, tylko atrybuty liczbowe, różne procenty anomalii, etykiety | 1000+ plików | ARFF | Wykrywanie anomalii | 2016 (ewentualnie zaktualizowany o nowe zbiory danych i/lub wyniki) |
|
Campos i in. |
Dane dotyczące odpowiedzi na pytania
Ta sekcja zawiera zbiory danych, które dotyczą danych strukturalnych.
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zbiór danych DBpedia Neural Question Answering (DBNQA) | Duży zbiór pytań do SPARQL specjalnie zaprojektowanych do odpowiedzi na pytania w trybie Open Domain Neural w bazie wiedzy DBpedia. | Ten zestaw danych zawiera duży zbiór szablonów Open Neural SPARQL i instancji do uczenia maszyn Neural SPARQL; został wstępnie przetworzony przez półautomatyczne narzędzia do adnotacji, a także przez trzech ekspertów SPARQL. | 894 499 | Pary pytanie-zapytanie | Odpowiedzi na pytania | 2018 | Hartmann, Soru i Marx i in. | |
Zestaw danych dotyczących odpowiedzi na pytania wietnamskie (UIT-ViQuAD) | Duży zbiór pytań wietnamskich do oceny modeli MRC. | Ten zbiór danych zawiera ponad 23 000 par pytania-odpowiedź wygenerowanych przez człowieka na podstawie 5109 fragmentów 174 wietnamskich artykułów z Wikipedii. | 23 074 | Pary pytanie-odpowiedź | Odpowiedzi na pytania | 2020 | Nguyen i in. | |
Wietnamski korpus do czytania ze zrozumieniem wielokrotnego wyboru (ViMMRC) | Zbiór wietnamskich pytań wielokrotnego wyboru do oceny modeli MRC. | Ten zbiór zawiera 2783 wietnamskich pytań wielokrotnego wyboru. | 2783 | Pary pytanie-odpowiedź | Odpowiadanie na pytania / czytanie maszynowe ze zrozumieniem | 2020 | Nguyen i in. |
Dane wielowymiarowe
Zbiory danych składające się z wierszy obserwacji i kolumn atrybutów charakteryzujących te obserwacje. Zwykle używane do analizy lub klasyfikacji regresji, ale można również stosować inne rodzaje algorytmów. Ta sekcja zawiera zbiory danych, które nie pasują do powyższych kategorii.
Budżetowy
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Indeks Dow Jones | Tygodniowe dane stanów z I i II kwartału 2011 roku. | Obliczone wartości obejmowały takie jak zmiana procentowa i opóźnienia. | 750 | Wartości oddzielone przecinkami | Klasyfikacja, regresja, szeregi czasowe | 2014 | M. Brown i in. | |
Statlog (australijska aprobata kredytowa) | Wnioski o karty kredytowe zaakceptowane lub odrzucone oraz atrybuty dotyczące wniosku. | Nazwy atrybutów są usuwane, podobnie jak informacje identyfikujące. Czynniki zostały przemianowane. | 690 | Wartości oddzielone przecinkami | Klasyfikacja | 1987 | R. Quinlan | |
Dane aukcji eBay | Dane aukcji z różnych obiektów eBay.com na aukcjach o różnej długości | Zawiera wszystkie oferty, identyfikator oferenta, czasy składania ofert i ceny otwarcia. | ~ 550 | Tekst | Regresja, klasyfikacja | 2012 | G. Shmueli i in. | |
Statlog (dane kredytowe w Niemczech) | Klasyfikacja kredytów binarnych na „dobry” lub „zły” z wieloma cechami | Podano różne cechy finansowe każdej osoby. | 690 | Tekst | Klasyfikacja | 1994 | H. Hofmanna | |
Bankowy zbiór danych marketingowych | Dane z dużej kampanii marketingowej przeprowadzonej przez duży bank. | Podano wiele atrybutów kontaktowanych klientów. Jeśli klient zapisał się do banku jest również podany. | 45,211 | Tekst | Klasyfikacja | 2012 | S. Moro i in. | |
Zbiór danych giełdy w Stambule | Kilka indeksów giełdowych śledzonych przez prawie dwa lata. | Nic. | 536 | Tekst | Klasyfikacja, regresja | 2013 | O. Akbilgic | |
Niewypłacalność klientów kart kredytowych | Dane dotyczące niewypłacalności wierzycieli tajwańskich. | Podane są różne funkcje dotyczące każdego konta. | 30 000 | Tekst | Klasyfikacja | 2016 | I. Yeh |
Pogoda
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zestaw danych w chmurze | Dane o 1024 różnych chmurach. | Wyodrębnione cechy obrazu. | 1024 | Tekst | Klasyfikacja, grupowanie | 1989 | P. Collard | |
Zbiór danych El Nino | Oceanograficzne i powierzchniowe odczyty meteorologiczne z szeregu boj rozmieszczonych na całym równikowym Pacyfiku. | Przy każdej bojce mierzonych jest 12 atrybutów pogodowych. | 178080 | Tekst | Regresja | 1999 | Laboratorium Środowiska Morskiego Pacyfiku | |
Zbiór danych sieci obserwacji gazów cieplarnianych | Szeregi czasowe stężeń gazów cieplarnianych w 2921 komórkach siatki w Kalifornii utworzone przy użyciu symulacji pogody. | Nic. | 2921 | Tekst | Regresja | 2015 | D. Lucas | |
Atmosferyczny CO2 z ciągłych próbek powietrza w Obserwatorium Mauna Loa | Ciągłe próbki powietrza na Hawajach, USA. 44 lata rekordów. | Nic. | 44 lata | Tekst | Regresja | 2001 | Obserwatorium Mauna Loa | |
Zbiór danych jonosfery | Dane radarowe z jonosfery. Zadanie polega na podzieleniu na dobre i złe zwroty radarowe. | Podano wiele funkcji radaru. | 351 | Tekst | Klasyfikacja | 1989 | Uniwersytet Johna Hopkinsa | |
Zestaw danych wykrywania poziomu ozonu | Dwa zestawy danych na temat poziomu ozonu naziemnego. | Podano wiele funkcji, w tym warunki pogodowe w czasie pomiaru. | 2536 | Tekst | Klasyfikacja | 2008 | K. Zhang i in. |
Spis ludności
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zbiór danych dla dorosłych | Dane spisowe z 1994 r. zawierające cechy demograficzne dorosłych i ich dochody. | Oczyszczone i zanonimizowane. | 48 842 | Wartości oddzielone przecinkami | Klasyfikacja | 1996 | Biuro Spisu Ludności Stanów Zjednoczonych | |
Dochód ze spisu ludności (KDD) | Ważone dane ze spisu powszechnego z Aktualnych Badań Populacyjnych z 1994 i 1995 roku . | Podziel na zestawy treningowe i testowe. | 299 285 | Wartości oddzielone przecinkami | Klasyfikacja | 2000 | Biuro Spisu Ludności Stanów Zjednoczonych | |
Baza danych spisu ludności IPUMS | Dane ze spisu ludności z obszarów Los Angeles i Long Beach. | Nic | 256 932 | Tekst | Klasyfikacja, regresja | 1999 | IPUMY | |
Dane ze spisu powszechnego USA 1990 | Częściowe dane ze spisu powszechnego USA z 1990 roku. | Wyniki randomizowane i wybrane przydatne atrybuty. | 2 458 285 | Tekst | Klasyfikacja, regresja | 1990 | Biuro Spisu Ludności Stanów Zjednoczonych |
Tranzyt
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Rowerowy zestaw danych do udostępniania | Godzinowa i dzienna liczba wypożyczonych rowerów w dużym mieście. | Podano wiele funkcji, w tym pogodę, długość podróży itp. | 17.389 | Tekst | Regresja | 2013 | H. Fanaee-T | |
Dane podróży taksówką w Nowym Jorku | Dane podróży dla żółtych i zielonych taksówek w Nowym Jorku. | Podaje miejsca odbioru i dowozu, taryfy i inne szczegóły podróży. | 6 lat | Tekst | Klasyfikacja, grupowanie | 2015 | Komisja ds. taksówek i limuzyn w Nowym Jorku | |
Trajektoria usług taksówkowych ECML PKDD | Trajektorie wszystkich taksówek w dużym mieście. | Podano wiele funkcji, w tym punkty początkowe i końcowe. | 1 710 671 | Tekst | Grupowanie, odkrywanie przyczyn | 2015 | M. Ferreira i in. | |
METR-LA | Prędkość z detektorów pętli na autostradzie hrabstwa Los Angeles. | Średnia prędkość w krokach 5 minutowych. | 7 094 304 z 207 czujników i 34 272 kroki czasowe | Wartości oddzielone przecinkami | Regresja, Prognozowanie | 2014 | Jagadish i in. | |
PeMS | Prędkość, przepływ, obłożenie i inne wskaźniki z detektorów pętli i innych czujników na autostradzie stanu Kalifornia w USA. | Metryka zwykle agregowana za pomocą średniej w 5-minutowych przedziałach czasowych. | 39 000 pojedynczych detektorów, z których każdy zawiera lata szeregów czasowych | Wartości oddzielone przecinkami | Regresja, Prognozowanie, Nowcasting, Interpolacja | (aktualizacja w czasie rzeczywistym) | Kalifornijski Departament Transportu |
Internet
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Strony internetowe z Common Crawl 2012 | Duży zbiór stron internetowych i sposób ich łączenia za pomocą hiperłączy | Nic. | 3.5B | Tekst | grupowanie, klasyfikacja | 2013 | V. Granville | |
Zbiór danych o reklamach internetowych | Zestaw danych do przewidywania, czy dany obraz jest reklamą, czy nie. | Funkcje kodują geometrię reklam i fraz występujących w adresie URL. | 3279 | Tekst | Klasyfikacja | 1998 | N. Kushmerick | |
Zbiór danych dotyczących korzystania z Internetu | Ogólna demografia internautów. | Nic. | 10,104 | Tekst | Klasyfikacja, grupowanie | 1999 | D. Kucharz | |
Zbiór danych URL | 120 dni danych URL z dużej konferencji. | Podano wiele funkcji każdego adresu URL. | 2 396 130 | Tekst | Klasyfikacja | 2009 | J. Ma | |
Zbiór danych witryn phishingowych | Zbiór danych stron phishingowych. | Podano wiele funkcji każdej witryny. | 2456 | Tekst | Klasyfikacja | 2015 | R. Mustafa i in. | |
Internetowy zestaw danych detalicznych | Transakcje online dla brytyjskiego sprzedawcy internetowego. | Podano szczegóły każdej transakcji. | 541 909 | Tekst | Klasyfikacja, grupowanie | 2015 | D. Chen | |
Prosty zrzut tematu Freebase | Freebase to wysiłek online mający na celu uporządkowanie całej ludzkiej wiedzy. | Tematy z Freebase zostały wyodrębnione. | duży | Tekst | Klasyfikacja, grupowanie | 2011 | Wolna baza | |
Zbiór danych reklam rolniczych | Tekst reklam rolniczych ze stron internetowych. Podano zatwierdzenie lub odrzucenie plików binarnych przez właścicieli treści. | Obliczono rzadkie wektory słów tekstowych w reklamach SVMlight. | 4143 | Tekst | Klasyfikacja | 2011 | C. Masterharm i in. |
Gry
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zestaw danych rozdań pokerowych | 5 kart ze standardowej talii 52 kart. | Podane są atrybuty każdego rozdania, łącznie z rozdaniami pokera utworzonymi przez zawarte w nim karty. | 1,025,010 | Tekst | Regresja, klasyfikacja | 2007 | R. Cattral | |
Zestaw danych Connect-4 | Zawiera wszystkie legalne 8-warstwowe pozycje w grze connect-4, w których żaden z graczy jeszcze nie wygrał i w których następny ruch nie jest wymuszony. | Nic. | 67 557 | Tekst | Klasyfikacja | 1995 | J. Tromp | |
Szachy (Król-wieża kontra król) Zbiór danych | Końcowa baza danych dla Białego Króla i Wieży przeciwko Czarnemu Królowi. | Nic. | 28 056 | Tekst | Klasyfikacja | 1994 | M. Bain i in. | |
Szachy (wieża królewska kontra pionek królewski) | Król+wieża kontra król+pionek na a7. | Nic. | 3196 | Tekst | Klasyfikacja | 1989 | R. Holte | |
Zestaw danych gry końcowej w kółko i krzyżyk | Klasyfikacja binarna warunków zwycięstwa w grze kółko i krzyżyk. | Nic. | 958 | Tekst | Klasyfikacja | 1991 | D. Aha |
Inne wielowymiarowe
Nazwa zbioru danych | Krótki opis | Przetwarzanie wstępne | Instancje | Format | Zadanie domyślne | Utworzono (zaktualizowano) | Referencja | Twórca |
---|---|---|---|---|---|---|---|---|
Zestaw danych mieszkaniowych | Mediana wartości domu w Bostonie z powiązanymi atrybutami domu i okolicy. | Nic. | 506 | Tekst | Regresja | 1993 | D. Harrison i in. | |
Słowniki Getty | ustrukturyzowana terminologia dotycząca sztuki i innej kultury materialnej, materiałów archiwalnych, wizualnych surogatów i materiałów bibliograficznych. | Nic. | duży | Tekst | Klasyfikacja | 2015 | Centrum Getty | |
Wieśniak! Strona główna Dzisiaj Moduł Użytkownik Kliknij Dziennik | Dziennik kliknięć użytkownika dla artykułów z wiadomościami wyświetlanymi na karcie Polecane modułu Dzisiaj w Yahoo! Pierwsza strona. | Analiza połączona z modelem dwuliniowym. | 45 811 883 odwiedzin użytkowników | Tekst | Regresja, grupowanie | 2009 | Chu i in. | |
Brytyjskie Centrum Danych Oceanograficznych | Dane biologiczne, chemiczne, fizyczne i geofizyczne oceanów. Śledzone zmienne 22K. | Różny. | 22K zmiennych, wiele instancji | Tekst | Regresja, grupowanie | 2015 | Brytyjskie Centrum Danych Oceanograficznych | |
Zbiór danych dotyczących rekordów głosowania w Kongresie | Dane do głosowania dla wszystkich przedstawicieli USA w 16 kwestiach. | Oprócz surowych danych głosowania dostępne są różne inne funkcje. | 435 | Tekst | Klasyfikacja | 1987 | J. Schlimmer | |
Zestaw danych rekomendacji Entree Chicago | Rejestr interakcji użytkowników z systemem rekomendacji Entree Chicago. | Szczegóły dotyczące korzystania z aplikacji przez każdego użytkownika są szczegółowo rejestrowane. | 50 672 | Tekst | Regresja, rekomendacja | 2000 | R. Burke | |
Benchmark Towarzystwa Ubezpieczeniowego (COIL 2000) | Informacje o klientach firmy ubezpieczeniowej. | Wiele cech każdego klienta i usług, z których korzysta. | 9000 | Tekst | Regresja, klasyfikacja | 2000 | P. van der Putten | |
Zbiór danych żłobka | Dane od wnioskodawców do przedszkoli. | Uwzględniono dane dotyczące rodziny wnioskodawcy i różnych innych czynników. | 12,960 | Tekst | Klasyfikacja | 1997 | V. Rajkovic i in. | |
Zbiór danych uniwersyteckich | Dane opisujące przypisaną dużą liczbę uczelni. | Nic. | 285 | Tekst | Klastrowanie, klasyfikacja | 1988 | S. Sounders i in. | |
Zbiór danych centrum usług transfuzji krwi | Dane z centrum usług transfuzji krwi. Podaje dane dotyczące stopy zwrotu dawców, częstotliwości itp. | Nic. | 748 | Tekst | Klasyfikacja | 2008 | I. Yeh | |
Rejestruj wzorce porównywania powiązań zestaw danych | Duży zbiór rekordów. Zadaniem jest powiązanie ze sobą odpowiednich rekordów. | Procedura blokowania stosowana w celu wybrania tylko określonych par rekordów. | 5 749 132 | Tekst | Klasyfikacja | 2011 | Uniwersytet w Moguncji | |
Zbiór danych Nomao | Nomao zbiera dane o miejscach z wielu różnych źródeł. Zadaniem jest wykrycie przedmiotów, które opisują to samo miejsce. | Oznakowane duplikaty. | 34 465 | Tekst | Klasyfikacja | 2012 | Laboratoria Nomao | |
Zbiór danych filmu | Dane dla 10 000 filmów. | Podano kilka funkcji dla każdego filmu. | 10 000 | Tekst | Klastrowanie, klasyfikacja | 1999 | G. Wiederhold | |
Zbiór danych analitycznych Open University Learning | Informacje o uczniach i ich interakcjach z wirtualnym środowiskiem nauki. | Nic. | ~ 30 000 | Tekst | Klasyfikacja, grupowanie, regresja | 2015 | J. Kuzilek i in. | |
Rejestry telefonów komórkowych | Działalność telekomunikacyjna i interakcje | Agregacja według komórek siatki geograficznej i co 15 minut. | duży | Tekst | Klasyfikacja, klastrowanie, regresja | 2015 | G. Barlacchi i in. |
Kuratorowane repozytoria zbiorów danych
Ponieważ zestawy danych są dostępne w niezliczonych formatach i czasami mogą być trudne w użyciu, włożono wiele pracy w opracowywanie i standaryzację formatu zestawów danych, aby ułatwić ich wykorzystanie w badaniach nad uczeniem maszynowym.
- OpenML: platforma internetowa z Python, R, Java i innymi interfejsami API do pobierania setek zestawów danych uczenia maszynowego, oceny algorytmów w zestawach danych i porównywania wydajności algorytmów z dziesiątkami innych algorytmów.
- PMLB: Duże, wyselekcjonowane repozytorium zestawów danych porównawczych do oceny nadzorowanych algorytmów uczenia maszynowego. Udostępnia zestawy danych klasyfikacji i regresji w standardowym formacie, który jest dostępny za pośrednictwem interfejsu API języka Python.
- Metatext NLP: https://metatext.io/datasets repozytorium internetowe utrzymywane przez społeczność, zawierające prawie 1000 zestawów danych porównawczych i liczone. Zapewnia wiele zadań od klasyfikacji po QA i różne języki od angielskiego, portugalskiego po arabski.
- Appen : Off The Shelf i Open Source Dataset hostowane i utrzymywane przez firmę. Te biologiczne, obrazowe, fizyczne, odpowiedzi na pytania, sygnały, dźwięk, tekst i wideo liczą ponad 250 i mogą być stosowane w ponad 25 różnych przypadkach użycia.
Zobacz też
- Porównanie oprogramowania do głębokiego uczenia
- Lista ręcznych narzędzi do adnotacji obrazów
- Lista biologicznych baz danych