Lista zbiorów danych do badań nad uczeniem maszynowym - List of datasets for machine-learning research

Te zbiory danych są stosowane do badań nad uczeniem maszynowym i były cytowane w recenzowanych czasopismach naukowych. Zbiory danych są integralną częścią dziedziny uczenia maszynowego. Główne postępy w tej dziedzinie mogą wynikać z postępów w algorytmach uczenia (takich jak uczenie głębokie ), sprzętu komputerowego oraz, mniej intuicyjnie, dostępności wysokiej jakości zestawów danych szkoleniowych. Wysokiej jakości oznakowane zestawy danych szkoleniowych dla nadzorowanych i częściowo nadzorowanych algorytmów uczenia maszynowego są zwykle trudne i drogie w produkcji ze względu na dużą ilość czasu potrzebnego na oznaczenie danych. Chociaż nie trzeba ich oznaczać, tworzenie wysokiej jakości zbiorów danych do uczenia się bez nadzoru może być trudne i kosztowne.

Dane obrazu

Zbiory danych składające się głównie z obrazów lub filmów do zadań takich jak wykrywanie obiektów , rozpoznawanie twarzy i klasyfikacja z wieloma etykietami .

Rozpoznawanie twarzy

W wizji komputerowej obrazy twarzy były szeroko wykorzystywane do opracowywania systemów rozpoznawania twarzy , wykrywania twarzy i wielu innych projektów wykorzystujących obrazy twarzy.

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Referencja	Twórca
Aff-Wild	298 filmów 200 osób, ~1 250 000 ręcznie opatrzonych adnotacjami obrazów: opatrzone adnotacjami pod względem afektu wymiarowego (pobudzenie walencyjne); na wolności; baza kolorów; różne rozdzielczości (średnia = 640x360)	wykryte twarze, punkty orientacyjne twarzy i adnotacje walencyjno-pobudzeniowe	~1 250 000 obrazów ręcznie opatrzonych adnotacjami	wideo (wizualne + audio modalności)	wpływać na rozpoznawanie (oszacowanie walencyjno-pobudzeniowe)	2017	CVPR IJCV	D. Kollias i in.
Aff-Wild2	558 filmów 458 osób, ~2 800 000 ręcznie adnotowanych obrazów: z adnotacjami i) kategorycznego afektu (7 podstawowych wyrażeń: neutralność, szczęście, smutek, zaskoczenie, strach, wstręt, złość); ii) afekt wymiarowy (pobudzenie walencyjne); iii) jednostki działania (AU 1,2,4,6,12,15,20,25); na wolności; baza kolorów; różne rozdzielczości (średnia = 1030x630)	wykryte twarze, wykryte i wyrównane twarze i adnotacje	~2 800 000 obrazów z ręcznie dodanymi adnotacjami	wideo (wizualne + audio modalności)	rozpoznawanie wpływu (oszacowanie walencyjno-pobudzeniowe, podstawowa klasyfikacja ekspresji, wykrywanie jednostek działania)	2019	BMVC FG	D. Kollias i in.
FERET (technologia rozpoznawania twarzy)	11338 zdjęć 1199 osób w różnych pozycjach iw różnym czasie.	Nic.	11 338	Obrazy	Klasyfikacja, rozpoznawanie twarzy	2003		Departament Obrony Stanów Zjednoczonych
Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS)	7.356 nagrań wideo i audio 24 zawodowych aktorów. 8 emocji o dwóch intensywnościach.	Pliki oznaczone wyrażeniem. Oceny walidacji percepcyjnej dostarczone przez 319 oceniających.	7356	Pliki wideo, dźwiękowe	Klasyfikacja, rozpoznawanie twarzy, rozpoznawanie głosu	2018		SR Livingstone i FA Russo
SCFace	Kolorowe obrazy twarzy pod różnymi kątami.	Lokalizacja wyodrębnionych rysów twarzy. Podane współrzędne cech.	4160	Obrazy, tekst	Klasyfikacja , rozpoznawanie twarzy	2011		M. Grgic i in.
Baza danych twarzy Yale	Twarze 15 osób w 11 różnych wyrazach twarzy.	Etykiety wyrażeń.	165	Obrazy	Rozpoznawanie twarzy	1997		J. Yang i in.
Cohn-Kanade AU-Coded Expression Database	Duża baza zdjęć z etykietami do wyrażeń.	Śledzenie niektórych rysów twarzy.	500+ sekwencji	Obrazy, tekst	Analiza wyrazu twarzy	2000		T. Kanade i in.
Baza danych wyrazu twarzy JAFFE	213 zdjęć 7 wyrazów twarzy (6 podstawowych wyrazów twarzy + 1 neutralny) przedstawionych przez 10 japońskich modelek.	Obrazy są przycinane do obszaru twarzy. Zawiera semantyczne dane ocen na etykietach emocji.	213	Obrazy, tekst	Poznanie mimiki twarzy	1998		Lyon, Kamachi, Gyoba
TwarzScrub	Obrazy osób publicznych wyczyszczone z wyszukiwania obrazów.	Imię i adnotacja m/f.	107,818	Obrazy, tekst	Rozpoznawanie twarzy	2014		H. Ng i in.
Baza danych twarzy BioID	Obrazy twarzy z zaznaczonymi pozycjami oczu.	Ręcznie ustaw pozycje oczu.	1521	Obrazy, tekst	Rozpoznawanie twarzy	2001		BioID
Zestaw danych segmentacji skóry	Losowo próbkowane wartości kolorów z obrazów twarzy.	B, G, R, wyodrębnione wartości.	245 057	Tekst	Segmentacja, klasyfikacja	2012		R. Bhatt.
Bosfor	Baza danych obrazów twarzy 3D.	34 jednostki działania i 6 wyrażeń oznaczonych; Oznaczono 24 punkty orientacyjne na twarzy.	4652	Obrazy, tekst	Rozpoznawanie twarzy, klasyfikacja	2008		Savran i in.
UOY 3D-Twarz	neutralna twarz, 5 wyrazów: złość, szczęście, smutek, zamknięte oczy, uniesione brwi.	etykietowanie.	5250	Obrazy, tekst	Rozpoznawanie twarzy, klasyfikacja	2004		Uniwersytet w Yorku
CASIA Baza danych twarzy 3D	Wyrażenia: złość, uśmiech, śmiech, zaskoczenie, zamknięte oczy.	Nic.	4624	Obrazy, tekst	Rozpoznawanie twarzy, klasyfikacja	2007		Instytut Automatyki Chińskiej Akademii Nauk
CASIA NIR	Wyrażenia: Gniew Obrzydzenie Strach Szczęście Smutek Niespodzianka	Nic.	480	Przechwytuje wideo w zakresie widzialnym i bliskiej podczerwieni z adnotacjami z szybkością 25 klatek na sekundę	Rozpoznawanie twarzy, klasyfikacja	2011		Zhao, G. i in.
BU-3DFE	neutralna twarz i 6 wyrazów: złość, szczęście, smutek, zaskoczenie, wstręt, strach (4 poziomy). Wyodrębnione obrazy 3D.	Nic.	2500	Obrazy, tekst	Rozpoznawanie mimiki twarzy, klasyfikacja	2006		Uniwersytet w Binghamton
Zestaw danych Grand Challenge do rozpoznawania twarzy	Do 22 próbek na każdy temat. Wyrażenia: złość, szczęście, smutek, zaskoczenie, wstręt, opuchlizna. Dane 3D.	Nic.	4007	Obrazy, tekst	Rozpoznawanie twarzy, klasyfikacja	2004		Narodowy Instytut Standardów i Technologii
Gavabdb	Do 61 próbek dla każdego przedmiotu. Wyrazy neutralnej twarzy, uśmiechu, zaakcentowanego śmiechu z przodu, przypadkowego gestu z przodu. Obrazy 3D.	Nic.	549	Obrazy, tekst	Rozpoznawanie twarzy, klasyfikacja	2008		Uniwersytet Króla Juana Carlosa
3D-RMA	Do 100 tematów, wyrażenia w większości neutralne. Kilka pozycji.	Nic.	9971	Obrazy, tekst	Rozpoznawanie twarzy, klasyfikacja	2004		Królewska Akademia Wojskowa (Belgia)
SoF	112 osób (66 mężczyzn i 46 kobiet) nosi okulary w różnych warunkach oświetleniowych.	Zestaw filtrów syntetycznych (rozmycie, okluzje, szum, posteryzacja) o różnym stopniu trudności.	42 592 (2 662 oryginalne zdjęcie × 16 zdjęcie syntetyczne)	Obrazy, plik Mat	Klasyfikacja płci, wykrywanie twarzy, rozpoznawanie twarzy, szacowanie wieku i wykrywanie okularów	2017		Afifi, M. i in.
IMDB-WIKI	Obrazy twarzy IMDB i Wikipedia z etykietami płci i wieku.	Nic	523,051	Obrazy	Klasyfikacja płci, wykrywanie twarzy, rozpoznawanie twarzy, szacowanie wieku	2015		R. Rothe, R. Timofte, LV Gool

Rozpoznawanie działań

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zbiór danych dotyczących interakcji między ludźmi w telewizji	Filmy z 20 różnych programów telewizyjnych do przewidywania akcji społecznych: uścisk dłoni, przybicie piątki, przytulenie, pocałunek i brak.	Nic.	6766 klipów wideo	klipy wideo	Przewidywanie działań	2013	Patron-Perez, A. i in.
Berkeley multimodalna baza danych o ludzkich działaniach (MHAD)	Nagrania pojedynczej osoby wykonującej 12 czynności	Wstępne przetwarzanie MoCap	660 próbek akcji	8 przechwytywania ruchu PhaseSpace, 2 kamery stereo, 4 kamery poczwórne, 6 akcelerometrów, 4 mikrofony	Klasyfikacja działań	2013	Ofli, F. i in.
Zbiór danych THUMOS	Duży zbiór danych wideo do klasyfikacji działań.	Działania sklasyfikowane i oznaczone.	45 mln klatek wideo	Wideo, obrazy, tekst	Klasyfikacja, wykrywanie działań	2013	Y. Jiang i in.
MEXAkcja2	Zestaw danych wideo do lokalizacji akcji i wykrywania	Działania sklasyfikowane i oznaczone.	1000	Wideo	Wykrywanie akcji	2014	Stoian i in.

Wykrywanie i rozpoznawanie obiektów

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Genom wizualny	Obrazy i ich opis		108 000	obrazy, tekst	Podpisy obrazów	2016	R. Krishna i in.
Zbiór danych obiektów 3-D Berkeley	849 zdjęć zrobionych w 75 różnych scenach. Oznakowano około 50 różnych klas obiektów.	Ramki ograniczające obiekt i etykiety.	849	oznaczone obrazy, tekst	Rozpoznawanie obiektów	2014	A. Janoch i in.
Zestaw danych segmentacji Berkeley i testy porównawcze 500 (BSDS500)	500 naturalnych obrazów, wyraźnie podzielonych na rozłączne podzbiory pociągów, walidacji i testów + kod benchmarkingowy. Na podstawie BSDS300.	Każdy obraz jest podzielony średnio na pięć różnych tematów.	500	Obrazy podzielone na segmenty	Wykrywanie konturów i hierarchiczna segmentacja obrazu	2011	Uniwersytet Kalifornijski w Berkeley
Wspólne obiekty firmy Microsoft w kontekście (COCO)	złożone sceny z życia codziennego pospolitych przedmiotów w ich naturalnym kontekście.	Wyróżnianie obiektów, etykietowanie i klasyfikacja do 91 typów obiektów.	2 500 000	Oznaczone obrazy, tekst	Rozpoznawanie obiektów	2015	T. Lin i in.
Baza danych SUN	Bardzo duża baza danych rozpoznawania scen i obiektów.	Miejsca i obiekty są oznakowane. Obiekty są podzielone na segmenty.	131 067	Obrazy, tekst	Rozpoznawanie obiektów, rozpoznawanie scen	2014	J. Xiao i in.
ImageNet	Baza danych obrazów obiektów oznaczonych etykietami, używana w wyzwaniu ImageNet Large Scale Visual Recognition Challenge	Oznaczone obiekty, obwiedni, słowa opisowe, funkcje SIFT	14197122	Obrazy, tekst	Rozpoznawanie obiektów, rozpoznawanie scen	2009 (2014)	J. Deng i in.
Otwórz obrazy	Duży zestaw obrazów oznaczonych jako posiadające licencję CC BY 2.0 z etykietami na poziomie obrazu i ramkami ograniczającymi obejmującymi tysiące klas.	Etykiety na poziomie obrazu, Pudełka ograniczające	9178275	Obrazy, tekst	Klasyfikacja, rozpoznawanie obiektów	2017
Zbiór danych dotyczących wykrywania komercyjnego kanału wiadomości telewizyjnych	Reklamy telewizyjne i audycje informacyjne.	Funkcje audio i wideo wyodrębnione z obrazów nieruchomych.	129 685	Tekst	Klastrowanie, klasyfikacja	2015	P. Guha i in.
Statlog (segmentacja obrazu) Zbiór danych	Instancje zostały losowo wybrane z bazy danych zawierającej 7 obrazów zewnętrznych i ręcznie posegmentowane, aby stworzyć klasyfikację dla każdego piksela.	Obliczono wiele funkcji.	2310	Tekst	Klasyfikacja	1990	Uniwersytet Massachusetts
Caltech 101	Zdjęcia obiektów.	Zaznaczono szczegółowe kontury obiektów.	9146	Obrazy	Klasyfikacja, rozpoznawanie obiektów.	2003	F. Li i in.
Caltech-256	Duży zbiór danych obrazów do klasyfikacji obiektów.	Obrazy skategoryzowane i ręcznie posortowane.	30 607	Obrazy, tekst	Klasyfikacja, wykrywanie obiektów	2007	G. Griffin i in.
Zbiór danych SIFT10M	Funkcje SIFT zbioru danych Caltech-256.	Rozbudowana ekstrakcja funkcji SIFT.	11 164 866	Tekst	Klasyfikacja, wykrywanie obiektów	2016	X. Fu i in.
EtykietaMe	Zdjęcia scen z adnotacjami.	Przedstawione obiekty.	187 240	Obrazy, tekst	Klasyfikacja, wykrywanie obiektów	2005	Laboratorium Informatyki i Sztucznej Inteligencji MIT
Zestaw danych miast	Stereofoniczne sekwencje wideo nagrane w scenach ulicznych z adnotacjami na poziomie pikseli. Uwzględniono również metadane.	Segmentacja i etykietowanie na poziomie pikseli	25 000	Obrazy, tekst	Klasyfikacja, wykrywanie obiektów	2016	Daimler AG i in.
Zbiór danych PASCAL VOC	Duża liczba obrazów do zadań klasyfikacyjnych.	Etykietowanie, w zestawie pudełko ograniczające	500 000	Obrazy, tekst	Klasyfikacja, wykrywanie obiektów	2010	M. Everingham i in.
Zbiór danych CIFAR-10	Wiele małych obrazów o niskiej rozdzielczości 10 klas obiektów.	Klasy oznaczone, utworzone podziały zestawów treningowych.	60 000	Obrazy	Klasyfikacja	2009	A. Krizhevsky i in.
Zbiór danych CIFAR-100	Jak CIFAR-10 powyżej, ale podano 100 klas obiektów.	Klasy oznaczone, utworzone podziały zestawów treningowych.	60 000	Obrazy	Klasyfikacja	2009	A. Krizhevsky i in.
Zbiór danych CINIC-10	Zunifikowany wkład CIFAR-10 i Imagenet z 10 klasami i 3 splitami. Większy niż CIFAR-10.	Oznakowane klasy, uczenie, walidacja, utworzone podziały zestawu testowego.	270 000	Obrazy	Klasyfikacja	2018	Luke N. Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey
Moda-MNIST	Baza danych produktów modowych podobna do MNIST	Klasy oznaczone, utworzone podziały zestawów treningowych.	60 000	Obrazy	Klasyfikacja	2017	Zalando SE
notMNIST	Niektóre publicznie dostępne czcionki i wyodrębnione z nich glify w celu utworzenia zestawu danych podobnego do MNIST. Jest 10 klas, z literami AJ zaczerpniętymi z różnych czcionek.	Klasy oznaczone, utworzone podziały zestawów treningowych.	500 000	Obrazy	Klasyfikacja	2011	Jarosław Bułatow
Niemiecki zestaw danych porównawczych wykrywania znaków drogowych	Obrazy z pojazdów znaków drogowych na niemieckich drogach. Znaki te są zgodne z normami ONZ i dlatego są takie same jak w innych krajach.	Znaki ręcznie oznakowane	900	Obrazy	Klasyfikacja	2013	S Houben i in.
Zestaw danych KITTI Vision Benchmark	Autonomiczne pojazdy przejeżdżające przez średniej wielkości miasto rejestrowały obrazy różnych obszarów za pomocą kamer i skanerów laserowych.	Wiele benchmarków wyodrębnionych z danych.	>100 GB danych	Obrazy, tekst	Klasyfikacja, wykrywanie obiektów	2012	Geiger i in.
Zbiór danych Linneusza 5	Obrazy 5 klas obiektów.	Klasy oznaczone, utworzone podziały zestawów treningowych.	8000	Obrazy	Klasyfikacja	2017	Chaladze i Kalatozishvili
FieldSAFE	Multimodalny zestaw danych do wykrywania przeszkód w rolnictwie, w tym kamera stereo, kamera termowizyjna, kamera internetowa, kamera 360 stopni, lidar, radar i precyzyjna lokalizacja.	Klasy oznaczone geograficznie.	>400 GB danych	Obrazy i chmury punktów 3D	Klasyfikacja, wykrywanie obiektów, lokalizacja obiektów	2017	M. Kragh i in.
11 000 rąk	11076 obrazów dłoni (1600 x 1200 pikseli) 190 osób w różnym wieku od 18 do 75 lat, w celu rozpoznania płci i identyfikacji biometrycznej.	Nic	11076 obrazów dłoni	Obrazy i pliki etykiet (.mat, .txt i .csv)	Rozpoznawanie płci i identyfikacja biometryczna	2017	M Afifi
Rdzeń50	Specjalnie zaprojektowany do ciągłego uczenia się i rozpoznawania obiektów, jest zbiorem ponad 500 filmów (30 klatek na sekundę) z 50 przedmiotami domowymi należącymi do 10 różnych kategorii.	Klasy oznaczone, podziały zestawów treningowych utworzone na podstawie 3-way, multi-runs benchmark.	164 866 obrazów RBG-D	obrazy (.png lub .pkl) i (.pkl, .txt, .tsv) pliki etykiet	Klasyfikacja, rozpoznawanie obiektów	2017	V. Lomonaco i D. Maltoni
Obiekt OpenLORIS	Zestaw danych Lifelong/Continual Robotic Vision (OpenLORIS-Object) gromadzony przez prawdziwe roboty zamontowane za pomocą wielu czujników o wysokiej rozdzielczości, zawiera zbiór 121 instancji obiektów (pierwsza wersja zestawu danych, 40 kategorii obiektów codziennego użytku w 20 scenach). Zestaw danych rygorystycznie uwzględnia 4 czynniki środowiskowe w różnych scenach, w tym oświetlenie, okluzję, rozmiar piksela obiektu i bałagan, oraz wyraźnie definiuje poziomy trudności każdego czynnika.	Klasy oznaczone, podziały zestawów treningowych/walidacyjnych/testowych utworzone przez skrypty porównawcze.	1 106 424 obrazów RBG-D	obrazy (.png i .pkl) i (.pkl) pliki etykiet	Klasyfikacja, Rozpoznawanie obiektów przez całe życie, Robotic Vision	2019	P. Ona i in.
Zestaw danych THz i termicznych wideo	Ten wielospektralny zestaw danych obejmuje filmy terahercowe, termiczne, wizualne, bliskie podczerwieni i trójwymiarowe filmy obiektów ukrytych pod ubraniami ludzi.	Dostępne są tabele przeglądowe 3D, które umożliwiają rzutowanie obrazów na chmury punktów 3D.	Ponad 20 filmów. Czas trwania każdego filmu to około 85 sekund (około 345 klatek).	AP2J	Eksperymenty z wykrywaniem ukrytych obiektów	2019	Aleksiej A. Morozow i Olga S. Sushkova

Pismo odręczne i rozpoznawanie znaków

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zestaw danych sztucznych znaków	Sztucznie wygenerowane dane opisujące strukturę 10 wielkich angielskich liter.	Współrzędne narysowanych linii podane jako liczby całkowite. Różne inne funkcje.	6000	Tekst	Rozpoznawanie pisma ręcznego, klasyfikacja	1992	H. Guvenir i in.
Zbiór danych listowych	Wielkie litery drukowane.	Ze wszystkich obrazów wyodrębniono 17 funkcji.	20 000	Tekst	OCR, klasyfikacja	1991	D. Slate i in.
CASIA-HWDB	Offline odręcznie pisana baza danych chińskich znaków . 3755 klas w zestawie znaków GB 2312 .	Obrazy w skali szarości z pikselami tła oznaczonymi jako 255.	1172,907	Obrazy, tekst	Rozpoznawanie pisma ręcznego, klasyfikacja	2009	CASIA
CASIA-OLHWDB	Internetowa baza danych odręcznych chińskich znaków, zebrana za pomocą pióra Anoto na papierze. 3755 klas w zestawie znaków GB 2312 .	Udostępnia sekwencje współrzędnych pociągnięć.	1 174 364	Obrazy, tekst	Rozpoznawanie pisma ręcznego, klasyfikacja	2009	CASIA
Zestaw danych trajektorii znaków	Oznakowane próbki trajektorii końcówek pióra dla osób piszących proste znaki.	3-wymiarowa macierz trajektorii prędkości końcówki pióra dla każdej próbki	2858	Tekst	Rozpoznawanie pisma ręcznego, klasyfikacja	2008	B. Williamsa
Zbiór danych Chars74K	Rozpoznawanie znaków w naturalnych obrazach symboli używanych zarówno w języku angielskim, jak i kannada		74 107		Rozpoznawanie znaków, rozpoznawanie pisma ręcznego, OCR, klasyfikacja	2009	T. de Campos
Zestaw danych znaków pióra UJI	Pojedyncze odręczne znaki	Podano współrzędne położenia pióra w postaci napisanych znaków.	11 640	Tekst	Rozpoznawanie pisma ręcznego, klasyfikacja	2009	F. Prat i in.
Zbiór danych Gisette	Próbki pisma odręcznego z często mylonych 4 i 9 znaków.	Funkcje wyodrębnione z obrazów, podzielone na pociąg/test, obrazy pisma ręcznego o znormalizowanym rozmiarze.	13500	Obrazy, tekst	Rozpoznawanie pisma ręcznego, klasyfikacja	2003	Yann LeCun i in.
Zbiór danych Omniglotu	1623 różnych odręcznych znaków z 50 różnych alfabetów.	Znakowane ręcznie.	38,300	Obrazy, tekst, obrysy	Klasyfikacja, jednorazowa nauka	2015	Amerykańskie Stowarzyszenie Postępu Nauki
Baza danych MNIST	Baza odręcznych cyfr.	Znakowane ręcznie.	60 000	Obrazy, tekst	Klasyfikacja	1998	Narodowy Instytut Standardów i Technologii
Optyczne rozpoznawanie zbioru danych odręcznych cyfr	Znormalizowane mapy bitowe danych pisanych odręcznie.	Rozmiar znormalizowany i mapowany na mapy bitowe.	5620	Obrazy, tekst	Rozpoznawanie pisma ręcznego, klasyfikacja	1998	E. Alpaydin i in.
Rozpoznawanie za pomocą pióra zbioru danych odręcznych cyfr	Odręcznie napisane cyfry na elektronicznym tablecie z piórem.	Wyodrębnione wektory cech są równomiernie rozmieszczone.	10 992	Obrazy, tekst	Rozpoznawanie pisma ręcznego, klasyfikacja	1998	E. Alpaydin i in.
Semeion odręcznie napisany zestaw danych cyfrowych	Cyfry odręcznie od 80 osób.	Wszystkie odręczne cyfry zostały znormalizowane pod kątem rozmiaru i przyporządkowane do tej samej siatki.	1593	Obrazy, tekst	Rozpoznawanie pisma ręcznego, klasyfikacja	2008	T. Srl
HASYv2	Odręczne symbole matematyczne	Wszystkie symbole są wyśrodkowane i mają rozmiar 32px x 32px.	168233	Obrazy, tekst	Klasyfikacja	2017	Martina Thomasa
Głośny odręczny zestaw danych Bangla	Zawiera odręczny zestaw danych liczbowych (10 klas) i podstawowy zestaw danych znakowych (50 klas), każdy zestaw danych ma trzy rodzaje szumu: biały gaussowski, rozmycie ruchu i zmniejszony kontrast.	Wszystkie obrazy są wyśrodkowane i mają rozmiar 32x32.	Zbiór danych liczbowych: 23330, Zestaw danych znaków: 76000	Obrazy, tekst	Rozpoznawanie pisma odręcznego, Klasyfikacja	2017	M. Karki i in.

Zdjęcia lotnicze

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zbiór danych segmentacji obrazu lotniczego	80 zdjęć lotniczych o wysokiej rozdzielczości z rozdzielczością przestrzenną od 0,3 do 1,0.	Obrazy ręcznie posegmentowane.	80	Obrazy	Klasyfikacja lotnicza, wykrywanie obiektów	2013	J. Yuan i in.
ZESTAW ZBIORU DANYCH AIS	Wiele oznaczonych zestawów danych treningowych i ewaluacyjnych zawierających zdjęcia lotnicze tłumów.	Obrazy ręcznie oznaczone, aby pokazywać ścieżki poszczególnych osób w tłumie.	~150	Obrazy ze ścieżkami	Śledzenie osób, śledzenie z powietrza	2012	M. Butenuth i in.
Zbiór danych więdnięcia	Dane teledetekcyjne chorych drzew i innego pokrycia terenu.	Wyodrębniono różne funkcje.	4899	Obrazy	Klasyfikacja, wykrywanie obiektów lotniczych	2014	B. Johnsona
Zbiór danych MASATI	Sceny morskie optycznych zdjęć lotniczych z widma widzialnego. Zawiera kolorowe obrazy w dynamicznych środowiskach morskich, każdy obraz może zawierać jeden lub wiele celów w różnych warunkach pogodowych i oświetleniowych.	Ramki ograniczające obiekt i etykiety.	7389	Obrazy	Klasyfikacja, wykrywanie obiektów lotniczych	2018	A.-J. Gallego i in.
Zestaw danych mapowania typu lasu	Zdjęcia satelitarne lasów w Japonii.	Wyodrębnione pasma długości fal obrazu.	326	Tekst	Klasyfikacja	2015	B. Johnsona
Zbiór danych badawczych z obrazowania nad głową	Zdjęcia nad głową z adnotacjami. Obrazy z wieloma obiektami.	Ponad 30 adnotacji i ponad 60 statystyk opisujących cel w kontekście obrazu.	1000	Obrazy, tekst	Klasyfikacja	2009	F. Tanner i in.
Sieć kosmiczna	SpaceNet to zbiór komercyjnych zdjęć satelitarnych i oznaczonych danych treningowych.	Pliki GeoTiff i GeoJSON zawierające obrysy budynków.	>17533	Obrazy	Klasyfikacja, identyfikacja obiektu	2017	DigitalGlobe, Inc.
Zbiór danych dotyczących użytkowania gruntów UC Merced	Te obrazy zostały ręcznie wyodrębnione z dużych obrazów z kolekcji USGS National Map Urban Area Imagery dla różnych obszarów miejskich w Stanach Zjednoczonych.	Jest to zestaw danych obrazu użytkowania gruntów 21 klasy przeznaczony do celów badawczych. Dla każdej klasy jest 100 zdjęć.	2100	Fragmenty obrazu 256x256, 30 cm (1 stopa) GSD	Klasyfikacja pokrycia terenu	2010	Yi Yang i Shawn Newsam
Powietrzny zestaw danych SAT-4	Obrazy zostały wyodrębnione ze zbioru danych Narodowego Programu Obrazowania Rolnictwa (NAIP).	SAT-4 ma cztery szerokie klasy pokrycia terenu, w tym grunty jałowe, drzewa, użytki zielone oraz klasę, która obejmuje wszystkie klasy pokrycia terenu inne niż powyższe trzy.	500 000	Obrazy	Klasyfikacja	2015	S. Basu i in.
SAT-6 Powietrzny zestaw danych	Obrazy zostały wyodrębnione ze zbioru danych Narodowego Programu Obrazowania Rolnictwa (NAIP).	SAT-6 ma sześć szerokich klas pokrycia terenu, w tym nieużytki, drzewa, użytki zielone, drogi, budynki i zbiorniki wodne.	405 000	Obrazy	Klasyfikacja	2015	S. Basu i in.

Inne obrazy

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zbiór danych SUPATLANTIQUE	Obrazy zeskanowanych dokumentów urzędowych i Wikipedii	Nic	4908	TIFF/pdf	Identyfikacja urządzenia źródłowego, wykrywanie fałszerstw, klasyfikacja, ..	2020	C. Ben Rabah i in.
Symulacje kwantowe grafenu oparte na teorii funkcjonału gęstości	Oznaczone obrazy surowych danych wejściowych do symulacji grafenu	Surowe dane (w formacie HDF5) i etykiety wyjściowe z symulacji kwantowej teorii funkcjonału gęstości	60744 test i 501473 pliki szkoleniowe	Obrazy oznaczone etykietami	Regresja	2019	K. Mills i I. Tamblyn
Symulacje kwantowe elektronu w dwuwymiarowej studni potencjału	Oznakowane obrazy surowych danych wejściowych do symulacji mechaniki kwantowej 2D	Surowe dane (w formacie HDF5) i etykiety wyjściowe z symulacji kwantowej	1,3 miliona obrazów	Obrazy oznaczone etykietami	Regresja	2017	K. Mills, MA Spanner i I. Tamblyn
Zbiór danych dotyczących czynności kulinarnych MPII	Filmy i zdjęcia różnych czynności kulinarnych.	Ścieżki i kierunki aktywności, etykiety, szczegółowe etykietowanie ruchu, klasa aktywności, wyodrębnianie i etykietowanie nieruchomych obrazów.	881.755 klatek	Oznaczone filmy, obrazy, tekst	Klasyfikacja	2012	M. Rohrbach i in.
Zbiór danych FAMOS	5000 unikalnych mikrostruktur, wszystkie próbki zostały pobrane 3 razy za pomocą dwóch różnych kamer.	Oryginalne pliki PNG, posortowane według kamery, a następnie według akwizycji. Pliki danych MATLAB z jedną matrycą 16384 razy 5000 na kamerę na akwizycję.	30 000	Obrazy i pliki .mat	Uwierzytelnianie	2012	S. Voloshynovskiy i in.
Zbiór danych PharmaPack	1000 unikalnych klas z 54 obrazami na klasę.	Etykietowanie klas, wiele lokalnych deskryptorów, takich jak SIFT i aKaZE, oraz lokalne agregatory cech, takie jak Fisher Vector (FV).	54 000	Obrazy i pliki .mat	Klasyfikacja drobnoziarnista	2017	O. Taran i S. Rezaeifar, et al.
Zbiór danych psów Stanford	Zdjęcia 120 ras psów z całego świata.	Udostępniono podziały trenowania/testowania i adnotacje ImageNet.	20 580	Obrazy, tekst	Klasyfikacja drobnoziarnista	2011	A. Khosla i in.
Dodatkowy zestaw danych Stanford	Kluczowe punkty 2D i segmentacje dla zbioru danych Stanford Dogs.	Dostarczono kluczowe punkty 2D i segmentacje.	12,035	Obrazy oznaczone etykietami	Rekonstrukcja 3D/oszacowanie pozy	2020	B. Biggsa i in.
Zbiór danych zwierząt domowych Oxford-IIIT	37 kategorii zwierząt domowych z około 200 obrazami każdego z nich.	Oznaczone rasą, ciasne pole ograniczające, segmentacja pierwszy plan-tło.	~ 7400	Obrazy, tekst	Klasyfikacja, wykrywanie obiektów	2012	O. Parkhi i in.
Corel Image Features Zestaw danych	Baza obrazów z wyodrębnionymi cechami.	Wiele funkcji, w tym histogram kolorów, tekstura współwystępowania i momenty kolorów,	68 040	Tekst	Klasyfikacja, wykrywanie obiektów	1999	M. Ortega-Bindenberger i in.
Charakterystyka wideo online i zbiór danych czasu transkodowania.	Czasy transkodowania dla różnych filmów i właściwości wideo.	Podano funkcje wideo.	168 286	Tekst	Regresja	2015	T. Deneke i in.
Narracyjny zestaw danych obrazu sekwencyjnego firmy Microsoft (SIND)	Zbiór danych dla sekwencyjnej wizji na język	Przy każdym zdjęciu podany jest opisowy podpis i narracja, a zdjęcia ułożone są w sekwencje	81 743	Obrazy, tekst	Opowiadanie wizualne	2016	Badania firmy Microsoft
Caltech-UCSD Birds-200-2011 Zestaw danych	Duży zbiór danych obrazów ptaków.	Lokalizacje części dla ptaków, ramki ograniczające, podano 312 atrybutów binarnych	11 788	Obrazy, tekst	Klasyfikacja	2011	C. Wah i in.
YouTube-8M	Duży i zróżnicowany zbiór danych wideo oznaczonych etykietami	Identyfikatory wideo YouTube i powiązane etykiety z różnorodnego słownictwa 4800 jednostek wizualnych	8 milionów	Wideo, tekst	Klasyfikacja wideo	2016	S. Abu-El-Haija i in.
YFCC100M	Duży i różnorodny zestaw danych obrazów i wideo oznaczonych etykietami	Filmy i obrazy Flickr oraz powiązane opisy, tytuły, tagi i inne metadane (takie jak EXIF i geotagi)	100 milionów	Wideo, obraz, tekst	Klasyfikacja wideo i obrazu	2016	B. Thomee i in.
Dyskretny LIRIS-ACCEDE	Krótkie filmy z adnotacjami o wartościowości i podnieceniu.	Etykiety walencyjne i pobudzenia.	9800	Wideo	Wykrywanie emocji wideo	2015	Y. Baveye i in.
Ciągły LIRIS-ACCEDE	Długie filmy z adnotacjami o waleczności i podnieceniu, a także zbierające Galvanic Skin Response.	Etykiety walencyjne i pobudzenia.	30	Wideo	Wykrywanie emocji wideo	2015	Y. Baveye i in.
MediaEval LIRIS-ACCEDE	Rozszerzenie Discrete LIRIS-ACCEDE o adnotacje dotyczące poziomów przemocy w filmach.	Etykiety przemocy, walencji i pobudzenia.	10900	Wideo	Wykrywanie emocji wideo	2015	Y. Baveye i in.
Pozycja sportowa w Leeds	Przegubowe adnotacje ludzkiej pozy w 2000 naturalnych obrazach sportowych z serwisu Flickr.	Szorstkie zbiory wokół jednej interesującej osoby z 14 wspólnymi etykietami	2000	Obrazy plus etykiety plików .mat	Oszacowanie ludzkiej pozy	2010	S. Johnson i M. Everingham
Leeds Sports Pose Extended Training	Przegubowe adnotacje dotyczące ludzkiej pozy na 10 000 naturalnych obrazach sportowych z serwisu Flickr.	14 wspólnych etykiet poprzez crowdsourcing	dziesięć tysięcy	Obrazy plus etykiety plików .mat	Oszacowanie ludzkiej pozy	2011	S. Johnson i M. Everingham
Zbiór danych MCQ	6 różnych rzeczywistych egzaminów wielokrotnego wyboru (735 arkuszy odpowiedzi i 33 540 pól odpowiedzi) w celu oceny technik widzenia komputerowego i systemów opracowanych dla systemów oceny testów wielokrotnego wyboru.	Nic	735 arkuszy odpowiedzi i 33 540 skrzynek odpowiedzi	Obrazy i etykiety plików .mat	Rozwój systemów oceny testów wielokrotnego wyboru	2017	Afifi, M. i in.
Filmy z nadzoru	Prawdziwe nagrania wideo z monitoringu obejmują długi czas nadzoru (7 dni po 24 godziny każdy).	Nic	19 nagrań wideo z monitoringu (7 dni po 24 godziny każdy).	Filmy	Kompresja danych	2016	Taj-Eddin, IATF i in.
LILA BC	Oznaczona Biblioteka Informacyjna Aleksandrii: Biologia i Ochrona. Obrazy z etykietami, które wspierają badania nad uczeniem maszynowym w zakresie ekologii i nauk o środowisku.	Nic	~10 mln obrazów	Obrazy	Klasyfikacja	2019	Grupa robocza LILA
Czy możemy zobaczyć fotosyntezę?	32 filmy dla ośmiu żywych i ośmiu martwych liści nagranych w warunkach oświetlenia DC i AC.	Nic	32 filmy	Filmy	Wykrywanie żywotności roślin	2017	Taj-Eddin, IATF i in.

Dane tekstowe

Zestawy danych składające się głównie z tekstu do zadań takich jak przetwarzanie języka naturalnego , analiza sentymentu , tłumaczenie i analiza klastrów .

Opinie

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Recenzje Amazon	Recenzje produktów w USA z Amazon.com .	Nic.	233,1 miliona	Tekst	Klasyfikacja, analiza sentymentu	2015 (2018)	McAuley i in.
Zbiór danych recenzji OpinRank	Recenzje samochodów i hoteli odpowiednio z Edmunds.com i TripAdvisor .	Nic.	42 230 / ~259 000 odpowiednio	Tekst	Analiza nastrojów, grupowanie	2011	K. Ganesan i in.
Obiektyw filmu	22 000 000 ocen i 580 000 tagów zastosowanych do 33 000 filmów przez 240 000 użytkowników.	Nic.	~ 22M	Tekst	Regresja, grupowanie, klasyfikacja	2016	Badania GroupLens
Wieśniak! Muzyczne oceny artystów muzycznych	Ponad 10 milionów ocen artystów przez użytkowników Yahoo.	Nie opisano.	~ 10M	Tekst	Klastrowanie, regresja	2004	Wieśniak!
Zestaw danych oceny samochodu	Właściwości samochodów i ich ogólna akceptowalność.	Podano sześć kategorycznych cech.	1728	Tekst	Klasyfikacja	1997	M. Bohanec
Zbiór danych preferencji YouTube Comedy Slam	Dane głosowania użytkowników na pary filmów wyświetlanych w YouTube. Użytkownicy głosowali na zabawniejsze filmy.	Podano metadane wideo.	1 138 562	Tekst	Klasyfikacja	2012	Google
Zbiór danych opinii użytkowników Skytrax	Recenzje użytkowników linii lotniczych, lotnisk, siedzeń i poczekalni Skytrax.	Oceny są drobiazgowe i obejmują wiele aspektów doświadczenia na lotnisku.	41396	Tekst	Klasyfikacja, regresja	2015	Q. Nguyen
Zbiór danych oceny asystenta nauczania	Recenzje asystenta nauczania.	Podane są cechy każdej instancji, takie jak klasa, wielkość klasy i instruktor.	151	Tekst	Klasyfikacja	1997	W. Loh i in.
Korpus informacji zwrotnej dla studentów wietnamskich (UIT-VSFC)	Opinie uczniów.	Uwagi	16 000	Tekst	Klasyfikacja	1997	Nguyen i in.
Wietnamski Korpus Emocji w Mediach Społecznościowych (UIT-VSMEC)	Komentarze użytkowników na Facebooku.	Uwagi	6927	Tekst	Klasyfikacja	1997	Nguyen i in.
Wietnamski zbiór danych wykrywania reklamacji w otwartej domenie (ViOCD)	Recenzje produktów klientów	Uwagi	5485	Tekst	Klasyfikacja	2021	Nguyen i in.

Artykuły z wiadomościami

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zbiór danych NYSK	Angielskie artykuły prasowe o sprawie dotyczącej zarzutów napaści na tle seksualnym wobec byłego dyrektora MFW Dominique'a Strauss-Kahna .	Filtrowane i prezentowane w formacie XML.	10 421	XML, tekst	Analiza sentymentu, wyodrębnianie tematów	2013	Dermouche, M. i in.
Tom 1 Korpusu Reutera	Duży zbiór wiadomości Reuters w języku angielskim.	Kategoryzacja drobnoziarnista i kody tematów.	810 000	Tekst	Klasyfikacja, grupowanie, podsumowanie	2002	Reuters
Tom 2 Korpusu Reutera	Duży zbiór wiadomości Reuters w wielu językach.	Kategoryzacja drobnoziarnista i kody tematów.	487 000	Tekst	Klasyfikacja, grupowanie, podsumowanie	2005	Reuters
Zbiór badań tekstowych Thomson Reuters	Duży zbiór wiadomości.	Szczegóły nie opisane.	1800,370	Tekst	Klasyfikacja, grupowanie, podsumowanie	2009	T. Rose i in.
Gazety saudyjskie Corpus	31.030 arabskich artykułów prasowych.	Wyodrębnione metadane.	31.030	JSON	Podsumowanie, grupowanie	2015	M. Alhagri
RE3D (Zestaw danych oceny relacji i wyodrębniania jednostek)	Entity and Relation oznaczały dane z różnych źródeł wiadomości i źródeł rządowych. Sponsorowane przez Dstl	Filtrowane, kategoryzacja za pomocą typów Baleen	nieznany	JSON	Klasyfikacja, rozpoznawanie podmiotów i relacji	2017	Dstl
Katalog Clickbait dla egzaminatorów spamu	Clickbait, spam, nagłówki crowd-sourced od 2010 do 2015	Data publikacji i nagłówki	3 089 781	CSV	Klastrowanie, wydarzenia, nastroje	2016	R. Kulkarni
ABC Australia Aktualności Corpus	Cały korpus wiadomości ABC Australia od 2003 do 2019 roku	Data publikacji i nagłówki	1.186.018	CSV	Klastrowanie, wydarzenia, nastroje	2020	R. Kulkarni
Wiadomości z całego świata – zagregowane 20 tys. kanałów	Migawka wszystkich nagłówków online z tygodnia w ponad 20 językach	Czas publikacji, adres URL i nagłówki	1 398 431	CSV	Klastrowanie, zdarzenia, wykrywanie języka	2018	R. Kulkarni
Nagłówek wiadomości Reutera	11 lat wydarzeń z sygnaturą czasową publikowanych w news-wire	Czas publikacji, tekst nagłówka	16 121 310	CSV	NLP, lingwistyka komputerowa, wydarzenia	2018	R. Kulkarni
The Irish Times Ireland News Corpus	24 lata Irlandii Wiadomości od 1996 do 2019	Czas publikacji, kategoria nagłówka i tekst	1,484,340	CSV	NLP, lingwistyka komputerowa, wydarzenia	2020	R. Kulkarni
Zbiór danych nagłówków wiadomości do wykrywania sarkazmu	Zestaw danych wysokiej jakości z sarkastycznymi i niesarkastycznymi nagłówkami wiadomości.	Czysty, znormalizowany tekst	26 709	JSON	NLP, klasyfikacja, językoznawstwo	2018	Rishabh Misra

Wiadomości

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zbiór danych e-mail Enron	E-maile od pracowników Enronu zorganizowane w foldery.	Usunięto załączniki, nieprawidłowe adresy e-mail przekonwertowane na user@enron.com lub no_address@enron.com.	~ 500 000	Tekst	Analiza sieci, analiza sentymentu	2004 (2015)	Klimt, B. i Y. Yang
Zbiór danych spamu Ling	Korpus zawierający zarówno legalne, jak i spamowe wiadomości e-mail.	Cztery wersje korpusu dotyczące tego, czy włączono lematyzator lub stop-listę.	2412 Szynka 481 Spam	Tekst	Klasyfikacja	2000	Androutsopoulos, J. i in.
Zbiór danych zbierania spamu SMS	Zebrane wiadomości SMS będące spamem.	Nic.	5,574	Tekst	Klasyfikacja	2011	T. Almeida i in.
Zbiór danych dwudziestu grup dyskusyjnych	Wiadomości z 20 różnych grup dyskusyjnych.	Nic.	20 000	Tekst	Przetwarzanie języka naturalnego	1999	T. Mitchell i in.
Zbiór danych bazy spamu	E-maile spamowe.	Wyodrębniono wiele funkcji tekstowych.	4601	Tekst	Wykrywanie spamu, klasyfikacja	1999	M. Hopkins i in.
Zbiór danych ColBERT	Krótkie żarty.	Usunięto wartości odstające.	200 000	Tekst	Wykrywanie humoru, klasyfikacja	2020	I. Annamoradnejad.

Twitter i tweety

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
FilmyTweetingi	Zestaw danych do oceny filmów na podstawie publicznych i dobrze ustrukturyzowanych tweetów		~710.000	Tekst	Klasyfikacja, regresja	2018	S. Zagłady
Twitter100 tys.	Pary obrazków i tweetów		100 000	Tekst i obrazy	Wyszukiwanie cross-media	2017	Y. Hu i in.
Sentyment140	Dane tweeta z 2009 r., w tym oryginalny tekst, znacznik czasu, użytkownik i sentyment.	Klasyfikowane przy użyciu nadzoru na odległość od obecności emotikonów w tweecie.	1 578 627	Tweety, przecinek, wartości rozdzielone	Analiza sentymentu	2009	A. Go i in.
Zbiór danych ASU na Twitterze	Dane z sieci Twittera, a nie rzeczywiste tweety. Pokazuje połączenia między dużą liczbą użytkowników.	Nic.	11 316 811 użytkowników, 85 331 846 połączeń	Tekst	Klastrowanie, analiza wykresów	2009	R. Zafarani i in.
Kręgi społecznościowe SNAP: baza danych na Twitterze	Duże dane z sieci Twittera.	Cechy węzłów, kręgi i sieci ego.	1,768,149	Tekst	Klastrowanie, analiza wykresów	2012	J. McAuley i in.
Zestaw danych Twittera do analizy nastrojów w języku arabskim	Arabskie tweety.	Próbki ręcznie oznakowane jako pozytywne lub negatywne.	2000	Tekst	Klasyfikacja	2014	N. Abdulla
Buzz w zbiorze danych mediów społecznościowych	Dane z Twittera i Tom's Hardware. Ten zbiór danych koncentruje się na konkretnych tematach buzzów omawianych w tych witrynach.	Dane są wyświetlane w oknach, dzięki czemu użytkownik może spróbować przewidzieć zdarzenia prowadzące do szumu w mediach społecznościowych.	140 000	Tekst	Regresja, Klasyfikacja	2013	F. Kawala i in.
Parafraza i podobieństwo semantyczne w Twitterze (PIT)	Ten zestaw danych skupia się na tym, czy tweety mają (prawie) takie samo znaczenie/informacje, czy nie. Oznaczone ręcznie.	tokenizacja, tagowanie części mowy i nazwanych encji	18 762	Tekst	Regresja, Klasyfikacja	2015	Xu i in.
Geoparsuj zestaw danych porównawczych Twittera	Ten zbiór danych zawiera tweety podczas różnych wydarzeń informacyjnych w różnych krajach. Ręcznie oznaczone wzmianki o lokalizacji.	adnotacje lokalizacji dodane do metadanych JSON	6 386	Tweety, JSON	Klasyfikacja, wyodrębnianie informacji	2014	SE Middleton i in.
Holenderska kolekcja mediów społecznościowych	Ten zbiór danych zawiera tweety na temat COVID-19 stworzone przez osoby posługujące się językiem holenderskim lub użytkowników z Holandii. Dane zostały opatrzone adnotacją maszynową	sklasyfikowany za sentyment, tekst tweeta i opis użytkownika przetłumaczony na język angielski. Wzmianki branżowe są wydobywane	271,342	JSONL	Sentyment, klasyfikacja z wieloma etykietami, tłumaczenie maszynowe	2020	Aaaksh Gupta, CoronaDlaczego

Dialogi

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Korpus czatu NPS	Posty z czatów online dla określonych grup wiekowych.	Prywatność dłoni zamaskowana, oznaczona jako część mowy i dialog-akt.	~ 500 000	XML	NLP, programowanie, lingwistyka	2007	Forsyth E., Lin J. i Martell C.
Potrójny korpus na Twitterze	Trójki ABA wydobyte z Twittera.		4232	Tekst	NLP	2016	Sordini, A. i in.
UseNet Corpus	Posty na forum UseNet.	Anonimowe e-maile i adresy URL. Pominięte dokumenty o długości <500 słów lub >500 000 słów lub zawierające język angielski w <90%.	7 miliardów	Tekst		2011	Shaoul, C. i Westbury C.
Korpus SMS NUS	Wiadomości SMS zbierane między dwoma użytkownikami, z analizą czasową.		~ 10 000	XML	NLP	2011	KAN, M
Reddit Wszystkie Komentarze Corpus	Wszystkie komentarze Reddit (stan na 2015 r.).		~ 1,7 miliarda	JSON	NLP, badania	2015	Stuck_In_the_Matrix
Korpus dialogowy Ubuntu	Dialogi wyodrębnione ze strumienia czatu Ubuntu na IRC.			CSV	Badania systemów dialogu	2015	Lowe, R. i in.
Wyzwanie śledzenia stanu dialogu	Wyzwania dotyczące śledzenia stanu dialogu 2 i 3 (DSTC2 i 3) były wyzwaniem badawczym skoncentrowanym na poprawie stanu wiedzy w zakresie śledzenia stanu systemów dialogu mówionego.	Transkrypcja wypowiadanych dialogów z etykietowaniem	DSTC2 zawiera ~3,2k połączeń – DSTC3 zawiera ~2,3k połączeń	Json	Śledzenie stanu dialogu	2014	Henderson, Matthew i Thomson, Blaise i Williams, Jason D

Inny tekst

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zbiór danych Web of Science	Hierarchiczne zbiory danych do klasyfikacji tekstu	Nic.	46,985	Tekst	Klasyfikacja, Kategoryzacja	2017	K. Kowsari i in.
Sprawozdania prawne	Sprawy Sądu Federalnego Australii od 2006 do 2009 roku.	Nic.	4000	Tekst	Podsumowanie, analiza cytowań	2012	F. Galgani i in.
Korpus autorstwa Bloggera	Wpisy na blogu 19320 osób z blogger.com.	Blogger sam podał płeć, wiek, branżę i znak zodiaku.	681.288	Tekst	Analiza sentymentu, podsumowanie, klasyfikacja	2006	J. Schler i in.
Struktura społecznościowa sieci Facebook	Duży zbiór danych o strukturze społecznościowej Facebooka.	Nic.	Obejmuje 100 uczelni	Tekst	Analiza sieci, klastrowanie	2012	Traud i in.
Zestaw danych do maszynowego rozumienia tekstu	Historie i związane z nimi pytania do testowania rozumienia tekstu.	Nic.	660	Tekst	Przetwarzanie języka naturalnego, rozumienie maszynowe	2013	M. Richardson i in.
Projekt Penn Treebank	Tekst naturalnie występujący z adnotacjami dla struktury językowej.	Tekst jest dzielony na drzewa semantyczne.	~ 1 mln słów	Tekst	Przetwarzanie języka naturalnego, podsumowania	1995	M. Marcus i in.
Zbiór danych DEXTER	Podane zadanie polega na ustaleniu, na podstawie podanych cech, które artykuły dotyczą przejęć firm.	Wyodrębnione funkcje obejmują rdzenie słów. Zawiera funkcje rozpraszające.	2600	Tekst	Klasyfikacja	2008	Reuters
N-gramy w Książkach Google	N-gramy z bardzo dużego zbioru książek	Nic.	2,2 TB tekstu	Tekst	Klasyfikacja, grupowanie, regresja	2011	Google
Personae Corpus	Zbierane do eksperymentów w zakresie przypisywania autorstwa i przewidywania osobowości. Składa się z 145 esejów w języku niderlandzkim.	Oprócz zwykłych tekstów podane są teksty z adnotacjami składniowymi.	145	Tekst	Klasyfikacja, regresja	2008	K. Luyckx i in.
Zbiór danych CNAE-9	Zadanie kategoryzacji dla dowolnych opisów tekstowych brazylijskich firm.	Wyodrębniono częstotliwość słów.	1080	Tekst	Klasyfikacja	2012	P. Ciarelli i in.
Zbiór danych o zdaniach oznaczonych sentymentem	3000 zdań oznaczonych sentymentem.	Sentyment każdego zdania został ręcznie oznaczony jako pozytywny lub negatywny.	3000	Tekst	Klasyfikacja, analiza sentymentu	2015	D. Kotzias
Zbiór danych opinii o blogu	Zestaw danych umożliwiający przewidywanie liczby komentarzy otrzymanych przez post na podstawie jego cech.	Wyodrębniono wiele funkcji każdego posta.	60 021	Tekst	Regresja	2014	K. Buza
Korpus Wnioskowania o Języku Naturalnym Stanforda (SNLI)	Podpisy pod obrazami dopasowane do nowo skonstruowanych zdań, tworzących pociąganie, sprzeczność lub neutralne pary.	Etykiety klas Entailment, parsowanie składniowe przez parser Stanford PCFG	570 000	Tekst	Wnioskowanie w języku naturalnym/rozpoznawanie wnioskowania tekstowego	2015	S. Bowman i in.
Kolekcja DSL Corpus (DSLCC)	Wielojęzyczny zbiór krótkich fragmentów tekstów dziennikarskich w podobnych językach i dialektach.	Nic	294 000 fraz	Tekst	Rozróżnianie podobnych języków	2017	Tan, Liling i in.
Zbiór danych słownika miejskiego	Korpus słów, głosów i definicji	Anonimizowane nazwy użytkowników	2 580 925	CSV	NLP, rozumienie maszyn	2016 maj	Anonimowy
T-REx	Streszczenia Wikipedii dostosowane do jednostek Wikidanych	Dopasowanie trójek Wikidanych z abstraktami Wikipedii	11 mln wyrównanych trójek	JSON i NIF [2]	NLP, ekstrakcja relacji	2018	H. Elsahar i in.
Ogólna ocena zrozumienia języka (GLUE)	Benchmark dziewięciu zadań	Różny	~1 mln zdań i par zdań		NLU	2018	Wang i in.
Contract Understanding Atticus Dataset (CUAD) (wcześniej znany jako Atticus Open Contract Dataset (AOK))	Zbiór danych umów prawnych z bogatymi adnotacjami eksperckimi		~13 000 etykiet	CSV i PDF	Przetwarzanie języka naturalnego, QnA	2021	Projekt Atticus
Zbiór danych wietnamskich napisów do obrazów (UIT-ViIC)	Zbiór danych wietnamskich napisów do obrazów		19 250 podpisów do 3850 obrazów	CSV i PDF	Przetwarzanie języka naturalnego, Wizja komputerowa	2020	Lam i in.
Nazwiska wietnamskie z adnotacjami o płci (UIT-ViNames)	Nazwy wietnamskie z adnotacjami Płeć		26 850 wietnamskich pełnych imion z adnotacjami płci	CSV	Przetwarzanie języka naturalnego	2020	Do et al.
Zestaw wietnamskich danych dotyczących wykrywania konstruktywnej i toksycznej mowy (UIT-ViCTSD)	Wietnamski zestaw danych do wykrywania konstruktywnej i toksycznej mowy		10 000 komentarzy wietnamskich użytkowników w gazetach internetowych w 10 domenach	CSV	Przetwarzanie języka naturalnego	2021	Nguyen i in.
Zbiór danych ColBERT	Krótkie żarty.	Usunięto wartości odstające.	200 000	Tekst	Wykrywanie humoru, klasyfikacja	2020	Annamoradnejad i in.

Dane dźwiękowe

Zestawy danych dźwięków i funkcji dźwiękowych.

Przemówienie

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zero Resource Speech Challenge 2015	Mowa spontaniczna (angielski), Mowa odczytana (Xitsonga).	surowa fala	angielski: 5h, 12 mówców; Xitsonga: 2h30; 24 głośniki	dźwięk	Nienadzorowane wykrywanie funkcji mowy/jednostek podsłów/jednostek słów	2015	Versteegh i in.
Zbiór danych mowy Parkinsona	Wiele nagrań osób z chorobą Parkinsona i bez niej.	Wyodrębnione cechy głosu, choroba oceniona przez lekarza za pomocą ujednoliconej skali oceny choroby Parkinsona	1,040	Tekst	Klasyfikacja, regresja	2013	BE Sakar i in.
Mówione cyfry arabskie	Mówione cyfry arabskie od 44 mężczyzn i 44 kobiet.	Szeregi czasowe współczynników cepstrum mel-częstotliwości .	8800	Tekst	Klasyfikacja	2010	M. Bedda i in.
Zbiór danych ISOLET	Mówione nazwy liter.	Funkcje wyodrębnione z dźwięków.	7797	Tekst	Klasyfikacja	1994	R. Cole i in.
Zbiór danych japońskich samogłosek	Dziewięć męskich mówców wypowiedziało kolejno dwie japońskie samogłoski.	Zastosowano do niego 12-stopniową analizę predykcyjną liniową, aby uzyskać szereg dyskretnych czasowych z 12 współczynnikami cepstrum.	640	Tekst	Klasyfikacja	1999	M. Kudo i in.
Zbiór danych telemonitorowania Parkinsona	Wiele nagrań osób z chorobą Parkinsona i bez niej.	Wyodrębnione cechy dźwiękowe.	5875	Tekst	Klasyfikacja	2009	A. Tsanas i in.
TIMIT	Nagrania 630 osób mówiących w ośmiu głównych dialektach amerykańskiego angielskiego, z których każdy czyta dziesięć zdań bogatych fonetycznie.	Mowa podlega transkrypcji leksykalnej i fonemicznej.	6300	Tekst	Rozpoznawanie mowy, klasyfikacja.	1986	J. Garofolo i in.
Arabski Korpus Mowy	Pojedyncza głośników, Modern Standard Arabic (MSA) corpus mowy z fonetycznych i ortograficznych transkryptów ustawionych na poziomie fonemów	Mowa jest zapisywana ortograficznie i fonetycznie ze znakami akcentu.	~1900	Tekst, WAV	Synteza mowy, rozpoznawanie mowy, wyrównanie korpusu, terapia mowy, edukacja.	2016	N. Halabi
Wspólny głos	Baza danych domeny publicznej zawierająca dane pochodzące z crowdsourcingu w wielu różnych dialektach.	Walidacja przez innych użytkowników	Angielski: 1118 godzin	MP3 z odpowiednimi plikami tekstowymi	Rozpoznawanie mowy	czerwiec 2017 (grudzień 2019)	Mozilla

Muzyka

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Pochodzenie geograficzne zbioru danych muzycznych	Funkcje audio próbek muzycznych z różnych lokalizacji.	Funkcje audio wyodrębnione za pomocą oprogramowania MARSYAS.	1,059	Tekst	Klasyfikacja geograficzna, grupowanie	2014	F. Zhou i in.
Zbiór danych miliona utworów	Funkcje audio z miliona różnych utworów.	Wyodrębnione funkcje audio.	1M	Tekst	Klasyfikacja, grupowanie	2011	T. Bertin-Mahieux i in.
MUSDB18	Wielościeżkowe nagrania muzyki popularnej	Surowy dźwięk	150	MP4, WAV	Separacja źródła	2017	Z. Rafii i in.
Darmowe archiwum muzyczne	Audio na licencji Creative Commons z 100 tys. utworów (343 dni, 1TiB) z hierarchią 161 gatunków, metadanymi, danymi użytkownika, tekstem dowolnym.	Surowe funkcje audio i audio.	106 574	Tekst, MP3	Klasyfikacja, rekomendacja	2017	M. Defferrard i in.
Zbiór danych harmonii chóralnej Bacha	Akordy chorałowe Bacha.	Wyodrębnione funkcje audio.	5665	Tekst	Klasyfikacja	2014	D. Radicioni i in.

Inne dźwięki

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Dźwięk miejski	Oznaczone nagrania dźwiękowe dźwięków, takich jak klimatyzatory, klaksony samochodowe i bawiące się dzieci.	Posortowane w foldery według klasy zdarzeń oraz metadanych w pliku JSON i adnotacji w pliku CSV.	1,059	Dźwięk ( WAV )	Klasyfikacja	2014	J. Salamon i in.
Zestaw audio	10-sekundowe fragmenty dźwięków z filmów na YouTube i ontologia ponad 500 etykiet.	128-d PCA-owskie funkcje VGG co 1 sekundę.	2 084 320	Pliki tekstowe (CSV) i TensorFlow Record	Klasyfikacja	2017	J. Gemmeke i in., Google
Wyzwanie wykrywania dźwięku ptaków	Dźwięk ze stacji monitorujących środowisko oraz nagrania z crowdsourcingu		17 000+		Klasyfikacja	2016 (2018)	Queen Mary University i Stowarzyszenie Przetwarzania Sygnałów IEEE
Hipsterskie mieszanki otoczenia WSJ0	Dźwięk z WSJ0 zmieszany z szumem nagranym w rejonie zatoki San Francisco	Klipy szumów dopasowane do klipsów WSJ0	28 000	Dźwięk ( WAV )	Separacja źródła dźwięku	2019	Wichern, G. i in., Whisper i MERL
Clotho	4981 próbek audio o długości od 15 do 30 sekund, przy czym każda próbka audio ma pięć różnych napisów o długości od 8 do 20 słów.		24 905	Dźwięk ( WAV ) i tekst ( CSV )	Automatyczne napisy audio	2020	K. Drossos, S. Lipping i T. Virtanen

Dane sygnału

Zestawy danych zawierające informacje o sygnale elektrycznym wymagające pewnego rodzaju przetwarzania sygnału do dalszej analizy.

Elektryczny

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zbiór danych robaka dowcipnego	Zestaw danych szczegółowo opisujący rozprzestrzenianie się robaka Witty i zainfekowanych komputerów.	Podziel na zestaw publicznie dostępny i zestaw zastrzeżony zawierający bardziej poufne informacje, takie jak nagłówki IP i UDP.	55 909 adresów IP	Tekst	Klasyfikacja	2004	Centrum Stosowanej Analizy Danych Internetowych
Zestaw danych do szacowania ciśnienia krwi bez mankietu	Oczyszczone sygnały życiowe od ludzkich pacjentów, które można wykorzystać do oszacowania ciśnienia krwi.	Funkcje życiowe 125 Hz zostały wyczyszczone.	12.000	Tekst	Klasyfikacja, regresja	2015	M. Kachuee i in.
Zestaw danych dryfu czujnika gazu	Pomiary z 16 czujników chemicznych wykorzystanych w symulacjach do kompensacji dryfu.	Obszerna liczba podanych funkcji.	13.910	Tekst	Klasyfikacja	2012	A. Vergara
Zestaw danych serwo	Dane obejmujące nieliniowe zależności obserwowane w obwodzie serwowzmacniacza.	Podano poziomy różnych składników w funkcji innych składników.	167	Tekst	Regresja	1993	K. Ullrich
Zbiór danych UJIIndoorLoc-Mag	Baza danych lokalizacji wewnętrznych do testowania systemów lokalizacji wewnętrznej. Dane są oparte na polu magnetycznym.	Podano podziały treningowe i testowe.	40 000	Tekst	Klasyfikacja, regresja, grupowanie	2015	D. Rambla i in.
Zestaw danych diagnostyki napędu bezczujnikowego	Sygnały elektryczne z silników z uszkodzonymi komponentami.	Wyodrębnione cechy statystyczne.	58,508	Tekst	Klasyfikacja	2015	M. Bator

Śledzenie ruchu

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Komputery do noszenia: klasyfikacja postaw i ruchów ciała (PUC-Rio)	Osoby wykonujące pięć standardowych czynności podczas noszenia trackerów ruchu.	Nic.	165,632	Tekst	Klasyfikacja	2013	Papieski Uniwersytet Katolicki w Rio de Janeiro
Zestaw danych segmentacji fazy gestów	Funkcje wyodrębnione z filmu przedstawiającego ludzi wykonujących różne gesty.	Wyodrębnione funkcje mają na celu zbadanie segmentacji faz gestów.	9900	Tekst	Klasyfikacja, grupowanie	2014	R. Madeo i in
Zbiór danych dotyczących działań fizycznych Vicon	10 normalnych i 10 agresywnych działań fizycznych, które mierzą aktywność człowieka śledzoną przez tracker 3D.	Wiele parametrów rejestrowanych przez tracker 3D.	3000	Tekst	Klasyfikacja	2011	T. Theodoridis
Zbiór danych dotyczących codziennych i sportowych aktywności	Dane z czujników motorycznych dla 19 codziennych i sportowych aktywności.	Podano wiele czujników, bez wstępnego przetwarzania sygnałów.	9120	Tekst	Klasyfikacja	2013	B. Barshan i in.
Rozpoznawanie aktywności człowieka przy użyciu zestawu danych smartfonów	Dane z żyroskopu i akcelerometru pochodzące od osób noszących smartfony i wykonujących normalne czynności.	Wykonywane akcje są oznaczone, a wszystkie sygnały są wstępnie przetworzone pod kątem szumu.	10,299	Tekst	Klasyfikacja	2012	J. Reyes-Ortiz i in.
Australijskie znaki języka migowego	Znaki australijskiego języka migowego uchwycone przez rękawice do śledzenia ruchu.	Nic.	2565	Tekst	Klasyfikacja	2002	M. Kadous
Ćwiczenia podnoszenia ciężarów monitorowane za pomocą bezwładnościowych jednostek pomiarowych	Pięć wariantów ćwiczenia uginania bicepsa monitorowanych za pomocą IMU.	Niektóre statystyki obliczone na podstawie surowych danych.	39 242	Tekst	Klasyfikacja	2013	W. Ugulino i in.
sEMG dla podstawowych ruchów dłoni Zestaw danych	Dwie bazy danych powierzchniowych sygnałów elektromiograficznych 6 ruchów ręki.	Nic.	3000	Tekst	Klasyfikacja	2014	C. Sapsanis i in.
Zbiór danych rozpoznawania aktywności REALDISP	Ocena technik zajmujących się skutkami przemieszczenia czujnika w rozpoznawaniu aktywności noszonych na ciele.	Nic.	1419	Tekst	Klasyfikacja	2014	O. Banos i in.
Zbiór danych rozpoznawania aktywności heterogeniczności	Dane z wielu różnych inteligentnych urządzeń dla ludzi wykonujących różne czynności.	Nic.	43 930 257	Tekst	Klasyfikacja, grupowanie	2015	A. Stisen i in.
Przewidywanie ruchu użytkownika w pomieszczeniach na podstawie danych RSS	Tymczasowe dane sieci bezprzewodowej, które można wykorzystać do śledzenia ruchu osób w biurze.	Nic.	13.197	Tekst	Klasyfikacja	2016	D. Bacciu
Zbiór danych monitorowania aktywności fizycznej PAMAP2	18 różnych rodzajów aktywności fizycznej wykonywanych przez 9 osób noszących 3 IMU.	Nic.	3 850 505	Tekst	Klasyfikacja	2012	A. Reissa
SZANSA Zbiór danych rozpoznawania aktywności	Rozpoznawanie aktywności człowieka z czujników do noszenia, obiektów i otoczenia to zestaw danych opracowany w celu porównania algorytmów rozpoznawania aktywności człowieka.	Nic.	2551	Tekst	Klasyfikacja	2012	D. Roggen i in.
Zestaw danych rozpoznawania aktywności w świecie rzeczywistym	Rozpoznawanie aktywności człowieka z urządzeń do noszenia. Rozróżnia siedem pozycji urządzenia na ciele i obejmuje sześć różnych rodzajów czujników.	Nic.	3 150 000 (na czujnik)	Tekst	Klasyfikacja	2016	T. Sztyler i in.
Zestaw danych dotyczących pozycji po udarze w Toronto Rehab	Estymacja 3D ludzkiej pozy (Kinect) pacjentów po udarze i zdrowych uczestników wykonujących zestaw zadań za pomocą robota rehabilitacyjnego po udarze.	Nic.	10 osób zdrowych i 9 osób po udarze (3500–6000 klatek na osobę)	CSV	Klasyfikacja	2017	E. Dolatabadi i in.
Corpus of Social Touch (CoST)	7805 gestów rejestruje 14 różnych społecznych gestów dotykowych wykonywanych przez 31 osób. Gesty wykonywano w trzech wariantach: łagodnym, normalnym i szorstkim, na siatce czujnika nacisku owiniętej wokół ramienia manekina.	Wykonywane gesty dotykowe są podzielone na segmenty i oznaczone.	7805 przechwytywania gestów	CSV	Klasyfikacja	2016	M. Jung i in.

Inne sygnały

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Referencja	Twórca
Zestaw danych wina	Analiza chemiczna win uprawianych w tym samym regionie we Włoszech, ale pochodzących z trzech różnych odmian.	Podano 13 właściwości każdego wina	178	Tekst	Klasyfikacja, regresja	1991		M. Forina i in.
Zestaw danych elektrowni o cyklu kombinowanym	Dane z różnych czujników w elektrowni działającej od 6 lat.	Nic	9568	Tekst	Regresja	2014		P. Tufekci i in.

Dane fizyczne

Zbiory danych z systemów fizycznych.

Fizyka wysokich energii

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Referencja	Twórca
Zbiór danych HIGGS	Symulacje Monte Carlo zderzeń akceleratorów cząstek.	Podano 28 cech każdej kolizji.	11M	Tekst	Klasyfikacja	2014		D. Whiteson
Zbiór danych HEPMASS	Symulacje Monte Carlo zderzeń akceleratorów cząstek. Celem jest oddzielenie sygnału od szumu.	Podano 28 cech każdej kolizji.	10 500 000	Tekst	Klasyfikacja	2016		D. Whiteson

Systemy

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zbiór danych hydrodynamiki jachtu	Osiągi jachtu na podstawie wymiarów.	Dla każdego jachtu podano sześć cech.	308	Tekst	Regresja	2013	R. Lopez
Zbiór danych o błędach wykonania robota	5 zestawów danych, które skupiają się na niepowodzeniu robotów w wykonywaniu typowych zadań.	Funkcje o wartościach całkowitych, takie jak moment obrotowy i inne pomiary czujników.	463	Tekst	Klasyfikacja	1999	L. Seabra i in.
Zbiór danych mostów Pittsburgh	Opis projektu podano w odniesieniu do kilku właściwości różnych mostów.	Podano różne cechy mostu.	108	Tekst	Klasyfikacja	1990	Y. Reich i in.
Zestaw danych samochodowych	Dane o samochodach, ich ryzyku ubezpieczeniowym i ich znormalizowanych stratach.	Wyodrębnione cechy samochodu.	205	Tekst	Regresja	1987	J. Schimmer i in.
Zestaw danych Auto MPG	Dane MPG dla samochodów.	Podano osiem cech każdego samochodu.	398	Tekst	Regresja	1993	Carnegie Mellon University
Zestaw danych dotyczących efektywności energetycznej	Zapotrzebowanie na ogrzewanie i chłodzenie podane w funkcji parametrów budynku.	Podane parametry budynku.	768	Tekst	Klasyfikacja, regresja	2012	A. Xifara i in.
Zestaw danych o hałasie własnym płata	Seria badań aerodynamicznych i akustycznych dwu- i trójwymiarowych przekrojów płata.	Podano dane o częstotliwości, kącie natarcia itp.	1503	Tekst	Regresja	2014	R. Lopez
Zestaw danych o pierścieniu uszczelniającym Challenger USA promu kosmicznego	Próba przewidzenia problemów z pierścieniami uszczelniającymi na podstawie wcześniejszych danych firmy Challenger.	Podano kilka cech każdego lotu, takich jak temperatura startu.	23	Tekst	Regresja	1993	D. Draper i in.
Zbiór danych Statlog (wahadłowy)	Zbiory danych promu kosmicznego NASA.	Podano dziewięć funkcji.	58 000	Tekst	Klasyfikacja	2002	NASA

Astronomia

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Wulkany na Wenus – eksperyment JARtool Dataset	Obrazy Wenus zwrócone przez sondę Magellan.	Obrazy są znakowane przez ludzi.	Nie podarowany	Obrazy	Klasyfikacja	1991	M. Burl
Zestaw danych teleskopu MAGIC Gamma	Monte Carlo wygenerowało zdarzenia wysokoenergetycznych cząstek gamma.	Liczne cechy wyodrębnione z symulacji.	19.020	Tekst	Klasyfikacja	2007	R. Bock
Zestaw danych dotyczących rozbłysków słonecznych	Pomiary liczby określonych rodzajów rozbłysków słonecznych występujących w okresie doby.	Podano wiele cech charakterystycznych dla rozbłysku słonecznego.	1389	Tekst	Regresja, klasyfikacja	1989	G. Bradshaw

Nauka o Ziemi

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Wulkany Świata	Dane o erupcjach wulkanów dla wszystkich znanych zdarzeń wulkanicznych na Ziemi.	Podano szczegóły, takie jak region, podregion, otoczenie tektoniczne, dominujący typ skały.	1535	Tekst	Regresja, klasyfikacja	2013	E. Venzke i in.
Zestaw danych o wstrząsach sejsmicznych	Aktywności sejsmiczne z kopalni węgla.	Aktywność sejsmiczna została sklasyfikowana jako niebezpieczna lub nie.	2584	Tekst	Klasyfikacja	2013	M. Sikora i in.
Wielbłądy -USA	Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami	patrz Odniesienie	671	CSV, tekst, plik kształtu	Regresja	2017	N. Addor i in. / A. Newman i in.
Wielbłądy-Chile	Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami	patrz Odniesienie	516	CSV, tekst, plik kształtu	Regresja	2018	C. Alvarez-Garreton i in.
Wielbłądy-Brazylia	Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami	patrz Odniesienie	897	CSV, tekst, plik kształtu	Regresja	2020	V. Chagas i in.
Wielbłądy-GB	Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami	patrz Odniesienie	671	CSV, tekst, plik kształtu	Regresja	2020	G. Coxon i in.
Wielbłądy-Australia	Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami	patrz Odniesienie	222	CSV, tekst, plik kształtu	Regresja	2021	K. Fowler i in.
LamaH -CE	Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami	patrz Odniesienie	859	CSV, tekst, plik kształtu	Regresja	2021	C. Klingler i in.

Inne fizyczne

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zestaw danych dotyczących wytrzymałości betonu na ściskanie	Zestaw danych właściwości betonu i wytrzymałości na ściskanie.	Dla każdej próbki podano dziewięć cech.	1030	Tekst	Regresja	2007	I. Yeh
Zbiór danych z testu opadu betonu	Opad opadowy betonu podany w kategoriach właściwości.	Podane cechy betonu takie jak popiół lotny, woda itp.	103	Tekst	Regresja	2009	I. Yeh
Zbiór danych piżma	Wytypuj, czy cząsteczka o określonych cechach będzie piżmem, czy nie piżmem.	Dla każdej cząsteczki podano 168 cech.	6598	Tekst	Klasyfikacja	1994	Arris Pharmaceutical Corp.
Zestaw danych dotyczących usterek płyt stalowych	Płyty stalowe 7 różnych typów.	Dla każdej próbki podano 27 cech.	1941	Tekst	Klasyfikacja	2010	Centrum Badań Semeion

Dane biologiczne

Zbiory danych z systemów biologicznych.

Człowiek

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Baza danych EEG	Badanie mające na celu zbadanie korelatów EEG predyspozycji genetycznych do alkoholizmu.	Pomiary z 64 elektrod umieszczonych na skórze głowy próbkowano z częstotliwością 256 Hz (epoka 3,9 ms) przez 1 sekundę.	122	Tekst	Klasyfikacja	1999	H. Begleiter
Zestaw danych interfejsu P300	Dane od dziewięciu osób zebrane przy użyciu interfejsu mózg-komputer opartego na P300 dla osób niepełnosprawnych.	Podziel się na cztery sesje dla każdego tematu. Podano kod MATLAB .	1224	Tekst	Klasyfikacja	2008	U. Hoffman i in.
Zestaw danych dotyczących chorób serca	Przypisywane pacjentom z chorobami serca i bez.	75 atrybutów podanych dla każdego pacjenta z pewnymi brakującymi wartościami.	303	Tekst	Klasyfikacja	1988	A. Janosi i in.
Zbiór danych dotyczących raka piersi w stanie Wisconsin (diagnostyka)	Zbiór danych cech mas piersi. Podana jest diagnoza lekarza.	Podano 10 cech dla każdej próbki.	569	Tekst	Klasyfikacja	1995	W. Wolberg i in.
Krajowa ankieta na temat używania narkotyków i zdrowia	Badanie na dużą skalę dotyczące zdrowia i używania narkotyków w Stanach Zjednoczonych.	Nic.	55 268	Tekst	Klasyfikacja, regresja	2012	Departament Zdrowia i Opieki Społecznej Stanów Zjednoczonych
Zbiór danych dotyczących raka płuc	Zbiór danych raka płuc bez definicji atrybutów	Dla każdego przypadku podano 56 funkcji	32	Tekst	Klasyfikacja	1992	Z. Hong i in.
Zestaw danych arytmii	Dane dla grupy pacjentów, z których niektórzy mają arytmię serca.	276 funkcji dla każdej instancji.	452	Tekst	Klasyfikacja	1998	H. Altay i in.
Cukrzyca 130 szpitali w USA za lata 1999-2008 Zbiór danych	Dane o readmisji z 9 lat w 130 szpitalach w USA dla pacjentów z cukrzycą.	Podano wiele cech każdego readmisji.	100 000	Tekst	Klasyfikacja, grupowanie	2014	J. Clore i in.
Zbiór danych dotyczących retinopatii cukrzycowej w Debreczynie	Cechy wyodrębnione z obrazów oczu z retinopatią cukrzycową i bez niej.	Wyodrębnione cechy i zdiagnozowane stany.	1151	Tekst	Klasyfikacja	2014	B. Antal i in.
Retinopatia cukrzycowa Zbiór danych Messidora	Metody oceny technik segmentacji i indeksowania w zakresie okulistyki siatkówkowej (MESSIDOR)	Charakteryzuje się stopniem retinopatii i ryzykiem obrzęku plamki	1200	Obrazy, tekst	Klasyfikacja, segmentacja	2008	Projekt Messidor
Zbiór danych dotyczących zaburzeń wątroby	Dane dla osób z chorobami wątroby.	Dla każdego pacjenta podano siedem cech biologicznych.	345	Tekst	Klasyfikacja	1990	Bupa Medical Research Sp.
Zbiór danych dotyczących chorób tarczycy	10 baz danych pacjentów z chorobami tarczycy.	Nic.	7200	Tekst	Klasyfikacja	1987	R. Quinlan
Zbiór danych międzybłoniaka	Dane pacjenta Mesothelioma.	Podano dużą liczbę cech, w tym ekspozycję na azbest.	324	Tekst	Klasyfikacja	2016	A. Tanrikulu i in.
Oparty na wizji zbiór danych szacowania pozycji Parkinsona	Szacunki 2D ludzkiej pozy pacjentów z chorobą Parkinsona wykonujących różne zadania.	Z trajektorii usunięto drgania kamery.	134	Tekst	Klasyfikacja, regresja	2017	M. Li i in.
Zbiór danych sieci reakcji metabolicznych KEGG (nieskierowany)	Sieć szlaków metabolicznych. Podano sieć reakcji i sieć relacji .	Podano szczegółowe funkcje dla każdego węzła sieci i ścieżki.	65 554	Tekst	Klasyfikacja, grupowanie, regresja	2011	M. Naeem i in.
Zmodyfikowany zestaw danych analizy morfologii ludzkiego nasienia (MHSMA)	Obrazy ludzkich plemników od 235 pacjentów z niepłodnością czynnika męskiego, oznaczonych jako prawidłowy lub nieprawidłowy akrosom plemnika, głowa, wakuola i ogon.	Przycięte wokół pojedynczej główki plemnika. Znormalizowane powiększenie. Utworzono podziały zestawów testowych, walidacyjnych i szkoleniowych.	1540	pliki .npy	Klasyfikacja	2019	S. Javadi i SA Mirroshandel

Zwierzę

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zbiór danych Abalone	Fizyczne pomiary Abalone. Podane są również wzorce pogodowe i lokalizacja.	Nic.	4177	Tekst	Regresja	1995	Morskie Laboratoria Badawcze – Taroona
Zbiór danych zoo	Sztuczny zbiór danych obejmujący 7 klas zwierząt.	Zwierzęta są podzielone na 7 kategorii i dla każdej podane są cechy.	101	Tekst	Klasyfikacja	1990	R. Forsyth
Zbiór danych Demospongiae	Dane dotyczące gąbek morskich.	503 gąbki w klasie Demosponge są opisane różnymi cechami.	503	Tekst	Klasyfikacja	2010	E. Armengol i in.
Zbiór danych sekwencji genów w połączeniu splicingowym	Sekwencje genów splicingu naczelnych (DNA) z powiązaną teorią niedoskonałych domen.	Nic.	3190	Tekst	Klasyfikacja	1992	G. Towell i in.
Zestaw danych dotyczących ekspresji białek myszy	Poziomy ekspresji 77 białek mierzone w korze mózgowej myszy.	Nic.	1080	Tekst	Klasyfikacja, klastrowanie	2015	C. Higuera i in.

Grzyby

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Referencja	Twórca
Zbiór danych grzybów UCI	Atrybuty i klasyfikacja grzybów.	Podano wiele właściwości każdego grzyba.	8124	Tekst	Klasyfikacja	1987		J. Schlimmer
Wtórny zbiór danych grzybów	Atrybuty i klasyfikacja grzybów	Symulowane dane z większych i bardziej realistycznych wpisów grzybów pierwotnych. W pełni powtarzalne.	61069	Tekst	Klasyfikacja	2020		D. Wagner i in.

Zakład

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zbiór danych o pożarach lasów	Pożary lasów i ich właściwości.	Wyodrębniono 13 cech każdego pożaru.	517	Tekst	Regresja	2008	P. Cortez i in.
Zbiór danych tęczówki	Trzy rodzaje irysów są opisane przez 4 różne atrybuty.	Nic.	150	Tekst	Klasyfikacja	1936	R. Fisher
Zbiór danych o gatunkach roślin	Szesnaście próbek liścia ze stu gatunków roślin.	Podawany jest deskryptor kształtu, margines o małej skali i histogramy tekstury.	1600	Tekst	Klasyfikacja	2012	J. Cope i in.
Zbiór danych soi	Baza danych chorych roślin soi.	Podano 35 cech dla każdej rośliny. Rośliny są podzielone na 19 kategorii.	307	Tekst	Klasyfikacja	1988	R. Michalski i in.
Zbiór danych nasion	Pomiary właściwości geometrycznych ziarniaków trzech różnych odmian pszenicy.	Nic.	210	Tekst	Klasyfikacja, grupowanie	2012	Charytanowicz i in.
Zbiór danych typu okładki	Dane do prognozowania typu lesistości ściśle ze zmiennych kartograficznych.	Podano wiele cech geograficznych.	581.012	Tekst	Klasyfikacja	1998	J. Blackard i in.
Zestaw danych sieci sygnalizacyjnej kwasu abscysynowego	Dane dla zakładowej sieci sygnalizacyjnej. Celem jest określenie zestawu reguł rządzących siecią.	Nic.	300	Tekst	Odkrycie przyczynowe	2008	J. Jenkens i in.
Zestaw danych folio	20 zdjęć liści dla każdego z 32 gatunków.	Nic.	637	Obrazy, tekst	Klasyfikacja, grupowanie	2015	T. Munisami i in.
Oksfordzki zbiór danych kwiatowych	Zestaw danych 17 kategorii kwiatów.	Podziały trenowania/testowania, obrazy z etykietami,	1360	Obrazy, tekst	Klasyfikacja	2006	ME Nilsback i in.
Zestaw danych sadzonek roślin	Zestaw danych 12 kategorii sadzonek roślin.	Obrazy z etykietami, obrazy podzielone na segmenty,	5544	Obrazy	Klasyfikacja, wykrywanie	2017	Giselsson i in.
Zbiór danych Owoce 360	Baza danych ze zdjęciami 120 owoców i warzyw.	100x100 pikseli, białe tło.	82213	Obrazy (jpg)	Klasyfikacja	2017–2019	Mihai Oltean, Horea Muresan

Mikrob

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zbiór danych Ecoli	Miejsca lokalizacji białek.	Podano różne cechy miejsc lokalizacji białek.	336	Tekst	Klasyfikacja	1996	K. Nakai i in.
Zbiór danych MicroMass	Identyfikacja mikroorganizmów na podstawie danych spektrometrii masowej.	Różne funkcje spektrometru mas.	931	Tekst	Klasyfikacja	2013	P. Mahe i in.
Zbiór danych drożdży	Przewidywanie miejsc lokalizacji komórkowej białek.	Osiem funkcji podanych na instancję.	1484	Tekst	Klasyfikacja	1996	K. Nakai i in.

Odkrycie narkotyków

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Referencja	Twórca
Zbiór danych Tox21	Przewidywanie wyników testów biologicznych.	Podano deskryptory chemiczne cząsteczek.	12707	Tekst	Klasyfikacja	2016		A. Mayr i in.

Dane anomalii

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Test porównawczy anomalii Numenta (NAB)	Dane są uporządkowane, oznaczone sygnaturą czasową, jednowartościowe. Wszystkie pliki danych zawierają anomalie, chyba że zaznaczono inaczej.	Nic	50+ plików	Wartości oddzielone przecinkami	Wykrywanie anomalii	2016 (stale aktualizowane)	Numenta
Wskaźnik anomalii Skoltech (SKAB)	Każdy plik reprezentuje pojedynczy eksperyment i zawiera pojedynczą anomalię. Zestaw danych reprezentuje wielowymiarowe szeregi czasowe zebrane z czujników zainstalowanych na stanowisku testowym.	Istnieją dwa znaczniki problemów z wykrywaniem wartości odstających (anomalie punktowe) i wykrywaniem punktu zmiany (anomalie zbiorcze).	30+ plików (v0.9)	Wartości oddzielone przecinkami	Wykrywanie anomalii	2020 (stale aktualizowane)	Iurii D. Katser i Wiaczesław O. Kozitsin
O ocenie nienadzorowanego wykrywania wartości odstających: miary, zbiory danych i badanie empiryczne	Większość plików danych jest adaptowana z danych z repozytorium uczenia maszynowego UCI, niektóre są zbierane z literatury.	traktowane pod kątem braków danych, tylko atrybuty liczbowe, różne procenty anomalii, etykiety	1000+ plików	ARFF	Wykrywanie anomalii	2016 (ewentualnie zaktualizowany o nowe zbiory danych i/lub wyniki)	Campos i in.

Dane dotyczące odpowiedzi na pytania

Ta sekcja zawiera zbiory danych, które dotyczą danych strukturalnych.

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zbiór danych DBpedia Neural Question Answering (DBNQA)	Duży zbiór pytań do SPARQL specjalnie zaprojektowanych do odpowiedzi na pytania w trybie Open Domain Neural w bazie wiedzy DBpedia.	Ten zestaw danych zawiera duży zbiór szablonów Open Neural SPARQL i instancji do uczenia maszyn Neural SPARQL; został wstępnie przetworzony przez półautomatyczne narzędzia do adnotacji, a także przez trzech ekspertów SPARQL.	894 499	Pary pytanie-zapytanie	Odpowiedzi na pytania	2018	Hartmann, Soru i Marx i in.
Zestaw danych dotyczących odpowiedzi na pytania wietnamskie (UIT-ViQuAD)	Duży zbiór pytań wietnamskich do oceny modeli MRC.	Ten zbiór danych zawiera ponad 23 000 par pytania-odpowiedź wygenerowanych przez człowieka na podstawie 5109 fragmentów 174 wietnamskich artykułów z Wikipedii.	23 074	Pary pytanie-odpowiedź	Odpowiedzi na pytania	2020	Nguyen i in.
Wietnamski korpus do czytania ze zrozumieniem wielokrotnego wyboru (ViMMRC)	Zbiór wietnamskich pytań wielokrotnego wyboru do oceny modeli MRC.	Ten zbiór zawiera 2783 wietnamskich pytań wielokrotnego wyboru.	2783	Pary pytanie-odpowiedź	Odpowiadanie na pytania / czytanie maszynowe ze zrozumieniem	2020	Nguyen i in.

Dane wielowymiarowe

Zbiory danych składające się z wierszy obserwacji i kolumn atrybutów charakteryzujących te obserwacje. Zwykle używane do analizy lub klasyfikacji regresji, ale można również stosować inne rodzaje algorytmów. Ta sekcja zawiera zbiory danych, które nie pasują do powyższych kategorii.

Budżetowy

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Indeks Dow Jones	Tygodniowe dane stanów z I i II kwartału 2011 roku.	Obliczone wartości obejmowały takie jak zmiana procentowa i opóźnienia.	750	Wartości oddzielone przecinkami	Klasyfikacja, regresja, szeregi czasowe	2014	M. Brown i in.
Statlog (australijska aprobata kredytowa)	Wnioski o karty kredytowe zaakceptowane lub odrzucone oraz atrybuty dotyczące wniosku.	Nazwy atrybutów są usuwane, podobnie jak informacje identyfikujące. Czynniki zostały przemianowane.	690	Wartości oddzielone przecinkami	Klasyfikacja	1987	R. Quinlan
Dane aukcji eBay	Dane aukcji z różnych obiektów eBay.com na aukcjach o różnej długości	Zawiera wszystkie oferty, identyfikator oferenta, czasy składania ofert i ceny otwarcia.	~ 550	Tekst	Regresja, klasyfikacja	2012	G. Shmueli i in.
Statlog (dane kredytowe w Niemczech)	Klasyfikacja kredytów binarnych na „dobry” lub „zły” z wieloma cechami	Podano różne cechy finansowe każdej osoby.	690	Tekst	Klasyfikacja	1994	H. Hofmanna
Bankowy zbiór danych marketingowych	Dane z dużej kampanii marketingowej przeprowadzonej przez duży bank.	Podano wiele atrybutów kontaktowanych klientów. Jeśli klient zapisał się do banku jest również podany.	45,211	Tekst	Klasyfikacja	2012	S. Moro i in.
Zbiór danych giełdy w Stambule	Kilka indeksów giełdowych śledzonych przez prawie dwa lata.	Nic.	536	Tekst	Klasyfikacja, regresja	2013	O. Akbilgic
Niewypłacalność klientów kart kredytowych	Dane dotyczące niewypłacalności wierzycieli tajwańskich.	Podane są różne funkcje dotyczące każdego konta.	30 000	Tekst	Klasyfikacja	2016	I. Yeh

Pogoda

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zestaw danych w chmurze	Dane o 1024 różnych chmurach.	Wyodrębnione cechy obrazu.	1024	Tekst	Klasyfikacja, grupowanie	1989	P. Collard
Zbiór danych El Nino	Oceanograficzne i powierzchniowe odczyty meteorologiczne z szeregu boj rozmieszczonych na całym równikowym Pacyfiku.	Przy każdej bojce mierzonych jest 12 atrybutów pogodowych.	178080	Tekst	Regresja	1999	Laboratorium Środowiska Morskiego Pacyfiku
Zbiór danych sieci obserwacji gazów cieplarnianych	Szeregi czasowe stężeń gazów cieplarnianych w 2921 komórkach siatki w Kalifornii utworzone przy użyciu symulacji pogody.	Nic.	2921	Tekst	Regresja	2015	D. Lucas
Atmosferyczny CO2 z ciągłych próbek powietrza w Obserwatorium Mauna Loa	Ciągłe próbki powietrza na Hawajach, USA. 44 lata rekordów.	Nic.	44 lata	Tekst	Regresja	2001	Obserwatorium Mauna Loa
Zbiór danych jonosfery	Dane radarowe z jonosfery. Zadanie polega na podzieleniu na dobre i złe zwroty radarowe.	Podano wiele funkcji radaru.	351	Tekst	Klasyfikacja	1989	Uniwersytet Johna Hopkinsa
Zestaw danych wykrywania poziomu ozonu	Dwa zestawy danych na temat poziomu ozonu naziemnego.	Podano wiele funkcji, w tym warunki pogodowe w czasie pomiaru.	2536	Tekst	Klasyfikacja	2008	K. Zhang i in.

Spis ludności

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zbiór danych dla dorosłych	Dane spisowe z 1994 r. zawierające cechy demograficzne dorosłych i ich dochody.	Oczyszczone i zanonimizowane.	48 842	Wartości oddzielone przecinkami	Klasyfikacja	1996	Biuro Spisu Ludności Stanów Zjednoczonych
Dochód ze spisu ludności (KDD)	Ważone dane ze spisu powszechnego z Aktualnych Badań Populacyjnych z 1994 i 1995 roku .	Podziel na zestawy treningowe i testowe.	299 285	Wartości oddzielone przecinkami	Klasyfikacja	2000	Biuro Spisu Ludności Stanów Zjednoczonych
Baza danych spisu ludności IPUMS	Dane ze spisu ludności z obszarów Los Angeles i Long Beach.	Nic	256 932	Tekst	Klasyfikacja, regresja	1999	IPUMY
Dane ze spisu powszechnego USA 1990	Częściowe dane ze spisu powszechnego USA z 1990 roku.	Wyniki randomizowane i wybrane przydatne atrybuty.	2 458 285	Tekst	Klasyfikacja, regresja	1990	Biuro Spisu Ludności Stanów Zjednoczonych

Tranzyt

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Rowerowy zestaw danych do udostępniania	Godzinowa i dzienna liczba wypożyczonych rowerów w dużym mieście.	Podano wiele funkcji, w tym pogodę, długość podróży itp.	17.389	Tekst	Regresja	2013	H. Fanaee-T
Dane podróży taksówką w Nowym Jorku	Dane podróży dla żółtych i zielonych taksówek w Nowym Jorku.	Podaje miejsca odbioru i dowozu, taryfy i inne szczegóły podróży.	6 lat	Tekst	Klasyfikacja, grupowanie	2015	Komisja ds. taksówek i limuzyn w Nowym Jorku
Trajektoria usług taksówkowych ECML PKDD	Trajektorie wszystkich taksówek w dużym mieście.	Podano wiele funkcji, w tym punkty początkowe i końcowe.	1 710 671	Tekst	Grupowanie, odkrywanie przyczyn	2015	M. Ferreira i in.
METR-LA	Prędkość z detektorów pętli na autostradzie hrabstwa Los Angeles.	Średnia prędkość w krokach 5 minutowych.	7 094 304 z 207 czujników i 34 272 kroki czasowe	Wartości oddzielone przecinkami	Regresja, Prognozowanie	2014	Jagadish i in.
PeMS	Prędkość, przepływ, obłożenie i inne wskaźniki z detektorów pętli i innych czujników na autostradzie stanu Kalifornia w USA.	Metryka zwykle agregowana za pomocą średniej w 5-minutowych przedziałach czasowych.	39 000 pojedynczych detektorów, z których każdy zawiera lata szeregów czasowych	Wartości oddzielone przecinkami	Regresja, Prognozowanie, Nowcasting, Interpolacja	(aktualizacja w czasie rzeczywistym)	Kalifornijski Departament Transportu

Internet

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Strony internetowe z Common Crawl 2012	Duży zbiór stron internetowych i sposób ich łączenia za pomocą hiperłączy	Nic.	3.5B	Tekst	grupowanie, klasyfikacja	2013	V. Granville
Zbiór danych o reklamach internetowych	Zestaw danych do przewidywania, czy dany obraz jest reklamą, czy nie.	Funkcje kodują geometrię reklam i fraz występujących w adresie URL.	3279	Tekst	Klasyfikacja	1998	N. Kushmerick
Zbiór danych dotyczących korzystania z Internetu	Ogólna demografia internautów.	Nic.	10,104	Tekst	Klasyfikacja, grupowanie	1999	D. Kucharz
Zbiór danych URL	120 dni danych URL z dużej konferencji.	Podano wiele funkcji każdego adresu URL.	2 396 130	Tekst	Klasyfikacja	2009	J. Ma
Zbiór danych witryn phishingowych	Zbiór danych stron phishingowych.	Podano wiele funkcji każdej witryny.	2456	Tekst	Klasyfikacja	2015	R. Mustafa i in.
Internetowy zestaw danych detalicznych	Transakcje online dla brytyjskiego sprzedawcy internetowego.	Podano szczegóły każdej transakcji.	541 909	Tekst	Klasyfikacja, grupowanie	2015	D. Chen
Prosty zrzut tematu Freebase	Freebase to wysiłek online mający na celu uporządkowanie całej ludzkiej wiedzy.	Tematy z Freebase zostały wyodrębnione.	duży	Tekst	Klasyfikacja, grupowanie	2011	Wolna baza
Zbiór danych reklam rolniczych	Tekst reklam rolniczych ze stron internetowych. Podano zatwierdzenie lub odrzucenie plików binarnych przez właścicieli treści.	Obliczono rzadkie wektory słów tekstowych w reklamach SVMlight.	4143	Tekst	Klasyfikacja	2011	C. Masterharm i in.

Gry

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zestaw danych rozdań pokerowych	5 kart ze standardowej talii 52 kart.	Podane są atrybuty każdego rozdania, łącznie z rozdaniami pokera utworzonymi przez zawarte w nim karty.	1,025,010	Tekst	Regresja, klasyfikacja	2007	R. Cattral
Zestaw danych Connect-4	Zawiera wszystkie legalne 8-warstwowe pozycje w grze connect-4, w których żaden z graczy jeszcze nie wygrał i w których następny ruch nie jest wymuszony.	Nic.	67 557	Tekst	Klasyfikacja	1995	J. Tromp
Szachy (Król-wieża kontra król) Zbiór danych	Końcowa baza danych dla Białego Króla i Wieży przeciwko Czarnemu Królowi.	Nic.	28 056	Tekst	Klasyfikacja	1994	M. Bain i in.
Szachy (wieża królewska kontra pionek królewski)	Król+wieża kontra król+pionek na a7.	Nic.	3196	Tekst	Klasyfikacja	1989	R. Holte
Zestaw danych gry końcowej w kółko i krzyżyk	Klasyfikacja binarna warunków zwycięstwa w grze kółko i krzyżyk.	Nic.	958	Tekst	Klasyfikacja	1991	D. Aha

Inne wielowymiarowe

Nazwa zbioru danych	Krótki opis	Przetwarzanie wstępne	Instancje	Format	Zadanie domyślne	Utworzono (zaktualizowano)	Twórca
Zestaw danych mieszkaniowych	Mediana wartości domu w Bostonie z powiązanymi atrybutami domu i okolicy.	Nic.	506	Tekst	Regresja	1993	D. Harrison i in.
Słowniki Getty	ustrukturyzowana terminologia dotycząca sztuki i innej kultury materialnej, materiałów archiwalnych, wizualnych surogatów i materiałów bibliograficznych.	Nic.	duży	Tekst	Klasyfikacja	2015	Centrum Getty
Wieśniak! Strona główna Dzisiaj Moduł Użytkownik Kliknij Dziennik	Dziennik kliknięć użytkownika dla artykułów z wiadomościami wyświetlanymi na karcie Polecane modułu Dzisiaj w Yahoo! Pierwsza strona.	Analiza połączona z modelem dwuliniowym.	45 811 883 odwiedzin użytkowników	Tekst	Regresja, grupowanie	2009	Chu i in.
Brytyjskie Centrum Danych Oceanograficznych	Dane biologiczne, chemiczne, fizyczne i geofizyczne oceanów. Śledzone zmienne 22K.	Różny.	22K zmiennych, wiele instancji	Tekst	Regresja, grupowanie	2015	Brytyjskie Centrum Danych Oceanograficznych
Zbiór danych dotyczących rekordów głosowania w Kongresie	Dane do głosowania dla wszystkich przedstawicieli USA w 16 kwestiach.	Oprócz surowych danych głosowania dostępne są różne inne funkcje.	435	Tekst	Klasyfikacja	1987	J. Schlimmer
Zestaw danych rekomendacji Entree Chicago	Rejestr interakcji użytkowników z systemem rekomendacji Entree Chicago.	Szczegóły dotyczące korzystania z aplikacji przez każdego użytkownika są szczegółowo rejestrowane.	50 672	Tekst	Regresja, rekomendacja	2000	R. Burke
Benchmark Towarzystwa Ubezpieczeniowego (COIL 2000)	Informacje o klientach firmy ubezpieczeniowej.	Wiele cech każdego klienta i usług, z których korzysta.	9000	Tekst	Regresja, klasyfikacja	2000	P. van der Putten
Zbiór danych żłobka	Dane od wnioskodawców do przedszkoli.	Uwzględniono dane dotyczące rodziny wnioskodawcy i różnych innych czynników.	12,960	Tekst	Klasyfikacja	1997	V. Rajkovic i in.
Zbiór danych uniwersyteckich	Dane opisujące przypisaną dużą liczbę uczelni.	Nic.	285	Tekst	Klastrowanie, klasyfikacja	1988	S. Sounders i in.
Zbiór danych centrum usług transfuzji krwi	Dane z centrum usług transfuzji krwi. Podaje dane dotyczące stopy zwrotu dawców, częstotliwości itp.	Nic.	748	Tekst	Klasyfikacja	2008	I. Yeh
Rejestruj wzorce porównywania powiązań zestaw danych	Duży zbiór rekordów. Zadaniem jest powiązanie ze sobą odpowiednich rekordów.	Procedura blokowania stosowana w celu wybrania tylko określonych par rekordów.	5 749 132	Tekst	Klasyfikacja	2011	Uniwersytet w Moguncji
Zbiór danych Nomao	Nomao zbiera dane o miejscach z wielu różnych źródeł. Zadaniem jest wykrycie przedmiotów, które opisują to samo miejsce.	Oznakowane duplikaty.	34 465	Tekst	Klasyfikacja	2012	Laboratoria Nomao
Zbiór danych filmu	Dane dla 10 000 filmów.	Podano kilka funkcji dla każdego filmu.	10 000	Tekst	Klastrowanie, klasyfikacja	1999	G. Wiederhold
Zbiór danych analitycznych Open University Learning	Informacje o uczniach i ich interakcjach z wirtualnym środowiskiem nauki.	Nic.	~ 30 000	Tekst	Klasyfikacja, grupowanie, regresja	2015	J. Kuzilek i in.
Rejestry telefonów komórkowych	Działalność telekomunikacyjna i interakcje	Agregacja według komórek siatki geograficznej i co 15 minut.	duży	Tekst	Klasyfikacja, klastrowanie, regresja	2015	G. Barlacchi i in.

Kuratorowane repozytoria zbiorów danych

Ponieważ zestawy danych są dostępne w niezliczonych formatach i czasami mogą być trudne w użyciu, włożono wiele pracy w opracowywanie i standaryzację formatu zestawów danych, aby ułatwić ich wykorzystanie w badaniach nad uczeniem maszynowym.

OpenML: platforma internetowa z Python, R, Java i innymi interfejsami API do pobierania setek zestawów danych uczenia maszynowego, oceny algorytmów w zestawach danych i porównywania wydajności algorytmów z dziesiątkami innych algorytmów.
PMLB: Duże, wyselekcjonowane repozytorium zestawów danych porównawczych do oceny nadzorowanych algorytmów uczenia maszynowego. Udostępnia zestawy danych klasyfikacji i regresji w standardowym formacie, który jest dostępny za pośrednictwem interfejsu API języka Python.
Metatext NLP: https://metatext.io/datasets repozytorium internetowe utrzymywane przez społeczność, zawierające prawie 1000 zestawów danych porównawczych i liczone. Zapewnia wiele zadań od klasyfikacji po QA i różne języki od angielskiego, portugalskiego po arabski.
Appen : Off The Shelf i Open Source Dataset hostowane i utrzymywane przez firmę. Te biologiczne, obrazowe, fizyczne, odpowiedzi na pytania, sygnały, dźwięk, tekst i wideo liczą ponad 250 i mogą być stosowane w ponad 25 różnych przypadkach użycia.

Languages

In other projects