Lista zbiorów danych do badań nad uczeniem maszynowym - List of datasets for machine-learning research

Te zbiory danych są stosowane do badań nad uczeniem maszynowym i były cytowane w recenzowanych czasopismach naukowych. Zbiory danych są integralną częścią dziedziny uczenia maszynowego. Główne postępy w tej dziedzinie mogą wynikać z postępów w algorytmach uczenia (takich jak uczenie głębokie ), sprzętu komputerowego oraz, mniej intuicyjnie, dostępności wysokiej jakości zestawów danych szkoleniowych. Wysokiej jakości oznakowane zestawy danych szkoleniowych dla nadzorowanych i częściowo nadzorowanych algorytmów uczenia maszynowego są zwykle trudne i drogie w produkcji ze względu na dużą ilość czasu potrzebnego na oznaczenie danych. Chociaż nie trzeba ich oznaczać, tworzenie wysokiej jakości zbiorów danych do uczenia się bez nadzoru może być trudne i kosztowne.

Dane obrazu

Zbiory danych składające się głównie z obrazów lub filmów do zadań takich jak wykrywanie obiektów , rozpoznawanie twarzy i klasyfikacja z wieloma etykietami .

Rozpoznawanie twarzy

W wizji komputerowej obrazy twarzy były szeroko wykorzystywane do opracowywania systemów rozpoznawania twarzy , wykrywania twarzy i wielu innych projektów wykorzystujących obrazy twarzy.

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Aff-Wild 298 filmów 200 osób, ~1 250 000 ręcznie opatrzonych adnotacjami obrazów: opatrzone adnotacjami pod względem afektu wymiarowego (pobudzenie walencyjne); na wolności; baza kolorów; różne rozdzielczości (średnia = 640x360) wykryte twarze, punkty orientacyjne twarzy i adnotacje walencyjno-pobudzeniowe ~1 250 000 obrazów ręcznie opatrzonych adnotacjami wideo (wizualne + audio modalności) wpływać na rozpoznawanie (oszacowanie walencyjno-pobudzeniowe) 2017 CVPR

IJCV

D. Kollias i in.
Aff-Wild2 558 filmów 458 osób, ~2 800 000 ręcznie adnotowanych obrazów: z adnotacjami i) kategorycznego afektu (7 podstawowych wyrażeń: neutralność, szczęście, smutek, zaskoczenie, strach, wstręt, złość); ii) afekt wymiarowy (pobudzenie walencyjne); iii) jednostki działania (AU 1,2,4,6,12,15,20,25); na wolności; baza kolorów; różne rozdzielczości (średnia = 1030x630) wykryte twarze, wykryte i wyrównane twarze i adnotacje ~2 800 000 obrazów z ręcznie dodanymi adnotacjami wideo (wizualne + audio modalności) rozpoznawanie wpływu (oszacowanie walencyjno-pobudzeniowe, podstawowa klasyfikacja ekspresji, wykrywanie jednostek działania) 2019 BMVC

FG

D. Kollias i in.
FERET (technologia rozpoznawania twarzy) 11338 zdjęć 1199 osób w różnych pozycjach iw różnym czasie. Nic. 11 338 Obrazy Klasyfikacja, rozpoznawanie twarzy 2003 Departament Obrony Stanów Zjednoczonych
Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) 7.356 nagrań wideo i audio 24 zawodowych aktorów. 8 emocji o dwóch intensywnościach. Pliki oznaczone wyrażeniem. Oceny walidacji percepcyjnej dostarczone przez 319 oceniających. 7356 Pliki wideo, dźwiękowe Klasyfikacja, rozpoznawanie twarzy, rozpoznawanie głosu 2018 SR Livingstone i FA Russo
SCFace Kolorowe obrazy twarzy pod różnymi kątami. Lokalizacja wyodrębnionych rysów twarzy. Podane współrzędne cech. 4160 Obrazy, tekst Klasyfikacja , rozpoznawanie twarzy 2011 M. Grgic i in.
Baza danych twarzy Yale Twarze 15 osób w 11 różnych wyrazach twarzy. Etykiety wyrażeń. 165 Obrazy Rozpoznawanie twarzy 1997 J. Yang i in.
Cohn-Kanade AU-Coded Expression Database Duża baza zdjęć z etykietami do wyrażeń. Śledzenie niektórych rysów twarzy. 500+ sekwencji Obrazy, tekst Analiza wyrazu twarzy 2000 T. Kanade i in.
Baza danych wyrazu twarzy JAFFE 213 zdjęć 7 wyrazów twarzy (6 podstawowych wyrazów twarzy + 1 neutralny) przedstawionych przez 10 japońskich modelek. Obrazy są przycinane do obszaru twarzy. Zawiera semantyczne dane ocen na etykietach emocji. 213 Obrazy, tekst Poznanie mimiki twarzy 1998 Lyon, Kamachi, Gyoba
TwarzScrub Obrazy osób publicznych wyczyszczone z wyszukiwania obrazów. Imię i adnotacja m/f. 107,818 Obrazy, tekst Rozpoznawanie twarzy 2014 H. Ng i in.
Baza danych twarzy BioID Obrazy twarzy z zaznaczonymi pozycjami oczu. Ręcznie ustaw pozycje oczu. 1521 Obrazy, tekst Rozpoznawanie twarzy 2001 BioID
Zestaw danych segmentacji skóry Losowo próbkowane wartości kolorów z obrazów twarzy. B, G, R, wyodrębnione wartości. 245 057 Tekst Segmentacja, klasyfikacja 2012 R. Bhatt.
Bosfor Baza danych obrazów twarzy 3D. 34 jednostki działania i 6 wyrażeń oznaczonych; Oznaczono 24 punkty orientacyjne na twarzy. 4652

Obrazy, tekst

Rozpoznawanie twarzy, klasyfikacja 2008 Savran i in.
UOY 3D-Twarz neutralna twarz, 5 wyrazów: złość, szczęście, smutek, zamknięte oczy, uniesione brwi. etykietowanie. 5250

Obrazy, tekst

Rozpoznawanie twarzy, klasyfikacja 2004 Uniwersytet w Yorku
CASIA Baza danych twarzy 3D Wyrażenia: złość, uśmiech, śmiech, zaskoczenie, zamknięte oczy. Nic. 4624

Obrazy, tekst

Rozpoznawanie twarzy, klasyfikacja 2007 Instytut Automatyki Chińskiej Akademii Nauk
CASIA NIR Wyrażenia: Gniew Obrzydzenie Strach Szczęście Smutek Niespodzianka Nic. 480 Przechwytuje wideo w zakresie widzialnym i bliskiej podczerwieni z adnotacjami z szybkością 25 klatek na sekundę Rozpoznawanie twarzy, klasyfikacja 2011 Zhao, G. i in.
BU-3DFE neutralna twarz i 6 wyrazów: złość, szczęście, smutek, zaskoczenie, wstręt, strach (4 poziomy). Wyodrębnione obrazy 3D. Nic. 2500 Obrazy, tekst Rozpoznawanie mimiki twarzy, klasyfikacja 2006 Uniwersytet w Binghamton
Zestaw danych Grand Challenge do rozpoznawania twarzy Do 22 próbek na każdy temat. Wyrażenia: złość, szczęście, smutek, zaskoczenie, wstręt, opuchlizna. Dane 3D. Nic. 4007 Obrazy, tekst Rozpoznawanie twarzy, klasyfikacja 2004 Narodowy Instytut Standardów i Technologii
Gavabdb Do 61 próbek dla każdego przedmiotu. Wyrazy neutralnej twarzy, uśmiechu, zaakcentowanego śmiechu z przodu, przypadkowego gestu z przodu. Obrazy 3D. Nic. 549 Obrazy, tekst Rozpoznawanie twarzy, klasyfikacja 2008 Uniwersytet Króla Juana Carlosa
3D-RMA Do 100 tematów, wyrażenia w większości neutralne. Kilka pozycji. Nic. 9971 Obrazy, tekst Rozpoznawanie twarzy, klasyfikacja 2004 Królewska Akademia Wojskowa (Belgia)
SoF 112 osób (66 mężczyzn i 46 kobiet) nosi okulary w różnych warunkach oświetleniowych. Zestaw filtrów syntetycznych (rozmycie, okluzje, szum, posteryzacja) o różnym stopniu trudności. 42 592 (2 662 oryginalne zdjęcie × 16 zdjęcie syntetyczne) Obrazy, plik Mat Klasyfikacja płci, wykrywanie twarzy, rozpoznawanie twarzy, szacowanie wieku i wykrywanie okularów 2017 Afifi, M. i in.
IMDB-WIKI Obrazy twarzy IMDB i Wikipedia z etykietami płci i wieku. Nic 523,051 Obrazy Klasyfikacja płci, wykrywanie twarzy, rozpoznawanie twarzy, szacowanie wieku 2015 R. Rothe, R. Timofte, LV Gool

Rozpoznawanie działań

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zbiór danych dotyczących interakcji między ludźmi w telewizji Filmy z 20 różnych programów telewizyjnych do przewidywania akcji społecznych: uścisk dłoni, przybicie piątki, przytulenie, pocałunek i brak. Nic. 6766 klipów wideo klipy wideo Przewidywanie działań 2013 Patron-Perez, A. i in.
Berkeley multimodalna baza danych o ludzkich działaniach (MHAD) Nagrania pojedynczej osoby wykonującej 12 czynności Wstępne przetwarzanie MoCap 660 próbek akcji 8 przechwytywania ruchu PhaseSpace, 2 kamery stereo, 4 kamery poczwórne, 6 akcelerometrów, 4 mikrofony Klasyfikacja działań 2013 Ofli, F. i in.
Zbiór danych THUMOS Duży zbiór danych wideo do klasyfikacji działań. Działania sklasyfikowane i oznaczone. 45 mln klatek wideo Wideo, obrazy, tekst Klasyfikacja, wykrywanie działań 2013 Y. Jiang i in.
MEXAkcja2 Zestaw danych wideo do lokalizacji akcji i wykrywania Działania sklasyfikowane i oznaczone. 1000 Wideo Wykrywanie akcji 2014 Stoian i in.

Wykrywanie i rozpoznawanie obiektów

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Genom wizualny Obrazy i ich opis 108 000 obrazy, tekst Podpisy obrazów 2016 R. Krishna i in.
Zbiór danych obiektów 3-D Berkeley 849 zdjęć zrobionych w 75 różnych scenach. Oznakowano około 50 różnych klas obiektów. Ramki ograniczające obiekt i etykiety. 849 oznaczone obrazy, tekst Rozpoznawanie obiektów 2014 A. Janoch i in.
Zestaw danych segmentacji Berkeley i testy porównawcze 500 (BSDS500) 500 naturalnych obrazów, wyraźnie podzielonych na rozłączne podzbiory pociągów, walidacji i testów + kod benchmarkingowy. Na podstawie BSDS300. Każdy obraz jest podzielony średnio na pięć różnych tematów. 500 Obrazy podzielone na segmenty Wykrywanie konturów i hierarchiczna segmentacja obrazu 2011 Uniwersytet Kalifornijski w Berkeley
Wspólne obiekty firmy Microsoft w kontekście (COCO) złożone sceny z życia codziennego pospolitych przedmiotów w ich naturalnym kontekście. Wyróżnianie obiektów, etykietowanie i klasyfikacja do 91 typów obiektów. 2 500 000 Oznaczone obrazy, tekst Rozpoznawanie obiektów 2015 T. Lin i in.
Baza danych SUN Bardzo duża baza danych rozpoznawania scen i obiektów. Miejsca i obiekty są oznakowane. Obiekty są podzielone na segmenty. 131 067 Obrazy, tekst Rozpoznawanie obiektów, rozpoznawanie scen 2014 J. Xiao i in.
ImageNet Baza danych obrazów obiektów oznaczonych etykietami, używana w wyzwaniu ImageNet Large Scale Visual Recognition Challenge Oznaczone obiekty, obwiedni, słowa opisowe, funkcje SIFT 14197122 Obrazy, tekst Rozpoznawanie obiektów, rozpoznawanie scen 2009 (2014) J. Deng i in.
Otwórz obrazy Duży zestaw obrazów oznaczonych jako posiadające licencję CC BY 2.0 z etykietami na poziomie obrazu i ramkami ograniczającymi obejmującymi tysiące klas. Etykiety na poziomie obrazu, Pudełka ograniczające 9178275 Obrazy, tekst Klasyfikacja, rozpoznawanie obiektów 2017
Zbiór danych dotyczących wykrywania komercyjnego kanału wiadomości telewizyjnych Reklamy telewizyjne i audycje informacyjne. Funkcje audio i wideo wyodrębnione z obrazów nieruchomych. 129 685 Tekst Klastrowanie, klasyfikacja 2015 P. Guha i in.
Statlog (segmentacja obrazu) Zbiór danych Instancje zostały losowo wybrane z bazy danych zawierającej 7 obrazów zewnętrznych i ręcznie posegmentowane, aby stworzyć klasyfikację dla każdego piksela. Obliczono wiele funkcji. 2310 Tekst Klasyfikacja 1990 Uniwersytet Massachusetts
Caltech 101 Zdjęcia obiektów. Zaznaczono szczegółowe kontury obiektów. 9146 Obrazy Klasyfikacja, rozpoznawanie obiektów. 2003 F. Li i in.
Caltech-256 Duży zbiór danych obrazów do klasyfikacji obiektów. Obrazy skategoryzowane i ręcznie posortowane. 30 607 Obrazy, tekst Klasyfikacja, wykrywanie obiektów 2007 G. Griffin i in.
Zbiór danych SIFT10M Funkcje SIFT zbioru danych Caltech-256. Rozbudowana ekstrakcja funkcji SIFT. 11 164 866 Tekst Klasyfikacja, wykrywanie obiektów 2016 X. Fu i in.
EtykietaMe Zdjęcia scen z adnotacjami. Przedstawione obiekty. 187 240 Obrazy, tekst Klasyfikacja, wykrywanie obiektów 2005 Laboratorium Informatyki i Sztucznej Inteligencji MIT
Zestaw danych miast Stereofoniczne sekwencje wideo nagrane w scenach ulicznych z adnotacjami na poziomie pikseli. Uwzględniono również metadane. Segmentacja i etykietowanie na poziomie pikseli 25 000 Obrazy, tekst Klasyfikacja, wykrywanie obiektów 2016 Daimler AG i in.
Zbiór danych PASCAL VOC Duża liczba obrazów do zadań klasyfikacyjnych. Etykietowanie, w zestawie pudełko ograniczające 500 000 Obrazy, tekst Klasyfikacja, wykrywanie obiektów 2010 M. Everingham i in.
Zbiór danych CIFAR-10 Wiele małych obrazów o niskiej rozdzielczości 10 klas obiektów. Klasy oznaczone, utworzone podziały zestawów treningowych. 60 000 Obrazy Klasyfikacja 2009 A. Krizhevsky i in.
Zbiór danych CIFAR-100 Jak CIFAR-10 powyżej, ale podano 100 klas obiektów. Klasy oznaczone, utworzone podziały zestawów treningowych. 60 000 Obrazy Klasyfikacja 2009 A. Krizhevsky i in.
Zbiór danych CINIC-10 Zunifikowany wkład CIFAR-10 i Imagenet z 10 klasami i 3 splitami. Większy niż CIFAR-10. Oznakowane klasy, uczenie, walidacja, utworzone podziały zestawu testowego. 270 000 Obrazy Klasyfikacja 2018 Luke N. Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey
Moda-MNIST Baza danych produktów modowych podobna do MNIST Klasy oznaczone, utworzone podziały zestawów treningowych. 60 000 Obrazy Klasyfikacja 2017 Zalando SE
notMNIST Niektóre publicznie dostępne czcionki i wyodrębnione z nich glify w celu utworzenia zestawu danych podobnego do MNIST. Jest 10 klas, z literami AJ zaczerpniętymi z różnych czcionek. Klasy oznaczone, utworzone podziały zestawów treningowych. 500 000 Obrazy Klasyfikacja 2011 Jarosław Bułatow
Niemiecki zestaw danych porównawczych wykrywania znaków drogowych Obrazy z pojazdów znaków drogowych na niemieckich drogach. Znaki te są zgodne z normami ONZ i dlatego są takie same jak w innych krajach. Znaki ręcznie oznakowane 900 Obrazy Klasyfikacja 2013 S Houben i in.
Zestaw danych KITTI Vision Benchmark Autonomiczne pojazdy przejeżdżające przez średniej wielkości miasto rejestrowały obrazy różnych obszarów za pomocą kamer i skanerów laserowych. Wiele benchmarków wyodrębnionych z danych. >100 GB danych Obrazy, tekst Klasyfikacja, wykrywanie obiektów 2012 Geiger i in.
Zbiór danych Linneusza 5 Obrazy 5 klas obiektów. Klasy oznaczone, utworzone podziały zestawów treningowych. 8000 Obrazy Klasyfikacja 2017 Chaladze i Kalatozishvili
FieldSAFE Multimodalny zestaw danych do wykrywania przeszkód w rolnictwie, w tym kamera stereo, kamera termowizyjna, kamera internetowa, kamera 360 stopni, lidar, radar i precyzyjna lokalizacja. Klasy oznaczone geograficznie. >400 GB danych Obrazy i chmury punktów 3D Klasyfikacja, wykrywanie obiektów, lokalizacja obiektów 2017 M. Kragh i in.
11 000 rąk 11076 obrazów dłoni (1600 x 1200 pikseli) 190 osób w różnym wieku od 18 do 75 lat, w celu rozpoznania płci i identyfikacji biometrycznej. Nic 11076 obrazów dłoni Obrazy i pliki etykiet (.mat, .txt i .csv) Rozpoznawanie płci i identyfikacja biometryczna 2017 M Afifi
Rdzeń50 Specjalnie zaprojektowany do ciągłego uczenia się i rozpoznawania obiektów, jest zbiorem ponad 500 filmów (30 klatek na sekundę) z 50 przedmiotami domowymi należącymi do 10 różnych kategorii. Klasy oznaczone, podziały zestawów treningowych utworzone na podstawie 3-way, multi-runs benchmark. 164 866 obrazów RBG-D obrazy (.png lub .pkl)

i (.pkl, .txt, .tsv) pliki etykiet

Klasyfikacja, rozpoznawanie obiektów 2017 V. Lomonaco i D. Maltoni
Obiekt OpenLORIS Zestaw danych Lifelong/Continual Robotic Vision (OpenLORIS-Object) gromadzony przez prawdziwe roboty zamontowane za pomocą wielu czujników o wysokiej rozdzielczości, zawiera zbiór 121 instancji obiektów (pierwsza wersja zestawu danych, 40 kategorii obiektów codziennego użytku w 20 scenach). Zestaw danych rygorystycznie uwzględnia 4 czynniki środowiskowe w różnych scenach, w tym oświetlenie, okluzję, rozmiar piksela obiektu i bałagan, oraz wyraźnie definiuje poziomy trudności każdego czynnika. Klasy oznaczone, podziały zestawów treningowych/walidacyjnych/testowych utworzone przez skrypty porównawcze. 1 106 424 obrazów RBG-D obrazy (.png i .pkl)

i (.pkl) pliki etykiet

Klasyfikacja, Rozpoznawanie obiektów przez całe życie, Robotic Vision 2019 P. Ona i in.
Zestaw danych THz i termicznych wideo Ten wielospektralny zestaw danych obejmuje filmy terahercowe, termiczne, wizualne, bliskie podczerwieni i trójwymiarowe filmy obiektów ukrytych pod ubraniami ludzi. Dostępne są tabele przeglądowe 3D, które umożliwiają rzutowanie obrazów na chmury punktów 3D. Ponad 20 filmów. Czas trwania każdego filmu to około 85 sekund (około 345 klatek). AP2J Eksperymenty z wykrywaniem ukrytych obiektów 2019 Aleksiej A. Morozow i Olga S. Sushkova

Pismo odręczne i rozpoznawanie znaków

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zestaw danych sztucznych znaków Sztucznie wygenerowane dane opisujące strukturę 10 wielkich angielskich liter. Współrzędne narysowanych linii podane jako liczby całkowite. Różne inne funkcje. 6000 Tekst Rozpoznawanie pisma ręcznego, klasyfikacja 1992 H. Guvenir i in.
Zbiór danych listowych Wielkie litery drukowane. Ze wszystkich obrazów wyodrębniono 17 funkcji. 20 000 Tekst OCR, klasyfikacja 1991 D. Slate i in.
CASIA-HWDB Offline odręcznie pisana baza danych chińskich znaków . 3755 klas w zestawie znaków GB 2312 . Obrazy w skali szarości z pikselami tła oznaczonymi jako 255. 1172,907 Obrazy, tekst Rozpoznawanie pisma ręcznego, klasyfikacja 2009 CASIA
CASIA-OLHWDB Internetowa baza danych odręcznych chińskich znaków, zebrana za pomocą pióra Anoto na papierze. 3755 klas w zestawie znaków GB 2312 . Udostępnia sekwencje współrzędnych pociągnięć. 1 174 364 Obrazy, tekst Rozpoznawanie pisma ręcznego, klasyfikacja 2009 CASIA
Zestaw danych trajektorii znaków Oznakowane próbki trajektorii końcówek pióra dla osób piszących proste znaki. 3-wymiarowa macierz trajektorii prędkości końcówki pióra dla każdej próbki 2858 Tekst Rozpoznawanie pisma ręcznego, klasyfikacja 2008 B. Williamsa
Zbiór danych Chars74K Rozpoznawanie znaków w naturalnych obrazach symboli używanych zarówno w języku angielskim, jak i kannada 74 107 Rozpoznawanie znaków, rozpoznawanie pisma ręcznego, OCR, klasyfikacja 2009 T. de Campos
Zestaw danych znaków pióra UJI Pojedyncze odręczne znaki Podano współrzędne położenia pióra w postaci napisanych znaków. 11 640 Tekst Rozpoznawanie pisma ręcznego, klasyfikacja 2009 F. Prat i in.
Zbiór danych Gisette Próbki pisma odręcznego z często mylonych 4 i 9 znaków. Funkcje wyodrębnione z obrazów, podzielone na pociąg/test, obrazy pisma ręcznego o znormalizowanym rozmiarze. 13500 Obrazy, tekst Rozpoznawanie pisma ręcznego, klasyfikacja 2003 Yann LeCun i in.
Zbiór danych Omniglotu 1623 różnych odręcznych znaków z 50 różnych alfabetów. Znakowane ręcznie. 38,300 Obrazy, tekst, obrysy Klasyfikacja, jednorazowa nauka 2015 Amerykańskie Stowarzyszenie Postępu Nauki
Baza danych MNIST Baza odręcznych cyfr. Znakowane ręcznie. 60 000 Obrazy, tekst Klasyfikacja 1998 Narodowy Instytut Standardów i Technologii
Optyczne rozpoznawanie zbioru danych odręcznych cyfr Znormalizowane mapy bitowe danych pisanych odręcznie. Rozmiar znormalizowany i mapowany na mapy bitowe. 5620 Obrazy, tekst Rozpoznawanie pisma ręcznego, klasyfikacja 1998 E. Alpaydin i in.
Rozpoznawanie za pomocą pióra zbioru danych odręcznych cyfr Odręcznie napisane cyfry na elektronicznym tablecie z piórem. Wyodrębnione wektory cech są równomiernie rozmieszczone. 10 992 Obrazy, tekst Rozpoznawanie pisma ręcznego, klasyfikacja 1998 E. Alpaydin i in.
Semeion odręcznie napisany zestaw danych cyfrowych Cyfry odręcznie od 80 osób. Wszystkie odręczne cyfry zostały znormalizowane pod kątem rozmiaru i przyporządkowane do tej samej siatki. 1593 Obrazy, tekst Rozpoznawanie pisma ręcznego, klasyfikacja 2008 T. Srl
HASYv2 Odręczne symbole matematyczne Wszystkie symbole są wyśrodkowane i mają rozmiar 32px x 32px. 168233 Obrazy, tekst Klasyfikacja 2017 Martina Thomasa
Głośny odręczny zestaw danych Bangla Zawiera odręczny zestaw danych liczbowych (10 klas) i podstawowy zestaw danych znakowych (50 klas), każdy zestaw danych ma trzy rodzaje szumu: biały gaussowski, rozmycie ruchu i zmniejszony kontrast. Wszystkie obrazy są wyśrodkowane i mają rozmiar 32x32. Zbiór danych liczbowych:

23330,

Zestaw danych znaków:

76000

Obrazy,

tekst

Rozpoznawanie pisma odręcznego,

Klasyfikacja

2017 M. Karki i in.

Zdjęcia lotnicze

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zbiór danych segmentacji obrazu lotniczego 80 zdjęć lotniczych o wysokiej rozdzielczości z rozdzielczością przestrzenną od 0,3 do 1,0. Obrazy ręcznie posegmentowane. 80 Obrazy Klasyfikacja lotnicza, wykrywanie obiektów 2013 J. Yuan i in.
ZESTAW ZBIORU DANYCH AIS Wiele oznaczonych zestawów danych treningowych i ewaluacyjnych zawierających zdjęcia lotnicze tłumów. Obrazy ręcznie oznaczone, aby pokazywać ścieżki poszczególnych osób w tłumie. ~150 Obrazy ze ścieżkami Śledzenie osób, śledzenie z powietrza 2012 M. Butenuth i in.
Zbiór danych więdnięcia Dane teledetekcyjne chorych drzew i innego pokrycia terenu. Wyodrębniono różne funkcje. 4899 Obrazy Klasyfikacja, wykrywanie obiektów lotniczych 2014 B. Johnsona
Zbiór danych MASATI Sceny morskie optycznych zdjęć lotniczych z widma widzialnego. Zawiera kolorowe obrazy w dynamicznych środowiskach morskich, każdy obraz może zawierać jeden lub wiele celów w różnych warunkach pogodowych i oświetleniowych. Ramki ograniczające obiekt i etykiety. 7389 Obrazy Klasyfikacja, wykrywanie obiektów lotniczych 2018 A.-J. Gallego i in.
Zestaw danych mapowania typu lasu Zdjęcia satelitarne lasów w Japonii. Wyodrębnione pasma długości fal obrazu. 326 Tekst Klasyfikacja 2015 B. Johnsona
Zbiór danych badawczych z obrazowania nad głową Zdjęcia nad głową z adnotacjami. Obrazy z wieloma obiektami. Ponad 30 adnotacji i ponad 60 statystyk opisujących cel w kontekście obrazu. 1000 Obrazy, tekst Klasyfikacja 2009 F. Tanner i in.
Sieć kosmiczna SpaceNet to zbiór komercyjnych zdjęć satelitarnych i oznaczonych danych treningowych. Pliki GeoTiff i GeoJSON zawierające obrysy budynków. >17533 Obrazy Klasyfikacja, identyfikacja obiektu 2017 DigitalGlobe, Inc.
Zbiór danych dotyczących użytkowania gruntów UC Merced Te obrazy zostały ręcznie wyodrębnione z dużych obrazów z kolekcji USGS National Map Urban Area Imagery dla różnych obszarów miejskich w Stanach Zjednoczonych. Jest to zestaw danych obrazu użytkowania gruntów 21 klasy przeznaczony do celów badawczych. Dla każdej klasy jest 100 zdjęć. 2100 Fragmenty obrazu 256x256, 30 cm (1 stopa) GSD Klasyfikacja pokrycia terenu 2010 Yi Yang i Shawn Newsam
Powietrzny zestaw danych SAT-4 Obrazy zostały wyodrębnione ze zbioru danych Narodowego Programu Obrazowania Rolnictwa (NAIP). SAT-4 ma cztery szerokie klasy pokrycia terenu, w tym grunty jałowe, drzewa, użytki zielone oraz klasę, która obejmuje wszystkie klasy pokrycia terenu inne niż powyższe trzy. 500 000 Obrazy Klasyfikacja 2015 S. Basu i in.
SAT-6 Powietrzny zestaw danych Obrazy zostały wyodrębnione ze zbioru danych Narodowego Programu Obrazowania Rolnictwa (NAIP). SAT-6 ma sześć szerokich klas pokrycia terenu, w tym nieużytki, drzewa, użytki zielone, drogi, budynki i zbiorniki wodne. 405 000 Obrazy Klasyfikacja 2015 S. Basu i in.

Inne obrazy

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zbiór danych SUPATLANTIQUE Obrazy zeskanowanych dokumentów urzędowych i Wikipedii Nic 4908 TIFF/pdf Identyfikacja urządzenia źródłowego, wykrywanie fałszerstw, klasyfikacja, .. 2020 C. Ben Rabah i in.
Symulacje kwantowe grafenu oparte na teorii funkcjonału gęstości Oznaczone obrazy surowych danych wejściowych do symulacji grafenu Surowe dane (w formacie HDF5) i etykiety wyjściowe z symulacji kwantowej teorii funkcjonału gęstości 60744 test i 501473 pliki szkoleniowe Obrazy oznaczone etykietami Regresja 2019 K. Mills i I. Tamblyn
Symulacje kwantowe elektronu w dwuwymiarowej studni potencjału Oznakowane obrazy surowych danych wejściowych do symulacji mechaniki kwantowej 2D Surowe dane (w formacie HDF5) i etykiety wyjściowe z symulacji kwantowej 1,3 miliona obrazów Obrazy oznaczone etykietami Regresja 2017 K. Mills, MA Spanner i I. Tamblyn
Zbiór danych dotyczących czynności kulinarnych MPII Filmy i zdjęcia różnych czynności kulinarnych. Ścieżki i kierunki aktywności, etykiety, szczegółowe etykietowanie ruchu, klasa aktywności, wyodrębnianie i etykietowanie nieruchomych obrazów. 881.755 klatek Oznaczone filmy, obrazy, tekst Klasyfikacja 2012 M. Rohrbach i in.
Zbiór danych FAMOS 5000 unikalnych mikrostruktur, wszystkie próbki zostały pobrane 3 razy za pomocą dwóch różnych kamer. Oryginalne pliki PNG, posortowane według kamery, a następnie według akwizycji. Pliki danych MATLAB z jedną matrycą 16384 razy 5000 na kamerę na akwizycję. 30 000 Obrazy i pliki .mat Uwierzytelnianie 2012 S. Voloshynovskiy i in.
Zbiór danych PharmaPack 1000 unikalnych klas z 54 obrazami na klasę. Etykietowanie klas, wiele lokalnych deskryptorów, takich jak SIFT i aKaZE, oraz lokalne agregatory cech, takie jak Fisher Vector (FV). 54 000 Obrazy i pliki .mat Klasyfikacja drobnoziarnista 2017 O. Taran i S. Rezaeifar, et al.
Zbiór danych psów Stanford Zdjęcia 120 ras psów z całego świata. Udostępniono podziały trenowania/testowania i adnotacje ImageNet. 20 580 Obrazy, tekst Klasyfikacja drobnoziarnista 2011 A. Khosla i in.
Dodatkowy zestaw danych Stanford Kluczowe punkty 2D i segmentacje dla zbioru danych Stanford Dogs. Dostarczono kluczowe punkty 2D i segmentacje. 12,035 Obrazy oznaczone etykietami Rekonstrukcja 3D/oszacowanie pozy 2020 B. Biggsa i in.
Zbiór danych zwierząt domowych Oxford-IIIT 37 kategorii zwierząt domowych z około 200 obrazami każdego z nich. Oznaczone rasą, ciasne pole ograniczające, segmentacja pierwszy plan-tło. ~ 7400 Obrazy, tekst Klasyfikacja, wykrywanie obiektów 2012 O. Parkhi i in.
Corel Image Features Zestaw danych Baza obrazów z wyodrębnionymi cechami. Wiele funkcji, w tym histogram kolorów, tekstura współwystępowania i momenty kolorów, 68 040 Tekst Klasyfikacja, wykrywanie obiektów 1999 M. Ortega-Bindenberger i in.
Charakterystyka wideo online i zbiór danych czasu transkodowania. Czasy transkodowania dla różnych filmów i właściwości wideo. Podano funkcje wideo. 168 286 Tekst Regresja 2015 T. Deneke i in.
Narracyjny zestaw danych obrazu sekwencyjnego firmy Microsoft (SIND) Zbiór danych dla sekwencyjnej wizji na język Przy każdym zdjęciu podany jest opisowy podpis i narracja, a zdjęcia ułożone są w sekwencje 81 743 Obrazy, tekst Opowiadanie wizualne 2016 Badania firmy Microsoft
Caltech-UCSD Birds-200-2011 Zestaw danych Duży zbiór danych obrazów ptaków. Lokalizacje części dla ptaków, ramki ograniczające, podano 312 atrybutów binarnych 11 788 Obrazy, tekst Klasyfikacja 2011 C. Wah i in.
YouTube-8M Duży i zróżnicowany zbiór danych wideo oznaczonych etykietami Identyfikatory wideo YouTube i powiązane etykiety z różnorodnego słownictwa 4800 jednostek wizualnych 8 milionów Wideo, tekst Klasyfikacja wideo 2016 S. Abu-El-Haija i in.
YFCC100M Duży i różnorodny zestaw danych obrazów i wideo oznaczonych etykietami Filmy i obrazy Flickr oraz powiązane opisy, tytuły, tagi i inne metadane (takie jak EXIF ​​i geotagi) 100 milionów Wideo, obraz, tekst Klasyfikacja wideo i obrazu 2016 B. Thomee i in.
Dyskretny LIRIS-ACCEDE Krótkie filmy z adnotacjami o wartościowości i podnieceniu. Etykiety walencyjne i pobudzenia. 9800 Wideo Wykrywanie emocji wideo 2015 Y. Baveye i in.
Ciągły LIRIS-ACCEDE Długie filmy z adnotacjami o waleczności i podnieceniu, a także zbierające Galvanic Skin Response. Etykiety walencyjne i pobudzenia. 30 Wideo Wykrywanie emocji wideo 2015 Y. Baveye i in.
MediaEval LIRIS-ACCEDE Rozszerzenie Discrete LIRIS-ACCEDE o adnotacje dotyczące poziomów przemocy w filmach. Etykiety przemocy, walencji i pobudzenia. 10900 Wideo Wykrywanie emocji wideo 2015 Y. Baveye i in.
Pozycja sportowa w Leeds Przegubowe adnotacje ludzkiej pozy w 2000 naturalnych obrazach sportowych z serwisu Flickr. Szorstkie zbiory wokół jednej interesującej osoby z 14 wspólnymi etykietami 2000 Obrazy plus etykiety plików .mat Oszacowanie ludzkiej pozy 2010 S. Johnson i M. Everingham
Leeds Sports Pose Extended Training Przegubowe adnotacje dotyczące ludzkiej pozy na 10 000 naturalnych obrazach sportowych z serwisu Flickr. 14 wspólnych etykiet poprzez crowdsourcing dziesięć tysięcy Obrazy plus etykiety plików .mat Oszacowanie ludzkiej pozy 2011 S. Johnson i M. Everingham
Zbiór danych MCQ 6 różnych rzeczywistych egzaminów wielokrotnego wyboru (735 arkuszy odpowiedzi i 33 540 pól odpowiedzi) w celu oceny technik widzenia komputerowego i systemów opracowanych dla systemów oceny testów wielokrotnego wyboru. Nic 735 arkuszy odpowiedzi i 33 540 skrzynek odpowiedzi Obrazy i etykiety plików .mat Rozwój systemów oceny testów wielokrotnego wyboru 2017 Afifi, M. i in.
Filmy z nadzoru Prawdziwe nagrania wideo z monitoringu obejmują długi czas nadzoru (7 dni po 24 godziny każdy). Nic 19 nagrań wideo z monitoringu (7 dni po 24 godziny każdy). Filmy Kompresja danych 2016 Taj-Eddin, IATF i in.
LILA BC Oznaczona Biblioteka Informacyjna Aleksandrii: Biologia i Ochrona. Obrazy z etykietami, które wspierają badania nad uczeniem maszynowym w zakresie ekologii i nauk o środowisku. Nic ~10 mln obrazów Obrazy Klasyfikacja 2019 Grupa robocza LILA
Czy możemy zobaczyć fotosyntezę? 32 filmy dla ośmiu żywych i ośmiu martwych liści nagranych w warunkach oświetlenia DC i AC. Nic 32 filmy Filmy Wykrywanie żywotności roślin 2017 Taj-Eddin, IATF i in.

Dane tekstowe

Zestawy danych składające się głównie z tekstu do zadań takich jak przetwarzanie języka naturalnego , analiza sentymentu , tłumaczenie i analiza klastrów .

Opinie

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Recenzje Amazon Recenzje produktów w USA z Amazon.com . Nic. 233,1 miliona Tekst Klasyfikacja, analiza sentymentu 2015 (2018) McAuley i in.
Zbiór danych recenzji OpinRank Recenzje samochodów i hoteli odpowiednio z Edmunds.com i TripAdvisor . Nic. 42 230 / ~259 000 odpowiednio Tekst Analiza nastrojów, grupowanie 2011 K. Ganesan i in.
Obiektyw filmu 22 000 000 ocen i 580 000 tagów zastosowanych do 33 000 filmów przez 240 000 użytkowników. Nic. ~ 22M Tekst Regresja, grupowanie, klasyfikacja 2016 Badania GroupLens
Wieśniak! Muzyczne oceny artystów muzycznych Ponad 10 milionów ocen artystów przez użytkowników Yahoo. Nie opisano. ~ 10M Tekst Klastrowanie, regresja 2004 Wieśniak!
Zestaw danych oceny samochodu Właściwości samochodów i ich ogólna akceptowalność. Podano sześć kategorycznych cech. 1728 Tekst Klasyfikacja 1997 M. Bohanec
Zbiór danych preferencji YouTube Comedy Slam Dane głosowania użytkowników na pary filmów wyświetlanych w YouTube. Użytkownicy głosowali na zabawniejsze filmy. Podano metadane wideo. 1 138 562 Tekst Klasyfikacja 2012 Google
Zbiór danych opinii użytkowników Skytrax Recenzje użytkowników linii lotniczych, lotnisk, siedzeń i poczekalni Skytrax. Oceny są drobiazgowe i obejmują wiele aspektów doświadczenia na lotnisku. 41396 Tekst Klasyfikacja, regresja 2015 Q. Nguyen
Zbiór danych oceny asystenta nauczania Recenzje asystenta nauczania. Podane są cechy każdej instancji, takie jak klasa, wielkość klasy i instruktor. 151 Tekst Klasyfikacja 1997 W. Loh i in.
Korpus informacji zwrotnej dla studentów wietnamskich (UIT-VSFC) Opinie uczniów. Uwagi 16 000 Tekst Klasyfikacja 1997 Nguyen i in.
Wietnamski Korpus Emocji w Mediach Społecznościowych (UIT-VSMEC) Komentarze użytkowników na Facebooku. Uwagi 6927 Tekst Klasyfikacja 1997 Nguyen i in.
Wietnamski zbiór danych wykrywania reklamacji w otwartej domenie (ViOCD) Recenzje produktów klientów Uwagi 5485 Tekst Klasyfikacja 2021 Nguyen i in.

Artykuły z wiadomościami

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zbiór danych NYSK Angielskie artykuły prasowe o sprawie dotyczącej zarzutów napaści na tle seksualnym wobec byłego dyrektora MFW Dominique'a Strauss-Kahna . Filtrowane i prezentowane w formacie XML. 10 421 XML, tekst Analiza sentymentu, wyodrębnianie tematów 2013 Dermouche, M. i in.
Tom 1 Korpusu Reutera Duży zbiór wiadomości Reuters w języku angielskim. Kategoryzacja drobnoziarnista i kody tematów. 810 000 Tekst Klasyfikacja, grupowanie, podsumowanie 2002 Reuters
Tom 2 Korpusu Reutera Duży zbiór wiadomości Reuters w wielu językach. Kategoryzacja drobnoziarnista i kody tematów. 487 000 Tekst Klasyfikacja, grupowanie, podsumowanie 2005 Reuters
Zbiór badań tekstowych Thomson Reuters Duży zbiór wiadomości. Szczegóły nie opisane. 1800,370 Tekst Klasyfikacja, grupowanie, podsumowanie 2009 T. Rose i in.
Gazety saudyjskie Corpus 31.030 arabskich artykułów prasowych. Wyodrębnione metadane. 31.030 JSON Podsumowanie, grupowanie 2015 M. Alhagri
RE3D (Zestaw danych oceny relacji i wyodrębniania jednostek) Entity and Relation oznaczały dane z różnych źródeł wiadomości i źródeł rządowych. Sponsorowane przez Dstl Filtrowane, kategoryzacja za pomocą typów Baleen nieznany JSON Klasyfikacja, rozpoznawanie podmiotów i relacji 2017 Dstl
Katalog Clickbait dla egzaminatorów spamu Clickbait, spam, nagłówki crowd-sourced od 2010 do 2015 Data publikacji i nagłówki 3 089 781 CSV Klastrowanie, wydarzenia, nastroje 2016 R. Kulkarni
ABC Australia Aktualności Corpus Cały korpus wiadomości ABC Australia od 2003 do 2019 roku Data publikacji i nagłówki 1.186.018 CSV Klastrowanie, wydarzenia, nastroje 2020 R. Kulkarni
Wiadomości z całego świata – zagregowane 20 tys. kanałów Migawka wszystkich nagłówków online z tygodnia w ponad 20 językach Czas publikacji, adres URL i nagłówki 1 398 431 CSV Klastrowanie, zdarzenia, wykrywanie języka 2018 R. Kulkarni
Nagłówek wiadomości Reutera 11 lat wydarzeń z sygnaturą czasową publikowanych w news-wire Czas publikacji, tekst nagłówka 16 121 310 CSV NLP, lingwistyka komputerowa, wydarzenia 2018 R. Kulkarni
The Irish Times Ireland News Corpus 24 lata Irlandii Wiadomości od 1996 do 2019 Czas publikacji, kategoria nagłówka i tekst 1,484,340 CSV NLP, lingwistyka komputerowa, wydarzenia 2020 R. Kulkarni
Zbiór danych nagłówków wiadomości do wykrywania sarkazmu Zestaw danych wysokiej jakości z sarkastycznymi i niesarkastycznymi nagłówkami wiadomości. Czysty, znormalizowany tekst 26 709 JSON NLP, klasyfikacja, językoznawstwo 2018 Rishabh Misra

Wiadomości

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zbiór danych e-mail Enron E-maile od pracowników Enronu zorganizowane w foldery. Usunięto załączniki, nieprawidłowe adresy e-mail przekonwertowane na user@enron.com lub no_address@enron.com. ~ 500 000 Tekst Analiza sieci, analiza sentymentu 2004 (2015) Klimt, B. i Y. Yang
Zbiór danych spamu Ling Korpus zawierający zarówno legalne, jak i spamowe wiadomości e-mail. Cztery wersje korpusu dotyczące tego, czy włączono lematyzator lub stop-listę. 2412 Szynka 481 Spam Tekst Klasyfikacja 2000 Androutsopoulos, J. i in.
Zbiór danych zbierania spamu SMS Zebrane wiadomości SMS będące spamem. Nic. 5,574 Tekst Klasyfikacja 2011 T. Almeida i in.
Zbiór danych dwudziestu grup dyskusyjnych Wiadomości z 20 różnych grup dyskusyjnych. Nic. 20 000 Tekst Przetwarzanie języka naturalnego 1999 T. Mitchell i in.
Zbiór danych bazy spamu E-maile spamowe. Wyodrębniono wiele funkcji tekstowych. 4601 Tekst Wykrywanie spamu, klasyfikacja 1999 M. Hopkins i in.
Zbiór danych ColBERT Krótkie żarty. Usunięto wartości odstające. 200 000 Tekst Wykrywanie humoru, klasyfikacja 2020 I. Annamoradnejad.

Twitter i tweety

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
FilmyTweetingi Zestaw danych do oceny filmów na podstawie publicznych i dobrze ustrukturyzowanych tweetów ~710.000 Tekst Klasyfikacja, regresja 2018 S. Zagłady
Twitter100 tys. Pary obrazków i tweetów 100 000 Tekst i obrazy Wyszukiwanie cross-media 2017 Y. Hu i in.
Sentyment140 Dane tweeta z 2009 r., w tym oryginalny tekst, znacznik czasu, użytkownik i sentyment. Klasyfikowane przy użyciu nadzoru na odległość od obecności emotikonów w tweecie. 1 578 627 Tweety, przecinek, wartości rozdzielone Analiza sentymentu 2009 A. Go i in.
Zbiór danych ASU na Twitterze Dane z sieci Twittera, a nie rzeczywiste tweety. Pokazuje połączenia między dużą liczbą użytkowników. Nic. 11 316 811 użytkowników, 85 331 846 połączeń Tekst Klastrowanie, analiza wykresów 2009 R. Zafarani i in.
Kręgi społecznościowe SNAP: baza danych na Twitterze Duże dane z sieci Twittera. Cechy węzłów, kręgi i sieci ego. 1,768,149 Tekst Klastrowanie, analiza wykresów 2012 J. McAuley i in.
Zestaw danych Twittera do analizy nastrojów w języku arabskim Arabskie tweety. Próbki ręcznie oznakowane jako pozytywne lub negatywne. 2000 Tekst Klasyfikacja 2014 N. Abdulla
Buzz w zbiorze danych mediów społecznościowych Dane z Twittera i Tom's Hardware. Ten zbiór danych koncentruje się na konkretnych tematach buzzów omawianych w tych witrynach. Dane są wyświetlane w oknach, dzięki czemu użytkownik może spróbować przewidzieć zdarzenia prowadzące do szumu w mediach społecznościowych. 140 000 Tekst Regresja, Klasyfikacja 2013 F. Kawala i in.
Parafraza i podobieństwo semantyczne w Twitterze (PIT) Ten zestaw danych skupia się na tym, czy tweety mają (prawie) takie samo znaczenie/informacje, czy nie. Oznaczone ręcznie. tokenizacja, tagowanie części mowy i nazwanych encji 18 762 Tekst Regresja, Klasyfikacja 2015 Xu i in.
Geoparsuj zestaw danych porównawczych Twittera Ten zbiór danych zawiera tweety podczas różnych wydarzeń informacyjnych w różnych krajach. Ręcznie oznaczone wzmianki o lokalizacji. adnotacje lokalizacji dodane do metadanych JSON 6 386 Tweety, JSON Klasyfikacja, wyodrębnianie informacji 2014 SE Middleton i in.
Holenderska kolekcja mediów społecznościowych Ten zbiór danych zawiera tweety na temat COVID-19 stworzone przez osoby posługujące się językiem holenderskim lub użytkowników z Holandii. Dane zostały opatrzone adnotacją maszynową sklasyfikowany za sentyment, tekst tweeta i opis użytkownika przetłumaczony na język angielski. Wzmianki branżowe są wydobywane 271,342 JSONL Sentyment, klasyfikacja z wieloma etykietami, tłumaczenie maszynowe 2020 Aaaksh Gupta, CoronaDlaczego

Dialogi

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Korpus czatu NPS Posty z czatów online dla określonych grup wiekowych. Prywatność dłoni zamaskowana, oznaczona jako część mowy i dialog-akt. ~ 500 000 XML NLP, programowanie, lingwistyka 2007 Forsyth E., Lin J. i Martell C.
Potrójny korpus na Twitterze Trójki ABA wydobyte z Twittera. 4232 Tekst NLP 2016 Sordini, A. i in.
UseNet Corpus Posty na forum UseNet. Anonimowe e-maile i adresy URL. Pominięte dokumenty o długości <500 słów lub >500 000 słów lub zawierające język angielski w <90%. 7 miliardów Tekst 2011 Shaoul, C. i Westbury C.
Korpus SMS NUS Wiadomości SMS zbierane między dwoma użytkownikami, z analizą czasową. ~ 10 000 XML NLP 2011 KAN, M
Reddit Wszystkie Komentarze Corpus Wszystkie komentarze Reddit (stan na 2015 r.). ~ 1,7 miliarda JSON NLP, badania 2015 Stuck_In_the_Matrix
Korpus dialogowy Ubuntu Dialogi wyodrębnione ze strumienia czatu Ubuntu na IRC. CSV Badania systemów dialogu 2015 Lowe, R. i in.
Wyzwanie śledzenia stanu dialogu Wyzwania dotyczące śledzenia stanu dialogu 2 i 3 (DSTC2 i 3) były wyzwaniem badawczym skoncentrowanym na poprawie stanu wiedzy w zakresie śledzenia stanu systemów dialogu mówionego. Transkrypcja wypowiadanych dialogów z etykietowaniem DSTC2 zawiera ~3,2k połączeń – DSTC3 zawiera ~2,3k połączeń Json Śledzenie stanu dialogu 2014 Henderson, Matthew i Thomson, Blaise i Williams, Jason D

Inny tekst

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zbiór danych Web of Science Hierarchiczne zbiory danych do klasyfikacji tekstu Nic. 46,985 Tekst Klasyfikacja,

Kategoryzacja

2017 K. Kowsari i in.
Sprawozdania prawne Sprawy Sądu Federalnego Australii od 2006 do 2009 roku. Nic. 4000 Tekst Podsumowanie,

analiza cytowań

2012 F. Galgani i in.
Korpus autorstwa Bloggera Wpisy na blogu 19320 osób z blogger.com. Blogger sam podał płeć, wiek, branżę i znak zodiaku. 681.288 Tekst Analiza sentymentu, podsumowanie, klasyfikacja 2006 J. Schler i in.
Struktura społecznościowa sieci Facebook Duży zbiór danych o strukturze społecznościowej Facebooka. Nic. Obejmuje 100 uczelni Tekst Analiza sieci, klastrowanie 2012 Traud i in.
Zestaw danych do maszynowego rozumienia tekstu Historie i związane z nimi pytania do testowania rozumienia tekstu. Nic. 660 Tekst Przetwarzanie języka naturalnego, rozumienie maszynowe 2013 M. Richardson i in.
Projekt Penn Treebank Tekst naturalnie występujący z adnotacjami dla struktury językowej. Tekst jest dzielony na drzewa semantyczne. ~ 1 mln słów Tekst Przetwarzanie języka naturalnego, podsumowania 1995 M. Marcus i in.
Zbiór danych DEXTER Podane zadanie polega na ustaleniu, na podstawie podanych cech, które artykuły dotyczą przejęć firm. Wyodrębnione funkcje obejmują rdzenie słów. Zawiera funkcje rozpraszające. 2600 Tekst Klasyfikacja 2008 Reuters
N-gramy w Książkach Google N-gramy z bardzo dużego zbioru książek Nic. 2,2 TB tekstu Tekst Klasyfikacja, grupowanie, regresja 2011 Google
Personae Corpus Zbierane do eksperymentów w zakresie przypisywania autorstwa i przewidywania osobowości. Składa się z 145 esejów w języku niderlandzkim. Oprócz zwykłych tekstów podane są teksty z adnotacjami składniowymi. 145 Tekst Klasyfikacja, regresja 2008 K. Luyckx i in.
Zbiór danych CNAE-9 Zadanie kategoryzacji dla dowolnych opisów tekstowych brazylijskich firm. Wyodrębniono częstotliwość słów. 1080 Tekst Klasyfikacja 2012 P. Ciarelli i in.
Zbiór danych o zdaniach oznaczonych sentymentem 3000 zdań oznaczonych sentymentem. Sentyment każdego zdania został ręcznie oznaczony jako pozytywny lub negatywny. 3000 Tekst Klasyfikacja, analiza sentymentu 2015 D. Kotzias
Zbiór danych opinii o blogu Zestaw danych umożliwiający przewidywanie liczby komentarzy otrzymanych przez post na podstawie jego cech. Wyodrębniono wiele funkcji każdego posta. 60 021 Tekst Regresja 2014 K. Buza
Korpus Wnioskowania o Języku Naturalnym Stanforda (SNLI) Podpisy pod obrazami dopasowane do nowo skonstruowanych zdań, tworzących pociąganie, sprzeczność lub neutralne pary. Etykiety klas Entailment, parsowanie składniowe przez parser Stanford PCFG 570 000 Tekst Wnioskowanie w języku naturalnym/rozpoznawanie wnioskowania tekstowego 2015 S. Bowman i in.
Kolekcja DSL Corpus (DSLCC) Wielojęzyczny zbiór krótkich fragmentów tekstów dziennikarskich w podobnych językach i dialektach. Nic 294 000 fraz Tekst Rozróżnianie podobnych języków 2017 Tan, Liling i in.
Zbiór danych słownika miejskiego Korpus słów, głosów i definicji Anonimizowane nazwy użytkowników 2 580 925 CSV NLP, rozumienie maszyn 2016 maj Anonimowy
T-REx Streszczenia Wikipedii dostosowane do jednostek Wikidanych Dopasowanie trójek Wikidanych z abstraktami Wikipedii 11 mln wyrównanych trójek JSON i NIF [2] NLP, ekstrakcja relacji 2018 H. Elsahar i in.
Ogólna ocena zrozumienia języka (GLUE) Benchmark dziewięciu zadań Różny ~1 mln zdań i par zdań NLU 2018 Wang i in.
Contract Understanding Atticus Dataset (CUAD) (wcześniej znany jako Atticus Open Contract Dataset (AOK)) Zbiór danych umów prawnych z bogatymi adnotacjami eksperckimi ~13 000 etykiet CSV i PDF Przetwarzanie języka naturalnego, QnA 2021 Projekt Atticus
Zbiór danych wietnamskich napisów do obrazów (UIT-ViIC) Zbiór danych wietnamskich napisów do obrazów 19 250 podpisów do 3850 obrazów CSV i PDF Przetwarzanie języka naturalnego, Wizja komputerowa 2020 Lam i in.
Nazwiska wietnamskie z adnotacjami o płci (UIT-ViNames) Nazwy wietnamskie z adnotacjami Płeć 26 850 wietnamskich pełnych imion z adnotacjami płci CSV Przetwarzanie języka naturalnego 2020 Do et al.
Zestaw wietnamskich danych dotyczących wykrywania konstruktywnej i toksycznej mowy (UIT-ViCTSD) Wietnamski zestaw danych do wykrywania konstruktywnej i toksycznej mowy 10 000 komentarzy wietnamskich użytkowników w gazetach internetowych w 10 domenach CSV Przetwarzanie języka naturalnego 2021 Nguyen i in.
Zbiór danych ColBERT Krótkie żarty. Usunięto wartości odstające. 200 000 Tekst Wykrywanie humoru, klasyfikacja 2020 Annamoradnejad i in.

Dane dźwiękowe

Zestawy danych dźwięków i funkcji dźwiękowych.

Przemówienie

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zero Resource Speech Challenge 2015 Mowa spontaniczna (angielski), Mowa odczytana (Xitsonga). surowa fala angielski: 5h, 12 mówców; Xitsonga: 2h30; 24 głośniki dźwięk Nienadzorowane wykrywanie funkcji mowy/jednostek podsłów/jednostek słów 2015 Versteegh i in.
Zbiór danych mowy Parkinsona Wiele nagrań osób z chorobą Parkinsona i bez niej. Wyodrębnione cechy głosu, choroba oceniona przez lekarza za pomocą ujednoliconej skali oceny choroby Parkinsona 1,040 Tekst Klasyfikacja, regresja 2013 BE Sakar i in.
Mówione cyfry arabskie Mówione cyfry arabskie od 44 mężczyzn i 44 kobiet. Szeregi czasowe współczynników cepstrum mel-częstotliwości . 8800 Tekst Klasyfikacja 2010 M. Bedda i in.
Zbiór danych ISOLET Mówione nazwy liter. Funkcje wyodrębnione z dźwięków. 7797 Tekst Klasyfikacja 1994 R. Cole i in.
Zbiór danych japońskich samogłosek Dziewięć męskich mówców wypowiedziało kolejno dwie japońskie samogłoski. Zastosowano do niego 12-stopniową analizę predykcyjną liniową, aby uzyskać szereg dyskretnych czasowych z 12 współczynnikami cepstrum. 640 Tekst Klasyfikacja 1999 M. Kudo i in.
Zbiór danych telemonitorowania Parkinsona Wiele nagrań osób z chorobą Parkinsona i bez niej. Wyodrębnione cechy dźwiękowe. 5875 Tekst Klasyfikacja 2009 A. Tsanas i in.
TIMIT Nagrania 630 osób mówiących w ośmiu głównych dialektach amerykańskiego angielskiego, z których każdy czyta dziesięć zdań bogatych fonetycznie. Mowa podlega transkrypcji leksykalnej i fonemicznej. 6300 Tekst Rozpoznawanie mowy, klasyfikacja. 1986 J. Garofolo i in.
Arabski Korpus Mowy Pojedyncza głośników, Modern Standard Arabic (MSA) corpus mowy z fonetycznych i ortograficznych transkryptów ustawionych na poziomie fonemów Mowa jest zapisywana ortograficznie i fonetycznie ze znakami akcentu. ~1900 Tekst, WAV Synteza mowy, rozpoznawanie mowy, wyrównanie korpusu, terapia mowy, edukacja. 2016 N. Halabi
Wspólny głos Baza danych domeny publicznej zawierająca dane pochodzące z crowdsourcingu w wielu różnych dialektach. Walidacja przez innych użytkowników Angielski: 1118 godzin MP3 z odpowiednimi plikami tekstowymi Rozpoznawanie mowy czerwiec 2017 (grudzień 2019) Mozilla

Muzyka

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Pochodzenie geograficzne zbioru danych muzycznych Funkcje audio próbek muzycznych z różnych lokalizacji. Funkcje audio wyodrębnione za pomocą oprogramowania MARSYAS. 1,059 Tekst Klasyfikacja geograficzna, grupowanie 2014 F. Zhou i in.
Zbiór danych miliona utworów Funkcje audio z miliona różnych utworów. Wyodrębnione funkcje audio. 1M Tekst Klasyfikacja, grupowanie 2011 T. Bertin-Mahieux i in.
MUSDB18 Wielościeżkowe nagrania muzyki popularnej Surowy dźwięk 150 MP4, WAV Separacja źródła 2017 Z. Rafii i in.
Darmowe archiwum muzyczne Audio na licencji Creative Commons z 100 tys. utworów (343 dni, 1TiB) z hierarchią 161 gatunków, metadanymi, danymi użytkownika, tekstem dowolnym. Surowe funkcje audio i audio. 106 574 Tekst, MP3 Klasyfikacja, rekomendacja 2017 M. Defferrard i in.
Zbiór danych harmonii chóralnej Bacha Akordy chorałowe Bacha. Wyodrębnione funkcje audio. 5665 Tekst Klasyfikacja 2014 D. Radicioni i in.

Inne dźwięki

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Dźwięk miejski Oznaczone nagrania dźwiękowe dźwięków, takich jak klimatyzatory, klaksony samochodowe i bawiące się dzieci. Posortowane w foldery według klasy zdarzeń oraz metadanych w pliku JSON i adnotacji w pliku CSV. 1,059 Dźwięk

( WAV )

Klasyfikacja 2014 J. Salamon i in.
Zestaw audio 10-sekundowe fragmenty dźwięków z filmów na YouTube i ontologia ponad 500 etykiet. 128-d PCA-owskie funkcje VGG co 1 sekundę. 2 084 320 Pliki tekstowe (CSV) i TensorFlow Record Klasyfikacja 2017 J. Gemmeke i in., Google
Wyzwanie wykrywania dźwięku ptaków Dźwięk ze stacji monitorujących środowisko oraz nagrania z crowdsourcingu 17 000+ Klasyfikacja 2016 (2018) Queen Mary University i Stowarzyszenie Przetwarzania Sygnałów IEEE
Hipsterskie mieszanki otoczenia WSJ0 Dźwięk z WSJ0 zmieszany z szumem nagranym w rejonie zatoki San Francisco Klipy szumów dopasowane do klipsów WSJ0 28 000 Dźwięk ( WAV ) Separacja źródła dźwięku 2019 Wichern, G. i in., Whisper i MERL
Clotho 4981 próbek audio o długości od 15 do 30 sekund, przy czym każda próbka audio ma pięć różnych napisów o długości od 8 do 20 słów. 24 905 Dźwięk ( WAV ) i tekst ( CSV ) Automatyczne napisy audio 2020 K. Drossos, S. Lipping i T. Virtanen

Dane sygnału

Zestawy danych zawierające informacje o sygnale elektrycznym wymagające pewnego rodzaju przetwarzania sygnału do dalszej analizy.

Elektryczny

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zbiór danych robaka dowcipnego Zestaw danych szczegółowo opisujący rozprzestrzenianie się robaka Witty i zainfekowanych komputerów. Podziel na zestaw publicznie dostępny i zestaw zastrzeżony zawierający bardziej poufne informacje, takie jak nagłówki IP i UDP. 55 909 adresów IP Tekst Klasyfikacja 2004 Centrum Stosowanej Analizy Danych Internetowych
Zestaw danych do szacowania ciśnienia krwi bez mankietu Oczyszczone sygnały życiowe od ludzkich pacjentów, które można wykorzystać do oszacowania ciśnienia krwi. Funkcje życiowe 125 Hz zostały wyczyszczone. 12.000 Tekst Klasyfikacja, regresja 2015 M. Kachuee i in.
Zestaw danych dryfu czujnika gazu Pomiary z 16 czujników chemicznych wykorzystanych w symulacjach do kompensacji dryfu. Obszerna liczba podanych funkcji. 13.910 Tekst Klasyfikacja 2012 A. Vergara
Zestaw danych serwo Dane obejmujące nieliniowe zależności obserwowane w obwodzie serwowzmacniacza. Podano poziomy różnych składników w funkcji innych składników. 167 Tekst Regresja 1993 K. Ullrich
Zbiór danych UJIIndoorLoc-Mag Baza danych lokalizacji wewnętrznych do testowania systemów lokalizacji wewnętrznej. Dane są oparte na polu magnetycznym. Podano podziały treningowe i testowe. 40 000 Tekst Klasyfikacja, regresja, grupowanie 2015 D. Rambla i in.
Zestaw danych diagnostyki napędu bezczujnikowego Sygnały elektryczne z silników z uszkodzonymi komponentami. Wyodrębnione cechy statystyczne. 58,508 Tekst Klasyfikacja 2015 M. Bator

Śledzenie ruchu

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Komputery do noszenia: klasyfikacja postaw i ruchów ciała (PUC-Rio) Osoby wykonujące pięć standardowych czynności podczas noszenia trackerów ruchu. Nic. 165,632 Tekst Klasyfikacja 2013 Papieski Uniwersytet Katolicki w Rio de Janeiro
Zestaw danych segmentacji fazy gestów Funkcje wyodrębnione z filmu przedstawiającego ludzi wykonujących różne gesty. Wyodrębnione funkcje mają na celu zbadanie segmentacji faz gestów. 9900 Tekst Klasyfikacja, grupowanie 2014 R. Madeo i in
Zbiór danych dotyczących działań fizycznych Vicon 10 normalnych i 10 agresywnych działań fizycznych, które mierzą aktywność człowieka śledzoną przez tracker 3D. Wiele parametrów rejestrowanych przez tracker 3D. 3000 Tekst Klasyfikacja 2011 T. Theodoridis
Zbiór danych dotyczących codziennych i sportowych aktywności Dane z czujników motorycznych dla 19 codziennych i sportowych aktywności. Podano wiele czujników, bez wstępnego przetwarzania sygnałów. 9120 Tekst Klasyfikacja 2013 B. Barshan i in.
Rozpoznawanie aktywności człowieka przy użyciu zestawu danych smartfonów Dane z żyroskopu i akcelerometru pochodzące od osób noszących smartfony i wykonujących normalne czynności. Wykonywane akcje są oznaczone, a wszystkie sygnały są wstępnie przetworzone pod kątem szumu. 10,299 Tekst Klasyfikacja 2012 J. Reyes-Ortiz i in.
Australijskie znaki języka migowego Znaki australijskiego języka migowego uchwycone przez rękawice do śledzenia ruchu. Nic. 2565 Tekst Klasyfikacja 2002 M. Kadous
Ćwiczenia podnoszenia ciężarów monitorowane za pomocą bezwładnościowych jednostek pomiarowych Pięć wariantów ćwiczenia uginania bicepsa monitorowanych za pomocą IMU. Niektóre statystyki obliczone na podstawie surowych danych. 39 242 Tekst Klasyfikacja 2013 W. Ugulino i in.
sEMG dla podstawowych ruchów dłoni Zestaw danych Dwie bazy danych powierzchniowych sygnałów elektromiograficznych 6 ruchów ręki. Nic. 3000 Tekst Klasyfikacja 2014 C. Sapsanis i in.
Zbiór danych rozpoznawania aktywności REALDISP Ocena technik zajmujących się skutkami przemieszczenia czujnika w rozpoznawaniu aktywności noszonych na ciele. Nic. 1419 Tekst Klasyfikacja 2014 O. Banos i in.
Zbiór danych rozpoznawania aktywności heterogeniczności Dane z wielu różnych inteligentnych urządzeń dla ludzi wykonujących różne czynności. Nic. 43 930 257 Tekst Klasyfikacja, grupowanie 2015 A. Stisen i in.
Przewidywanie ruchu użytkownika w pomieszczeniach na podstawie danych RSS Tymczasowe dane sieci bezprzewodowej, które można wykorzystać do śledzenia ruchu osób w biurze. Nic. 13.197 Tekst Klasyfikacja 2016 D. Bacciu
Zbiór danych monitorowania aktywności fizycznej PAMAP2 18 różnych rodzajów aktywności fizycznej wykonywanych przez 9 osób noszących 3 IMU. Nic. 3 850 505 Tekst Klasyfikacja 2012 A. Reissa
SZANSA Zbiór danych rozpoznawania aktywności Rozpoznawanie aktywności człowieka z czujników do noszenia, obiektów i otoczenia to zestaw danych opracowany w celu porównania algorytmów rozpoznawania aktywności człowieka. Nic. 2551 Tekst Klasyfikacja 2012 D. Roggen i in.
Zestaw danych rozpoznawania aktywności w świecie rzeczywistym Rozpoznawanie aktywności człowieka z urządzeń do noszenia. Rozróżnia siedem pozycji urządzenia na ciele i obejmuje sześć różnych rodzajów czujników. Nic. 3 150 000 (na czujnik) Tekst Klasyfikacja 2016 T. Sztyler i in.
Zestaw danych dotyczących pozycji po udarze w Toronto Rehab Estymacja 3D ludzkiej pozy (Kinect) pacjentów po udarze i zdrowych uczestników wykonujących zestaw zadań za pomocą robota rehabilitacyjnego po udarze. Nic. 10 osób zdrowych i 9 osób po udarze (3500–6000 klatek na osobę) CSV Klasyfikacja 2017 E. Dolatabadi i in.
Corpus of Social Touch (CoST) 7805 gestów rejestruje 14 różnych społecznych gestów dotykowych wykonywanych przez 31 osób. Gesty wykonywano w trzech wariantach: łagodnym, normalnym i szorstkim, na siatce czujnika nacisku owiniętej wokół ramienia manekina. Wykonywane gesty dotykowe są podzielone na segmenty i oznaczone. 7805 przechwytywania gestów CSV Klasyfikacja 2016 M. Jung i in.

Inne sygnały

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zestaw danych wina Analiza chemiczna win uprawianych w tym samym regionie we Włoszech, ale pochodzących z trzech różnych odmian. Podano 13 właściwości każdego wina 178 Tekst Klasyfikacja, regresja 1991 M. Forina i in.
Zestaw danych elektrowni o cyklu kombinowanym Dane z różnych czujników w elektrowni działającej od 6 lat. Nic 9568 Tekst Regresja 2014 P. Tufekci i in.

Dane fizyczne

Zbiory danych z systemów fizycznych.

Fizyka wysokich energii

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zbiór danych HIGGS Symulacje Monte Carlo zderzeń akceleratorów cząstek. Podano 28 cech każdej kolizji. 11M Tekst Klasyfikacja 2014 D. Whiteson
Zbiór danych HEPMASS Symulacje Monte Carlo zderzeń akceleratorów cząstek. Celem jest oddzielenie sygnału od szumu. Podano 28 cech każdej kolizji. 10 500 000 Tekst Klasyfikacja 2016 D. Whiteson

Systemy

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zbiór danych hydrodynamiki jachtu Osiągi jachtu na podstawie wymiarów. Dla każdego jachtu podano sześć cech. 308 Tekst Regresja 2013 R. Lopez
Zbiór danych o błędach wykonania robota 5 zestawów danych, które skupiają się na niepowodzeniu robotów w wykonywaniu typowych zadań. Funkcje o wartościach całkowitych, takie jak moment obrotowy i inne pomiary czujników. 463 Tekst Klasyfikacja 1999 L. Seabra i in.
Zbiór danych mostów Pittsburgh Opis projektu podano w odniesieniu do kilku właściwości różnych mostów. Podano różne cechy mostu. 108 Tekst Klasyfikacja 1990 Y. Reich i in.
Zestaw danych samochodowych Dane o samochodach, ich ryzyku ubezpieczeniowym i ich znormalizowanych stratach. Wyodrębnione cechy samochodu. 205 Tekst Regresja 1987 J. Schimmer i in.
Zestaw danych Auto MPG Dane MPG dla samochodów. Podano osiem cech każdego samochodu. 398 Tekst Regresja 1993 Carnegie Mellon University
Zestaw danych dotyczących efektywności energetycznej Zapotrzebowanie na ogrzewanie i chłodzenie podane w funkcji parametrów budynku. Podane parametry budynku. 768 Tekst Klasyfikacja, regresja 2012 A. Xifara i in.
Zestaw danych o hałasie własnym płata Seria badań aerodynamicznych i akustycznych dwu- i trójwymiarowych przekrojów płata. Podano dane o częstotliwości, kącie natarcia itp. 1503 Tekst Regresja 2014 R. Lopez
Zestaw danych o pierścieniu uszczelniającym Challenger USA promu kosmicznego Próba przewidzenia problemów z pierścieniami uszczelniającymi na podstawie wcześniejszych danych firmy Challenger. Podano kilka cech każdego lotu, takich jak temperatura startu. 23 Tekst Regresja 1993 D. Draper i in.
Zbiór danych Statlog (wahadłowy) Zbiory danych promu kosmicznego NASA. Podano dziewięć funkcji. 58 000 Tekst Klasyfikacja 2002 NASA

Astronomia

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Wulkany na Wenus – eksperyment JARtool Dataset Obrazy Wenus zwrócone przez sondę Magellan. Obrazy są znakowane przez ludzi. Nie podarowany Obrazy Klasyfikacja 1991 M. Burl
Zestaw danych teleskopu MAGIC Gamma Monte Carlo wygenerowało zdarzenia wysokoenergetycznych cząstek gamma. Liczne cechy wyodrębnione z symulacji. 19.020 Tekst Klasyfikacja 2007 R. Bock
Zestaw danych dotyczących rozbłysków słonecznych Pomiary liczby określonych rodzajów rozbłysków słonecznych występujących w okresie doby. Podano wiele cech charakterystycznych dla rozbłysku słonecznego. 1389 Tekst Regresja, klasyfikacja 1989 G. Bradshaw

Nauka o Ziemi

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Wulkany Świata Dane o erupcjach wulkanów dla wszystkich znanych zdarzeń wulkanicznych na Ziemi. Podano szczegóły, takie jak region, podregion, otoczenie tektoniczne, dominujący typ skały. 1535 Tekst Regresja, klasyfikacja 2013 E. Venzke i in.
Zestaw danych o wstrząsach sejsmicznych Aktywności sejsmiczne z kopalni węgla. Aktywność sejsmiczna została sklasyfikowana jako niebezpieczna lub nie. 2584 Tekst Klasyfikacja 2013 M. Sikora i in.
Wielbłądy -USA Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami patrz Odniesienie 671 CSV, tekst, plik kształtu Regresja 2017 N. Addor i in. / A. Newman i in.
Wielbłądy-Chile Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami patrz Odniesienie 516 CSV, tekst, plik kształtu Regresja 2018 C. Alvarez-Garreton i in.
Wielbłądy-Brazylia Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami patrz Odniesienie 897 CSV, tekst, plik kształtu Regresja 2020 V. Chagas i in.
Wielbłądy-GB Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami patrz Odniesienie 671 CSV, tekst, plik kształtu Regresja 2020 G. Coxon i in.
Wielbłądy-Australia Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami patrz Odniesienie 222 CSV, tekst, plik kształtu Regresja 2021 K. Fowler i in.
LamaH -CE Zbiór danych hydrologicznych zlewni z hydrometeorologicznymi szeregami czasowymi i różnymi atrybutami patrz Odniesienie 859 CSV, tekst, plik kształtu Regresja 2021 C. Klingler i in.

Inne fizyczne

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zestaw danych dotyczących wytrzymałości betonu na ściskanie Zestaw danych właściwości betonu i wytrzymałości na ściskanie. Dla każdej próbki podano dziewięć cech. 1030 Tekst Regresja 2007 I. Yeh
Zbiór danych z testu opadu betonu Opad opadowy betonu podany w kategoriach właściwości. Podane cechy betonu takie jak popiół lotny, woda itp. 103 Tekst Regresja 2009 I. Yeh
Zbiór danych piżma Wytypuj, czy cząsteczka o określonych cechach będzie piżmem, czy nie piżmem. Dla każdej cząsteczki podano 168 cech. 6598 Tekst Klasyfikacja 1994 Arris Pharmaceutical Corp.
Zestaw danych dotyczących usterek płyt stalowych Płyty stalowe 7 różnych typów. Dla każdej próbki podano 27 cech. 1941 Tekst Klasyfikacja 2010 Centrum Badań Semeion

Dane biologiczne

Zbiory danych z systemów biologicznych.

Człowiek

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Baza danych EEG Badanie mające na celu zbadanie korelatów EEG predyspozycji genetycznych do alkoholizmu. Pomiary z 64 elektrod umieszczonych na skórze głowy próbkowano z częstotliwością 256 Hz (epoka 3,9 ms) przez 1 sekundę. 122 Tekst Klasyfikacja 1999 H. Begleiter
Zestaw danych interfejsu P300 Dane od dziewięciu osób zebrane przy użyciu interfejsu mózg-komputer opartego na P300 dla osób niepełnosprawnych. Podziel się na cztery sesje dla każdego tematu. Podano kod MATLAB . 1224 Tekst Klasyfikacja 2008 U. Hoffman i in.
Zestaw danych dotyczących chorób serca Przypisywane pacjentom z chorobami serca i bez. 75 atrybutów podanych dla każdego pacjenta z pewnymi brakującymi wartościami. 303 Tekst Klasyfikacja 1988 A. Janosi i in.
Zbiór danych dotyczących raka piersi w stanie Wisconsin (diagnostyka) Zbiór danych cech mas piersi. Podana jest diagnoza lekarza. Podano 10 cech dla każdej próbki. 569 Tekst Klasyfikacja 1995 W. Wolberg i in.
Krajowa ankieta na temat używania narkotyków i zdrowia Badanie na dużą skalę dotyczące zdrowia i używania narkotyków w Stanach Zjednoczonych. Nic. 55 268 Tekst Klasyfikacja, regresja 2012 Departament Zdrowia i Opieki Społecznej Stanów Zjednoczonych
Zbiór danych dotyczących raka płuc Zbiór danych raka płuc bez definicji atrybutów Dla każdego przypadku podano 56 funkcji 32 Tekst Klasyfikacja 1992 Z. Hong i in.
Zestaw danych arytmii Dane dla grupy pacjentów, z których niektórzy mają arytmię serca. 276 funkcji dla każdej instancji. 452 Tekst Klasyfikacja 1998 H. Altay i in.
Cukrzyca 130 szpitali w USA za lata 1999-2008 Zbiór danych Dane o readmisji z 9 lat w 130 szpitalach w USA dla pacjentów z cukrzycą. Podano wiele cech każdego readmisji. 100 000 Tekst Klasyfikacja, grupowanie 2014 J. Clore i in.
Zbiór danych dotyczących retinopatii cukrzycowej w Debreczynie Cechy wyodrębnione z obrazów oczu z retinopatią cukrzycową i bez niej. Wyodrębnione cechy i zdiagnozowane stany. 1151 Tekst Klasyfikacja 2014 B. Antal i in.
Retinopatia cukrzycowa Zbiór danych Messidora Metody oceny technik segmentacji i indeksowania w zakresie okulistyki siatkówkowej (MESSIDOR) Charakteryzuje się stopniem retinopatii i ryzykiem obrzęku plamki 1200 Obrazy, tekst Klasyfikacja, segmentacja 2008 Projekt Messidor
Zbiór danych dotyczących zaburzeń wątroby Dane dla osób z chorobami wątroby. Dla każdego pacjenta podano siedem cech biologicznych. 345 Tekst Klasyfikacja 1990 Bupa Medical Research Sp.
Zbiór danych dotyczących chorób tarczycy 10 baz danych pacjentów z chorobami tarczycy. Nic. 7200 Tekst Klasyfikacja 1987 R. Quinlan
Zbiór danych międzybłoniaka Dane pacjenta Mesothelioma. Podano dużą liczbę cech, w tym ekspozycję na azbest. 324 Tekst Klasyfikacja 2016 A. Tanrikulu i in.
Oparty na wizji zbiór danych szacowania pozycji Parkinsona Szacunki 2D ludzkiej pozy pacjentów z chorobą Parkinsona wykonujących różne zadania. Z trajektorii usunięto drgania kamery. 134 Tekst Klasyfikacja, regresja 2017 M. Li i in.
Zbiór danych sieci reakcji metabolicznych KEGG (nieskierowany) Sieć szlaków metabolicznych. Podano sieć reakcji i sieć relacji . Podano szczegółowe funkcje dla każdego węzła sieci i ścieżki. 65 554 Tekst Klasyfikacja, grupowanie, regresja 2011 M. Naeem i in.
Zmodyfikowany zestaw danych analizy morfologii ludzkiego nasienia (MHSMA) Obrazy ludzkich plemników od 235 pacjentów z niepłodnością czynnika męskiego, oznaczonych jako prawidłowy lub nieprawidłowy akrosom plemnika, głowa, wakuola i ogon. Przycięte wokół pojedynczej główki plemnika. Znormalizowane powiększenie. Utworzono podziały zestawów testowych, walidacyjnych i szkoleniowych. 1540 pliki .npy Klasyfikacja 2019 S. Javadi i SA Mirroshandel

Zwierzę

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zbiór danych Abalone Fizyczne pomiary Abalone. Podane są również wzorce pogodowe i lokalizacja. Nic. 4177 Tekst Regresja 1995 Morskie Laboratoria Badawcze – Taroona
Zbiór danych zoo Sztuczny zbiór danych obejmujący 7 klas zwierząt. Zwierzęta są podzielone na 7 kategorii i dla każdej podane są cechy. 101 Tekst Klasyfikacja 1990 R. Forsyth
Zbiór danych Demospongiae Dane dotyczące gąbek morskich. 503 gąbki w klasie Demosponge są opisane różnymi cechami. 503 Tekst Klasyfikacja 2010 E. Armengol i in.
Zbiór danych sekwencji genów w połączeniu splicingowym Sekwencje genów splicingu naczelnych (DNA) z powiązaną teorią niedoskonałych domen. Nic. 3190 Tekst Klasyfikacja 1992 G. Towell i in.
Zestaw danych dotyczących ekspresji białek myszy Poziomy ekspresji 77 białek mierzone w korze mózgowej myszy. Nic. 1080 Tekst Klasyfikacja, klastrowanie 2015 C. Higuera i in.

Grzyby

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zbiór danych grzybów UCI Atrybuty i klasyfikacja grzybów. Podano wiele właściwości każdego grzyba. 8124 Tekst Klasyfikacja 1987 J. Schlimmer
Wtórny zbiór danych grzybów Atrybuty i klasyfikacja grzybów Symulowane dane z większych i bardziej realistycznych wpisów grzybów pierwotnych. W pełni powtarzalne. 61069 Tekst Klasyfikacja 2020 D. Wagner i in.

Zakład

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zbiór danych o pożarach lasów Pożary lasów i ich właściwości. Wyodrębniono 13 cech każdego pożaru. 517 Tekst Regresja 2008 P. Cortez i in.
Zbiór danych tęczówki Trzy rodzaje irysów są opisane przez 4 różne atrybuty. Nic. 150 Tekst Klasyfikacja 1936 R. Fisher
Zbiór danych o gatunkach roślin Szesnaście próbek liścia ze stu gatunków roślin. Podawany jest deskryptor kształtu, margines o małej skali i histogramy tekstury. 1600 Tekst Klasyfikacja 2012 J. Cope i in.
Zbiór danych soi Baza danych chorych roślin soi. Podano 35 cech dla każdej rośliny. Rośliny są podzielone na 19 kategorii. 307 Tekst Klasyfikacja 1988 R. Michalski i in.
Zbiór danych nasion Pomiary właściwości geometrycznych ziarniaków trzech różnych odmian pszenicy. Nic. 210 Tekst Klasyfikacja, grupowanie 2012 Charytanowicz i in.
Zbiór danych typu okładki Dane do prognozowania typu lesistości ściśle ze zmiennych kartograficznych. Podano wiele cech geograficznych. 581.012 Tekst Klasyfikacja 1998 J. Blackard i in.
Zestaw danych sieci sygnalizacyjnej kwasu abscysynowego Dane dla zakładowej sieci sygnalizacyjnej. Celem jest określenie zestawu reguł rządzących siecią. Nic. 300 Tekst Odkrycie przyczynowe 2008 J. Jenkens i in.
Zestaw danych folio 20 zdjęć liści dla każdego z 32 gatunków. Nic. 637 Obrazy, tekst Klasyfikacja, grupowanie 2015 T. Munisami i in.
Oksfordzki zbiór danych kwiatowych Zestaw danych 17 kategorii kwiatów. Podziały trenowania/testowania, obrazy z etykietami, 1360 Obrazy, tekst Klasyfikacja 2006 ME Nilsback i in.
Zestaw danych sadzonek roślin Zestaw danych 12 kategorii sadzonek roślin. Obrazy z etykietami, obrazy podzielone na segmenty, 5544 Obrazy Klasyfikacja, wykrywanie 2017 Giselsson i in.
Zbiór danych Owoce 360 Baza danych ze zdjęciami 120 owoców i warzyw. 100x100 pikseli, białe tło. 82213 Obrazy (jpg) Klasyfikacja 2017–2019 Mihai Oltean, Horea Muresan

Mikrob

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zbiór danych Ecoli Miejsca lokalizacji białek. Podano różne cechy miejsc lokalizacji białek. 336 Tekst Klasyfikacja 1996 K. Nakai i in.
Zbiór danych MicroMass Identyfikacja mikroorganizmów na podstawie danych spektrometrii masowej. Różne funkcje spektrometru mas. 931 Tekst Klasyfikacja 2013 P. Mahe i in.
Zbiór danych drożdży Przewidywanie miejsc lokalizacji komórkowej białek. Osiem funkcji podanych na instancję. 1484 Tekst Klasyfikacja 1996 K. Nakai i in.

Odkrycie narkotyków

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zbiór danych Tox21 Przewidywanie wyników testów biologicznych. Podano deskryptory chemiczne cząsteczek. 12707 Tekst Klasyfikacja 2016 A. Mayr i in.

Dane anomalii

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Test porównawczy anomalii Numenta (NAB) Dane są uporządkowane, oznaczone sygnaturą czasową, jednowartościowe. Wszystkie pliki danych zawierają anomalie, chyba że zaznaczono inaczej. Nic 50+ plików Wartości oddzielone przecinkami Wykrywanie anomalii 2016 (stale aktualizowane) Numenta
Wskaźnik anomalii Skoltech (SKAB) Każdy plik reprezentuje pojedynczy eksperyment i zawiera pojedynczą anomalię. Zestaw danych reprezentuje wielowymiarowe szeregi czasowe zebrane z czujników zainstalowanych na stanowisku testowym. Istnieją dwa znaczniki problemów z wykrywaniem wartości odstających (anomalie punktowe) i wykrywaniem punktu zmiany (anomalie zbiorcze). 30+ plików (v0.9) Wartości oddzielone przecinkami Wykrywanie anomalii 2020 (stale aktualizowane)

Iurii D. Katser i Wiaczesław O. Kozitsin
O ocenie nienadzorowanego wykrywania wartości odstających: miary, zbiory danych i badanie empiryczne Większość plików danych jest adaptowana z danych z repozytorium uczenia maszynowego UCI, niektóre są zbierane z literatury. traktowane pod kątem braków danych, tylko atrybuty liczbowe, różne procenty anomalii, etykiety 1000+ plików ARFF Wykrywanie anomalii 2016 (ewentualnie zaktualizowany o nowe zbiory danych i/lub wyniki)

Campos i in.

Dane dotyczące odpowiedzi na pytania

Ta sekcja zawiera zbiory danych, które dotyczą danych strukturalnych.

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zbiór danych DBpedia Neural Question Answering (DBNQA) Duży zbiór pytań do SPARQL specjalnie zaprojektowanych do odpowiedzi na pytania w trybie Open Domain Neural w bazie wiedzy DBpedia. Ten zestaw danych zawiera duży zbiór szablonów Open Neural SPARQL i instancji do uczenia maszyn Neural SPARQL; został wstępnie przetworzony przez półautomatyczne narzędzia do adnotacji, a także przez trzech ekspertów SPARQL. 894 499 Pary pytanie-zapytanie Odpowiedzi na pytania 2018 Hartmann, Soru i Marx i in.
Zestaw danych dotyczących odpowiedzi na pytania wietnamskie (UIT-ViQuAD) Duży zbiór pytań wietnamskich do oceny modeli MRC. Ten zbiór danych zawiera ponad 23 000 par pytania-odpowiedź wygenerowanych przez człowieka na podstawie 5109 fragmentów 174 wietnamskich artykułów z Wikipedii. 23 074 Pary pytanie-odpowiedź Odpowiedzi na pytania 2020 Nguyen i in.
Wietnamski korpus do czytania ze zrozumieniem wielokrotnego wyboru (ViMMRC) Zbiór wietnamskich pytań wielokrotnego wyboru do oceny modeli MRC. Ten zbiór zawiera 2783 wietnamskich pytań wielokrotnego wyboru. 2783 Pary pytanie-odpowiedź Odpowiadanie na pytania / czytanie maszynowe ze zrozumieniem 2020 Nguyen i in.

Dane wielowymiarowe

Zbiory danych składające się z wierszy obserwacji i kolumn atrybutów charakteryzujących te obserwacje. Zwykle używane do analizy lub klasyfikacji regresji, ale można również stosować inne rodzaje algorytmów. Ta sekcja zawiera zbiory danych, które nie pasują do powyższych kategorii.

Budżetowy

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Indeks Dow Jones Tygodniowe dane stanów z I i II kwartału 2011 roku. Obliczone wartości obejmowały takie jak zmiana procentowa i opóźnienia. 750 Wartości oddzielone przecinkami Klasyfikacja, regresja, szeregi czasowe 2014 M. Brown i in.
Statlog (australijska aprobata kredytowa) Wnioski o karty kredytowe zaakceptowane lub odrzucone oraz atrybuty dotyczące wniosku. Nazwy atrybutów są usuwane, podobnie jak informacje identyfikujące. Czynniki zostały przemianowane. 690 Wartości oddzielone przecinkami Klasyfikacja 1987 R. Quinlan
Dane aukcji eBay Dane aukcji z różnych obiektów eBay.com na aukcjach o różnej długości Zawiera wszystkie oferty, identyfikator oferenta, czasy składania ofert i ceny otwarcia. ~ 550 Tekst Regresja, klasyfikacja 2012 G. Shmueli i in.
Statlog (dane kredytowe w Niemczech) Klasyfikacja kredytów binarnych na „dobry” lub „zły” z wieloma cechami Podano różne cechy finansowe każdej osoby. 690 Tekst Klasyfikacja 1994 H. Hofmanna
Bankowy zbiór danych marketingowych Dane z dużej kampanii marketingowej przeprowadzonej przez duży bank. Podano wiele atrybutów kontaktowanych klientów. Jeśli klient zapisał się do banku jest również podany. 45,211 Tekst Klasyfikacja 2012 S. Moro i in.
Zbiór danych giełdy w Stambule Kilka indeksów giełdowych śledzonych przez prawie dwa lata. Nic. 536 Tekst Klasyfikacja, regresja 2013 O. Akbilgic
Niewypłacalność klientów kart kredytowych Dane dotyczące niewypłacalności wierzycieli tajwańskich. Podane są różne funkcje dotyczące każdego konta. 30 000 Tekst Klasyfikacja 2016 I. Yeh

Pogoda

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zestaw danych w chmurze Dane o 1024 różnych chmurach. Wyodrębnione cechy obrazu. 1024 Tekst Klasyfikacja, grupowanie 1989 P. Collard
Zbiór danych El Nino Oceanograficzne i powierzchniowe odczyty meteorologiczne z szeregu boj rozmieszczonych na całym równikowym Pacyfiku. Przy każdej bojce mierzonych jest 12 atrybutów pogodowych. 178080 Tekst Regresja 1999 Laboratorium Środowiska Morskiego Pacyfiku
Zbiór danych sieci obserwacji gazów cieplarnianych Szeregi czasowe stężeń gazów cieplarnianych w 2921 komórkach siatki w Kalifornii utworzone przy użyciu symulacji pogody. Nic. 2921 Tekst Regresja 2015 D. Lucas
Atmosferyczny CO2 z ciągłych próbek powietrza w Obserwatorium Mauna Loa Ciągłe próbki powietrza na Hawajach, USA. 44 lata rekordów. Nic. 44 lata Tekst Regresja 2001 Obserwatorium Mauna Loa
Zbiór danych jonosfery Dane radarowe z jonosfery. Zadanie polega na podzieleniu na dobre i złe zwroty radarowe. Podano wiele funkcji radaru. 351 Tekst Klasyfikacja 1989 Uniwersytet Johna Hopkinsa
Zestaw danych wykrywania poziomu ozonu Dwa zestawy danych na temat poziomu ozonu naziemnego. Podano wiele funkcji, w tym warunki pogodowe w czasie pomiaru. 2536 Tekst Klasyfikacja 2008 K. Zhang i in.

Spis ludności

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zbiór danych dla dorosłych Dane spisowe z 1994 r. zawierające cechy demograficzne dorosłych i ich dochody. Oczyszczone i zanonimizowane. 48 842 Wartości oddzielone przecinkami Klasyfikacja 1996 Biuro Spisu Ludności Stanów Zjednoczonych
Dochód ze spisu ludności (KDD) Ważone dane ze spisu powszechnego z Aktualnych Badań Populacyjnych z 1994 i 1995 roku . Podziel na zestawy treningowe i testowe. 299 285 Wartości oddzielone przecinkami Klasyfikacja 2000 Biuro Spisu Ludności Stanów Zjednoczonych
Baza danych spisu ludności IPUMS Dane ze spisu ludności z obszarów Los Angeles i Long Beach. Nic 256 932 Tekst Klasyfikacja, regresja 1999 IPUMY
Dane ze spisu powszechnego USA 1990 Częściowe dane ze spisu powszechnego USA z 1990 roku. Wyniki randomizowane i wybrane przydatne atrybuty. 2 458 285 Tekst Klasyfikacja, regresja 1990 Biuro Spisu Ludności Stanów Zjednoczonych

Tranzyt

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Rowerowy zestaw danych do udostępniania Godzinowa i dzienna liczba wypożyczonych rowerów w dużym mieście. Podano wiele funkcji, w tym pogodę, długość podróży itp. 17.389 Tekst Regresja 2013 H. Fanaee-T
Dane podróży taksówką w Nowym Jorku Dane podróży dla żółtych i zielonych taksówek w Nowym Jorku. Podaje miejsca odbioru i dowozu, taryfy i inne szczegóły podróży. 6 lat Tekst Klasyfikacja, grupowanie 2015 Komisja ds. taksówek i limuzyn w Nowym Jorku
Trajektoria usług taksówkowych ECML PKDD Trajektorie wszystkich taksówek w dużym mieście. Podano wiele funkcji, w tym punkty początkowe i końcowe. 1 710 671 Tekst Grupowanie, odkrywanie przyczyn 2015 M. Ferreira i in.
METR-LA Prędkość z detektorów pętli na autostradzie hrabstwa Los Angeles. Średnia prędkość w krokach 5 minutowych. 7 094 304 z 207 czujników i 34 272 kroki czasowe Wartości oddzielone przecinkami Regresja, Prognozowanie 2014 Jagadish i in.
PeMS Prędkość, przepływ, obłożenie i inne wskaźniki z detektorów pętli i innych czujników na autostradzie stanu Kalifornia w USA. Metryka zwykle agregowana za pomocą średniej w 5-minutowych przedziałach czasowych. 39 000 pojedynczych detektorów, z których każdy zawiera lata szeregów czasowych Wartości oddzielone przecinkami Regresja, Prognozowanie, Nowcasting, Interpolacja (aktualizacja w czasie rzeczywistym) Kalifornijski Departament Transportu

Internet

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Strony internetowe z Common Crawl 2012 Duży zbiór stron internetowych i sposób ich łączenia za pomocą hiperłączy Nic. 3.5B Tekst grupowanie, klasyfikacja 2013 V. Granville
Zbiór danych o reklamach internetowych Zestaw danych do przewidywania, czy dany obraz jest reklamą, czy nie. Funkcje kodują geometrię reklam i fraz występujących w adresie URL. 3279 Tekst Klasyfikacja 1998 N. Kushmerick
Zbiór danych dotyczących korzystania z Internetu Ogólna demografia internautów. Nic. 10,104 Tekst Klasyfikacja, grupowanie 1999 D. Kucharz
Zbiór danych URL 120 dni danych URL z dużej konferencji. Podano wiele funkcji każdego adresu URL. 2 396 130 Tekst Klasyfikacja 2009 J. Ma
Zbiór danych witryn phishingowych Zbiór danych stron phishingowych. Podano wiele funkcji każdej witryny. 2456 Tekst Klasyfikacja 2015 R. Mustafa i in.
Internetowy zestaw danych detalicznych Transakcje online dla brytyjskiego sprzedawcy internetowego. Podano szczegóły każdej transakcji. 541 909 Tekst Klasyfikacja, grupowanie 2015 D. Chen
Prosty zrzut tematu Freebase Freebase to wysiłek online mający na celu uporządkowanie całej ludzkiej wiedzy. Tematy z Freebase zostały wyodrębnione. duży Tekst Klasyfikacja, grupowanie 2011 Wolna baza
Zbiór danych reklam rolniczych Tekst reklam rolniczych ze stron internetowych. Podano zatwierdzenie lub odrzucenie plików binarnych przez właścicieli treści. Obliczono rzadkie wektory słów tekstowych w reklamach SVMlight. 4143 Tekst Klasyfikacja 2011 C. Masterharm i in.

Gry

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zestaw danych rozdań pokerowych 5 kart ze standardowej talii 52 kart. Podane są atrybuty każdego rozdania, łącznie z rozdaniami pokera utworzonymi przez zawarte w nim karty. 1,025,010 Tekst Regresja, klasyfikacja 2007 R. Cattral
Zestaw danych Connect-4 Zawiera wszystkie legalne 8-warstwowe pozycje w grze connect-4, w których żaden z graczy jeszcze nie wygrał i w których następny ruch nie jest wymuszony. Nic. 67 557 Tekst Klasyfikacja 1995 J. Tromp
Szachy (Król-wieża kontra król) Zbiór danych Końcowa baza danych dla Białego Króla i Wieży przeciwko Czarnemu Królowi. Nic. 28 056 Tekst Klasyfikacja 1994 M. Bain i in.
Szachy (wieża królewska kontra pionek królewski) Król+wieża kontra król+pionek na a7. Nic. 3196 Tekst Klasyfikacja 1989 R. Holte
Zestaw danych gry końcowej w kółko i krzyżyk Klasyfikacja binarna warunków zwycięstwa w grze kółko i krzyżyk. Nic. 958 Tekst Klasyfikacja 1991 D. Aha

Inne wielowymiarowe

Nazwa zbioru danych Krótki opis Przetwarzanie wstępne Instancje Format Zadanie domyślne Utworzono (zaktualizowano) Referencja Twórca
Zestaw danych mieszkaniowych Mediana wartości domu w Bostonie z powiązanymi atrybutami domu i okolicy. Nic. 506 Tekst Regresja 1993 D. Harrison i in.
Słowniki Getty ustrukturyzowana terminologia dotycząca sztuki i innej kultury materialnej, materiałów archiwalnych, wizualnych surogatów i materiałów bibliograficznych. Nic. duży Tekst Klasyfikacja 2015 Centrum Getty
Wieśniak! Strona główna Dzisiaj Moduł Użytkownik Kliknij Dziennik Dziennik kliknięć użytkownika dla artykułów z wiadomościami wyświetlanymi na karcie Polecane modułu Dzisiaj w Yahoo! Pierwsza strona. Analiza połączona z modelem dwuliniowym. 45 811 883 odwiedzin użytkowników Tekst Regresja, grupowanie 2009 Chu i in.
Brytyjskie Centrum Danych Oceanograficznych Dane biologiczne, chemiczne, fizyczne i geofizyczne oceanów. Śledzone zmienne 22K. Różny. 22K zmiennych, wiele instancji Tekst Regresja, grupowanie 2015 Brytyjskie Centrum Danych Oceanograficznych
Zbiór danych dotyczących rekordów głosowania w Kongresie Dane do głosowania dla wszystkich przedstawicieli USA w 16 kwestiach. Oprócz surowych danych głosowania dostępne są różne inne funkcje. 435 Tekst Klasyfikacja 1987 J. Schlimmer
Zestaw danych rekomendacji Entree Chicago Rejestr interakcji użytkowników z systemem rekomendacji Entree Chicago. Szczegóły dotyczące korzystania z aplikacji przez każdego użytkownika są szczegółowo rejestrowane. 50 672 Tekst Regresja, rekomendacja 2000 R. Burke
Benchmark Towarzystwa Ubezpieczeniowego (COIL 2000) Informacje o klientach firmy ubezpieczeniowej. Wiele cech każdego klienta i usług, z których korzysta. 9000 Tekst Regresja, klasyfikacja 2000 P. van der Putten
Zbiór danych żłobka Dane od wnioskodawców do przedszkoli. Uwzględniono dane dotyczące rodziny wnioskodawcy i różnych innych czynników. 12,960 Tekst Klasyfikacja 1997 V. Rajkovic i in.
Zbiór danych uniwersyteckich Dane opisujące przypisaną dużą liczbę uczelni. Nic. 285 Tekst Klastrowanie, klasyfikacja 1988 S. Sounders i in.
Zbiór danych centrum usług transfuzji krwi Dane z centrum usług transfuzji krwi. Podaje dane dotyczące stopy zwrotu dawców, częstotliwości itp. Nic. 748 Tekst Klasyfikacja 2008 I. Yeh
Rejestruj wzorce porównywania powiązań zestaw danych Duży zbiór rekordów. Zadaniem jest powiązanie ze sobą odpowiednich rekordów. Procedura blokowania stosowana w celu wybrania tylko określonych par rekordów. 5 749 132 Tekst Klasyfikacja 2011 Uniwersytet w Moguncji
Zbiór danych Nomao Nomao zbiera dane o miejscach z wielu różnych źródeł. Zadaniem jest wykrycie przedmiotów, które opisują to samo miejsce. Oznakowane duplikaty. 34 465 Tekst Klasyfikacja 2012 Laboratoria Nomao
Zbiór danych filmu Dane dla 10 000 filmów. Podano kilka funkcji dla każdego filmu. 10 000 Tekst Klastrowanie, klasyfikacja 1999 G. Wiederhold
Zbiór danych analitycznych Open University Learning Informacje o uczniach i ich interakcjach z wirtualnym środowiskiem nauki. Nic. ~ 30 000 Tekst Klasyfikacja, grupowanie, regresja 2015 J. Kuzilek i in.
Rejestry telefonów komórkowych Działalność telekomunikacyjna i interakcje Agregacja według komórek siatki geograficznej i co 15 minut. duży Tekst Klasyfikacja, klastrowanie, regresja 2015 G. Barlacchi i in.

Kuratorowane repozytoria zbiorów danych

Ponieważ zestawy danych są dostępne w niezliczonych formatach i czasami mogą być trudne w użyciu, włożono wiele pracy w opracowywanie i standaryzację formatu zestawów danych, aby ułatwić ich wykorzystanie w badaniach nad uczeniem maszynowym.

  • OpenML: platforma internetowa z Python, R, Java i innymi interfejsami API do pobierania setek zestawów danych uczenia maszynowego, oceny algorytmów w zestawach danych i porównywania wydajności algorytmów z dziesiątkami innych algorytmów.
  • PMLB: Duże, wyselekcjonowane repozytorium zestawów danych porównawczych do oceny nadzorowanych algorytmów uczenia maszynowego. Udostępnia zestawy danych klasyfikacji i regresji w standardowym formacie, który jest dostępny za pośrednictwem interfejsu API języka Python.
  • Metatext NLP: https://metatext.io/datasets repozytorium internetowe utrzymywane przez społeczność, zawierające prawie 1000 zestawów danych porównawczych i liczone. Zapewnia wiele zadań od klasyfikacji po QA i różne języki od angielskiego, portugalskiego po arabski.
  • Appen : Off The Shelf i Open Source Dataset hostowane i utrzymywane przez firmę. Te biologiczne, obrazowe, fizyczne, odpowiedzi na pytania, sygnały, dźwięk, tekst i wideo liczą ponad 250 i mogą być stosowane w ponad 25 różnych przypadkach użycia.

Zobacz też

Bibliografia