Duże zbiory danych - Big data

Wzrost i cyfryzacja globalnej pojemności informacyjno-magazynowej

Big data to dziedzina, która zajmuje się sposobami analizowania, systematycznego wydobywania informacji lub innego postępowania z zestawami danych, które są zbyt duże lub zbyt złożone, aby mogły być obsługiwane przez tradycyjne aplikacje do przetwarzania danych . Dane z wieloma polami (kolumnami) oferują większą moc statystyczną , podczas gdy dane o większej złożoności (więcej atrybutów lub kolumn) mogą prowadzić do wyższego współczynnika fałszywych odkryć . Wielkie wyzwania analizy danych obejmują przechwytywania danych , przechowywanie danych , analizy danych , wyszukiwanie, udostępnianie , przesyłanie , wizualizację , zapytań , uaktualnianie informacji prywatność i źródła danych. Big data pierwotnie była kojarzona z trzema kluczowymi pojęciami: objętość , różnorodność i prędkość . Analiza big data stanowi wyzwanie w próbkowaniu, a więc wcześniej dopuszczała jedynie obserwacje i próbkowanie. Dlatego duże zbiory danych często zawierają dane o rozmiarach przekraczających możliwości przetwarzania tradycyjnego oprogramowania w akceptowalnym czasie i wartości .

Aktualny użycie terminu dużych danych zazwyczaj odnoszą się do wykorzystania analiz predykcyjnych , analityki zachowań użytkowników lub niektórych innych zaawansowanych metod analitycznych danych, że ekstrakt wartość od dużych danych, a rzadko do określonej wielkości zbioru danych. „Nie ma wątpliwości, że ilości dostępnych obecnie danych są rzeczywiście duże, ale nie jest to najważniejsza cecha tego nowego ekosystemu danych”. Analiza zbiorów danych może znaleźć nowe korelacje, aby „dostrzegać trendy biznesowe, zapobiegać chorobom, zwalczać przestępczość i tak dalej”. Naukowcy, dyrektorzy biznesowi, lekarze, reklama i rządy regularnie napotykają trudności z dużymi zbiorami danych w obszarach takich jak wyszukiwanie w Internecie , fintech , analityka opieki zdrowotnej, systemy informacji geograficznej, informatyka miejska i informatyka biznesowa . Naukowcy napotykają ograniczenia w pracy z e-nauką , w tym meteorologię , genomikę , konektomikę , złożone symulacje fizyki, biologię i badania środowiskowe.

Wielkość i liczba dostępnych zbiorów danych gwałtownie rosła w miarę gromadzenia danych przez urządzenia takie jak urządzenia mobilne , tanie i liczne urządzenia Internetu rzeczy , anteny ( teledetekcja ), logi oprogramowania, kamery , mikrofony, identyfikacja radiowa (RFID) czytniki i bezprzewodowe sieci czujników . Od lat 80. światowa technologiczna zdolność przechowywania informacji na mieszkańca podwajała się co 40 miesięcy; od 2012 r. codziennie generowane jest 2,5 eksabajta (2,5×2 60 bajtów) danych. Na podstawie prognozy raportu IDC przewidywano, że globalna ilość danych wzrośnie wykładniczo z 4,4 zetabajtów do 44 zetabajtów w latach 2013-2020. IDC przewiduje, że do 2025 r. będzie 163 zetabajty danych. Jednym z pytań dla dużych przedsiębiorstw jest ustalenie, kto powinien posiadać inicjatywy big data, które mają wpływ na całą organizację.

Systemy zarządzania relacyjnymi bazami danych i komputerowe pakiety oprogramowania statystycznego używane do wizualizacji danych często mają trudności z przetwarzaniem i analizowaniem dużych zbiorów danych. Przetwarzanie i analiza dużych zbiorów danych może wymagać „masowo równoległego oprogramowania działającego na dziesiątkach, setkach, a nawet tysiącach serwerów”. To, co kwalifikuje się jako „big data”, różni się w zależności od możliwości osób je analizujących i ich narzędzi. Co więcej, rozszerzające się możliwości sprawiają, że big data staje się ruchomym celem. „W niektórych organizacjach po raz pierwszy zmierzenie się z setkami gigabajtów danych może spowodować konieczność ponownego rozważenia opcji zarządzania danymi. W innych może upłynąć dziesiątki lub setki terabajtów, zanim rozmiar danych stanie się istotnym czynnikiem”.

Definicja

Termin big data jest używany od lat 90. XX wieku, a niektórzy przypisują zasługę Johnowi Masheyowi za spopularyzowanie tego terminu. Big data zazwyczaj obejmuje zestawy danych o rozmiarach przekraczających możliwości powszechnie używanych narzędzi programowych do przechwytywania , przechowywania , zarządzania i przetwarzania danych w tolerowanym czasie. Filozofia big data obejmuje dane nieustrukturyzowane, częściowo ustrukturyzowane i ustrukturyzowane, jednak główny nacisk kładzie się na dane nieustrukturyzowane. „Rozmiar” dużych zbiorów danych to stale zmieniający się cel; od 2012 r. od kilkudziesięciu terabajtów do wielu zetabajtów danych. Big data wymaga zestawu technik i technologii z nowymi formami integracji, aby ujawnić spostrzeżenia z zestawów danych, które są różnorodne, złożone i mają masową skalę.

„Różnorodność”, „prawdziwość” i różne inne „V” są dodawane przez niektóre organizacje, aby to opisać, rewizja kwestionowana przez niektóre władze branżowe. Vs big data były często określane jako „trzy Vs”, „cztery Vs” i „pięć Vs”. Reprezentowały one cechy dużych zbiorów danych pod względem objętości, różnorodności, szybkości, prawdziwości i wartości. Zmienność jest często uwzględniana jako dodatkowa cecha big data.

Definicja z 2018 r. stwierdza: „Wielkie zbiory danych są tam, gdzie do obsługi danych potrzebne są narzędzia do obliczeń równoległych” i zauważa: „Jest to wyraźna i jasno określona zmiana w stosowanej informatyce, poprzez teorie programowania równoległego oraz utrata niektórych gwarancji i możliwości stworzone przez relacyjny model Codda ”.

W badaniu porównawczym dużych zbiorów danych Kitchin i McArdle stwierdzili, że żadna z powszechnie rozważanych cech big data nie pojawia się konsekwentnie we wszystkich analizowanych przypadkach. Z tego powodu inne badania zidentyfikowały przedefiniowanie dynamiki władzy w odkrywaniu wiedzy jako cechę definiującą. Zamiast skupiać się na wewnętrznych cechach big data, ta alternatywna perspektywa popycha do przodu relacyjne rozumienie obiektu, twierdząc, że liczy się sposób, w jaki dane są gromadzone, przechowywane, udostępniane i analizowane.

Big data a inteligencja biznesowa

Rosnąca dojrzałość koncepcji coraz wyraźniej wyznacza różnicę między „big data” a „ biznesową inteligencją ”:

  • Business Intelligence wykorzystuje narzędzia matematyki stosowanej i statystyki opisowe z danymi o dużej gęstości informacji do mierzenia rzeczy, wykrywania trendów itp.
  • Big data wykorzystuje analizę matematyczną, optymalizację, statystykę indukcyjną i koncepcje z identyfikacji systemów nieliniowych w celu wywnioskowania praw (regresji, relacji nieliniowych i skutków przyczynowych) z dużych zbiorów danych o niskiej gęstości informacji w celu ujawnienia relacji i zależności lub wykonania prognoz wyniki i zachowania.

Charakterystyka

Pokazuje wzrost podstawowych cech dużych zbiorów danych dotyczących objętości, szybkości i różnorodności

Big data można opisać następującymi cechami:

Tom
Ilość generowanych i przechowywanych danych. Rozmiar danych określa wartość i potencjalny wgląd oraz to, czy można je uznać za duże zbiory danych, czy nie. Rozmiar big data jest zwykle większy niż terabajty i petabajty.
Różnorodność
Rodzaj i charakter danych. Wcześniejsze technologie, takie jak RDBMS, były w stanie wydajnie i skutecznie obsługiwać dane strukturalne. Jednak zmiana rodzaju i charakteru ze strukturalnego na częściowo ustrukturyzowany lub nieustrukturyzowany zakwestionowała istniejące narzędzia i technologie. Technologie big data ewoluowały z głównym zamiarem przechwytywania, przechowywania i przetwarzania danych częściowo ustrukturyzowanych i nieustrukturyzowanych (różnorodność) generowanych z dużą szybkością (szybkość) i ogromnym rozmiarem (objętość). Później te narzędzia i technologie zostały zbadane i wykorzystane do obsługi danych strukturalnych również, ale preferowane do przechowywania. Ostatecznie przetwarzanie danych strukturalnych nadal było opcjonalne, przy użyciu dużych zbiorów danych lub tradycyjnych systemów zarządzania bazą danych (RDBMS). Pomaga to w analizie danych pod kątem efektywnego wykorzystania ukrytych spostrzeżeń ujawnionych z danych zebranych za pośrednictwem mediów społecznościowych, plików dziennika, czujników itp. Big data czerpie z tekstu, obrazów, audio, wideo; plus uzupełnia brakujące elementy poprzez fuzję danych .
Prędkość
Szybkość, z jaką dane są generowane i przetwarzane, aby sprostać wymaganiom i wyzwaniom, które leżą na ścieżce wzrostu i rozwoju. Duże zbiory danych są często dostępne w czasie rzeczywistym. W porównaniu z małymi danymi duże zbiory danych są tworzone w sposób bardziej ciągły. Dwa rodzaje prędkości związane z big data to częstotliwość generowania oraz częstotliwość obsługi, nagrywania i publikowania.
Prawdziwość
Prawdomówność lub wiarygodność danych, która odnosi się do jakości danych i wartości danych. Big data musi mieć nie tylko duży rozmiar, ale także musi być wiarygodny, aby osiągnąć wartość w jego analizie. Jakość danych przechwyconych danych może być bardzo różna, wpływając na dokładną analizę.
Wartość
Wartość informacji, którą można osiągnąć poprzez przetwarzanie i analizę dużych zbiorów danych. Wartość można również zmierzyć poprzez ocenę innych cech big data. Wartość może również reprezentować opłacalność informacji pobieranych z analizy dużych zbiorów danych.
Zmienność
Charakterystyka zmieniających się formatów, struktury czy źródeł big data. Big data może obejmować dane ustrukturyzowane, nieustrukturyzowane lub kombinacje danych ustrukturyzowanych i nieustrukturyzowanych. Analiza big data może integrować surowe dane z wielu źródeł. Przetwarzanie nieprzetworzonych danych może również obejmować przekształcenia danych nieustrukturyzowanych w dane ustrukturyzowane.

Inne możliwe cechy big data to:

Wyczerpujący
Czy cały system (tj. =all) jest przechwycony lub zarejestrowany, czy nie. Big data może, ale nie musi obejmować wszystkich dostępnych danych ze źródeł.
Drobnoziarnisty i wyjątkowo leksykalny
Odpowiednio, proporcja danych szczegółowych każdego elementu na gromadzony element oraz czy element i jego cechy są odpowiednio zindeksowane lub zidentyfikowane.
Relacyjny
Jeśli zebrane dane zawierają wspólne pola, które umożliwiłyby łączenie lub metaanalizę różnych zestawów danych.
Rozszerzenie
Jeśli nowe pola w każdym elemencie zebranych danych można łatwo dodać lub zmienić.
Skalowalność
Jeśli rozmiar systemu przechowywania dużych zbiorów danych może szybko się rozrosnąć.

Architektura

Repozytoria Big Data istniały w wielu formach, często budowane przez korporacje o specjalnych potrzebach. Od lat 90. komercyjni dostawcy historycznie oferowali równoległe systemy zarządzania bazami danych dla dużych zbiorów danych. Przez wiele lat WinterCorp publikował największy raport bazy danych.

Teradata Corporation w 1984 roku wprowadziła na rynek system przetwarzania równoległego DBC 1012 . Systemy Teradata jako pierwsze przechowywały i analizowały 1 terabajt danych w 1992 roku. Dyski twarde miały 2,5 GB w 1991 roku, więc definicja big data stale ewoluuje zgodnie z prawem Krydera . Firma Teradata zainstalowała pierwszy system oparty na RDBMS klasy petabajtów w 2007 roku. Od 2017 roku zainstalowano kilkadziesiąt relacyjnych baz danych Teradata klasy petabajta, z których największa przekracza 50 PB. Systemy do 2008 roku były w 100% ustrukturyzowanymi danymi relacyjnymi. Od tego czasu Teradata dodała nieustrukturyzowane typy danych, w tym XML , JSON i Avro.

W 2000 roku firma Seisint Inc. (obecnie LexisNexis Risk Solutions ) opracowała rozproszoną platformę opartą na C++ do przetwarzania danych i zapytań, znaną jako platforma HPCC Systems . System ten automatycznie dzieli, dystrybuuje, przechowuje i dostarcza ustrukturyzowane, częściowo ustrukturyzowane i nieustrukturyzowane dane na wielu serwerach towarowych. Użytkownicy mogą pisać potoki przetwarzania danych i zapytania w deklaratywnym języku programowania przepływu danych o nazwie ECL. Analitycy danych pracujący w ECL nie muszą z góry definiować schematów danych i mogą raczej skupić się na konkretnym problemie, przekształcając dane w najlepszy możliwy sposób podczas opracowywania rozwiązania. W 2004 r. firma LexisNexis nabyła firmę Seisint Inc. i jej szybką platformę przetwarzania równoległego i z powodzeniem wykorzystała tę platformę do integracji systemów danych firmy Choicepoint Inc., gdy przejęła tę firmę w 2008 r. W 2011 r. platforma systemów HPCC była otwarta w ramach Licencja Apache v2.0.

CERN i inne eksperymenty fizyczne gromadziły duże zbiory danych przez wiele dziesięcioleci, zwykle analizowane za pomocą obliczeń o wysokiej przepustowości, a nie architektur redukujących mapy, zwykle rozumianych przez obecny ruch „big danych”.

W 2004 roku Google opublikował artykuł na temat procesu o nazwie MapReduce, który wykorzystuje podobną architekturę. Koncepcja MapReduce zapewnia model przetwarzania równoległego, a powiązana implementacja została wydana w celu przetwarzania ogromnych ilości danych. Dzięki MapReduce zapytania są dzielone i dystrybuowane w węzłach równoległych i przetwarzane równolegle (krok „mapowania”). Wyniki są następnie gromadzone i dostarczane (krok „redukcja”). Framework okazał się bardzo udany, więc inni chcieli powtórzyć algorytm. Dlatego implementacja frameworka MapReduce została przyjęta przez projekt open-source Apache o nazwie „ Hadoop ”. Apache Spark został opracowany w 2012 roku w odpowiedzi na ograniczenia paradygmatu MapReduce, ponieważ dodaje możliwość konfigurowania wielu operacji (nie tylko mapowanie, a następnie zmniejszanie).

MIKE2.0 to otwarte podejście do zarządzania informacją, które uwzględnia potrzebę zmian ze względu na implikacje dotyczące dużych zbiorów danych, zidentyfikowane w artykule zatytułowanym „Oferta rozwiązań Big Data”. Metodologia dotyczy obsługi dużych zbiorów danych pod względem użytecznych kombinacji źródeł danych, złożoności wzajemnych powiązań oraz trudności w usuwaniu (lub modyfikowaniu) poszczególnych rekordów.

Badania z 2012 r. wykazały, że architektura wielowarstwowa była jedną z opcji rozwiązania problemów związanych z big data. Dystrybuowane równolegle architektura dystrybuuje dane na wielu serwerach; te środowiska wykonywania równoległego mogą znacznie zwiększyć szybkość przetwarzania danych. Ten typ architektury wstawia dane do równoległego DBMS, który implementuje wykorzystanie frameworków MapReduce i Hadoop. Ten typ struktury ma na celu zapewnienie przejrzystości mocy obliczeniowej dla użytkownika końcowego za pomocą serwera aplikacji typu front-end.

Jezioro danych pozwala organizacji przenosi punkt ciężkości z scentralizowaną kontrolę do wspólnego modelu w odpowiedzi na zmieniające się dynamiki zarządzania informacją. Umożliwia to szybką segregację danych do jeziora danych, a tym samym skrócenie czasu pracy.

Technologie

Raport McKinsey Global Institute z 2011 r. charakteryzuje główne komponenty i ekosystem big data w następujący sposób:

Wielowymiarowe dane big data mogą być również reprezentowane jako kostki danych OLAP lub, matematycznie, tensory . Systemy baz danych Array mają na celu zapewnienie pamięci masowej i obsługi zapytań wysokiego poziomu dla tego typu danych. Dodatkowe technologie stosowane w Big Data obejmują wydajne obliczenia oparte na tensorze, takie jak wieloliniowe uczenie się podprzestrzeni , bazy danych masowego przetwarzania równoległego ( MPP ), aplikacje oparte na wyszukiwaniu , eksploracja danych , rozproszone systemy plików , rozproszona pamięć podręczna (np. bufor burst i Memcached ), rozproszone bazy danych , infrastruktura oparta na chmurze i HPC (aplikacje, zasoby pamięci masowej i obliczeniowe) oraz Internet. Chociaż opracowano wiele podejść i technologii, nadal trudno jest przeprowadzić uczenie maszynowe za pomocą big data.

Niektóre relacyjne bazy danych MPP mają możliwość przechowywania i zarządzania petabajtami danych. Niejawna jest możliwość ładowania, monitorowania, tworzenia kopii zapasowych i optymalizacji wykorzystania dużych tabel danych w RDBMS .

DARPA jest topologiczne Data Analysis Program ma podstawową strukturę ogromnych zbiorów danych, a w 2008 roku technologia weszła na giełdę z uruchomieniem firmy o nazwie «Ayasdi».

Praktycy procesów analizy big data są generalnie wrogo nastawieni do wolniejszej współdzielonej pamięci masowej, preferując pamięć masową podłączaną bezpośrednio ( DAS ) w jej różnych postaciach, od dysków półprzewodnikowych ( SSD ) po dyski SATA o dużej pojemności ukryte w węzłach przetwarzania równoległego. W opinii współużytkowanych architektur pamięci masowej — sieci pamięci masowej (SAN) i sieciowej pamięci masowej (NAS) — są one stosunkowo powolne, złożone i drogie. Te cechy nie są spójne z systemami analizy big data, które opierają się na wydajności systemu, infrastrukturze towarowej i niskich kosztach.

Dostarczanie informacji w czasie rzeczywistym lub prawie w czasie rzeczywistym jest jedną z cech definiujących analitykę dużych zbiorów danych. Dzięki temu unika się opóźnień zawsze i wszędzie, gdzie jest to możliwe. Dane w pamięci podłączonej bezpośrednio lub na dysku są dobre — dane w pamięci lub dysku na drugim końcu połączenia FC SAN nie są prawidłowe . Koszt sieci SAN w skali wymaganej do zastosowań analitycznych jest znacznie wyższy niż w przypadku innych technik pamięci masowej.

Aplikacje

Autobus owinięty w SAP Big Data zaparkowany poza IDF13 .

Big data tak bardzo zwiększyła zapotrzebowanie na specjalistów ds. zarządzania informacjami, że Software AG , Oracle Corporation , IBM , Microsoft , SAP , EMC , HP i Dell wydały ponad 15 miliardów dolarów na firmy programistyczne specjalizujące się w zarządzaniu danymi i ich analityce. W 2010 r. branża ta była warta ponad 100 miliardów dolarów i rosła w tempie prawie 10 procent rocznie: około dwa razy szybciej niż branża oprogramowania jako całość.

Gospodarki rozwinięte w coraz większym stopniu wykorzystują technologie intensywnie wykorzystujące dane. Na całym świecie jest 4,6 miliarda abonamentów na telefony komórkowe, a od miliarda do 2 miliardów osób korzysta z internetu. W latach 1990-2005 ponad 1 miliard ludzi na całym świecie trafiło do klasy średniej, co oznacza, że ​​więcej osób stało się bardziej piśmiennych, co z kolei doprowadziło do wzrostu informacji. Rzeczywista światowa zdolność wymiany informacji za pośrednictwem sieci telekomunikacyjnych wynosiła 281 petabajtów w 1986 r., 471 petabajtów w 1993 r., 2,2 eksabajtów w 2000 r., 65 eksabajtów w 2007 r., a prognozy mówią o 667 eksabajtach rocznie do 2014 r. jedna trzecia przechowywanych na całym świecie informacji ma postać alfanumerycznych danych tekstowych i nieruchomych obrazów, co jest formatem najbardziej przydatnym w przypadku większości aplikacji do obsługi dużych zbiorów danych. Pokazuje to również potencjał jeszcze niewykorzystanych danych (np. w postaci treści wideo i audio).

Podczas gdy wielu dostawców oferuje gotowe produkty do przetwarzania dużych zbiorów danych, eksperci promują rozwój własnych, szytych na miarę systemów, jeśli firma ma wystarczające możliwości techniczne.

Rząd

Wykorzystanie i przyjęcie big data w procesach rządowych pozwala na zwiększenie wydajności pod względem kosztów, produktywności i innowacji, ale nie jest pozbawione wad. Analiza danych często wymaga współpracy wielu organów administracji (na szczeblu centralnym i lokalnym) i tworzenia nowych i innowacyjnych procesów w celu osiągnięcia pożądanych rezultatów. Powszechną organizacją rządową, która wykorzystuje duże zbiory danych, jest Narodowa Administracja Bezpieczeństwa ( NSA ), która stale monitoruje działania w Internecie w poszukiwaniu potencjalnych wzorców podejrzanych lub nielegalnych działań, które może wykryć ich system.

Rejestr stanu cywilnego i stanu cywilnego (CRVS) gromadzi wszystkie stany świadectw od urodzenia do śmierci. CRVS jest źródłem dużych zbiorów danych dla rządów.

Rozwój międzynarodowy

Badania nad efektywnym wykorzystaniem technologii informacyjnych i komunikacyjnych na rzecz rozwoju (znane również jako „ICT4D”) sugerują, że technologia dużych zbiorów danych może wnieść istotny wkład, ale także stanowić wyjątkowe wyzwania dla rozwoju międzynarodowego . Postępy w analizie dużych zbiorów danych oferują opłacalne możliwości usprawnienia procesu podejmowania decyzji w krytycznych obszarach rozwoju, takich jak opieka zdrowotna, zatrudnienie, wydajność gospodarcza , przestępczość, bezpieczeństwo oraz klęski żywiołowe i zarządzanie zasobami. Ponadto dane generowane przez użytkowników dają nowe możliwości oddania głosu niesłyszalnym. Jednak długotrwałe wyzwania dla rozwijających się regionów, takie jak nieodpowiednia infrastruktura technologiczna oraz niedobór zasobów gospodarczych i ludzkich, pogłębiają istniejące obawy dotyczące dużych zbiorów danych, takich jak prywatność, niedoskonała metodologia i kwestie interoperacyjności. Wyzwanie „dużych danych dla rozwoju” ewoluuje obecnie w kierunku zastosowania tych danych poprzez uczenie maszynowe, znane jako „sztuczna inteligencja dla rozwoju (AI4D).

Korzyści

Głównym praktycznym zastosowaniem dużych zbiorów danych dla rozwoju jest „zwalczanie ubóstwa za pomocą danych”. W 2015 r. Blumenstock i współpracownicy oszacowali ubóstwo i bogactwo na podstawie metadanych telefonów komórkowych, a w 2016 r. Jean i współpracownicy połączyli obrazy satelitarne i uczenie maszynowe, aby przewidzieć ubóstwo. Hilbert i współpracownicy, wykorzystując cyfrowe dane śledzenia do badania rynku pracy i gospodarki cyfrowej w Ameryce Łacińskiej, twierdzą, że cyfrowe dane śledzenia mają kilka zalet, takich jak:

  • Zakres tematyczny: w tym obszary, które wcześniej były trudne lub niemożliwe do zmierzenia
  • Zasięg geograficzny: nasze międzynarodowe źródła dostarczyły obszernych i porównywalnych danych dla prawie wszystkich krajów, w tym wielu małych krajów, które zwykle nie są uwzględniane w międzynarodowych wykazach
  • Poziom szczegółowości: dostarczanie szczegółowych danych z wieloma powiązanymi z sobą zmiennymi i nowymi aspektami, takimi jak połączenia sieciowe
  • Aktualność i szeregi czasowe: wykresy mogą być tworzone w ciągu kilku dni od zebrania

Wyzwania

Jednocześnie praca z danymi śladów cyfrowych zamiast tradycyjnych danych ankietowych nie eliminuje tradycyjnych wyzwań związanych z pracą w dziedzinie międzynarodowej analizy ilościowej. Priorytety się zmieniają, ale podstawowe dyskusje pozostają takie same. Wśród głównych wyzwań są:

  • Reprezentatywność. Podczas gdy tradycyjne statystyki dotyczące rozwoju dotyczą głównie reprezentatywności losowych prób badawczych, cyfrowe dane śladowe nigdy nie są próbą losową.
  • Uogólnianie. Chociaż dane obserwacyjne zawsze bardzo dobrze reprezentują to źródło, reprezentują tylko to, co reprezentuje, i nic więcej. Chociaż kuszące jest uogólnianie od konkretnych obserwacji jednej platformy do szerszych ustawień, często jest to bardzo zwodnicze.
  • Harmonizowanie. Cyfrowe dane śledzenia nadal wymagają międzynarodowej harmonizacji wskaźników. Dodaje wyzwanie tak zwanej „fuzji danych”, harmonizacji różnych źródeł.
  • Przeciążenie danych. Analitycy i instytucje nie są przyzwyczajeni do efektywnego radzenia sobie z dużą liczbą zmiennych, co jest sprawnie realizowane za pomocą interaktywnych pulpitów nawigacyjnych. Praktykom wciąż brakuje standardowego przepływu pracy, który umożliwiłby naukowcom, użytkownikom i decydentom wydajną i skuteczną pracę.

Opieka zdrowotna

Analityka big data została wykorzystana w opiece zdrowotnej, zapewniając spersonalizowaną medycynę i analizy preskryptywne, interwencję w zakresie ryzyka klinicznego i analitykę predykcyjną, redukcję marnotrawstwa i zmienności opieki, zautomatyzowane zewnętrzne i wewnętrzne raportowanie danych pacjentów, ustandaryzowane terminy medyczne i rejestry pacjentów. Niektóre obszary doskonalenia są bardziej aspiracyjne niż faktycznie realizowane. Poziom danych generowanych w systemach opieki zdrowotnej nie jest trywialny. Wraz z dodatkowym przyjęciem m-zdrowia, e-zdrowia i technologii ubieralnych ilość danych będzie nadal rosła. Obejmuje to dane z elektronicznej dokumentacji medycznej, dane obrazowe, dane generowane przez pacjentów, dane z czujników i inne formy trudnych do przetworzenia danych. Obecnie istnieje jeszcze większa potrzeba, aby takie środowiska zwracały większą uwagę na jakość danych i informacji. „Big data bardzo często oznacza » brudne dane« , a część niedokładności danych rośnie wraz ze wzrostem ilości danych”. Inspekcja człowieka na skalę dużych zbiorów danych jest niemożliwa, a służba zdrowia rozpaczliwie potrzebuje inteligentnych narzędzi do kontroli dokładności i wiarygodności oraz postępowania z pominiętymi informacjami. Chociaż obszerne informacje w opiece zdrowotnej są obecnie elektroniczne, mieszczą się pod parasolem dużych zbiorów danych, ponieważ większość z nich jest nieustrukturyzowana i trudna w użyciu. Wykorzystanie dużych zbiorów danych w opiece zdrowotnej wiąże się z poważnymi wyzwaniami etycznymi, począwszy od zagrożeń dla praw jednostki, prywatności i autonomii , a skończywszy na przejrzystości i zaufaniu.

Duże zbiory danych w badaniach nad zdrowiem są szczególnie obiecujące pod względem eksploracyjnych badań biomedycznych, ponieważ analiza oparta na danych może posuwać się do przodu szybciej niż badania oparte na hipotezach. Następnie trendy zaobserwowane w analizie danych można przetestować w tradycyjnych, opartych na hipotezach badaniach biologicznych, a ostatecznie w badaniach klinicznych.

Powiązanym podobszarem zastosowań, który w dużej mierze opiera się na big data, w dziedzinie opieki zdrowotnej, jest wspomagana komputerowo diagnostyka w medycynie. Na przykład do monitorowania padaczki zwyczajowo tworzy się od 5 do 10 GB danych dziennie. Podobnie, pojedynczy nieskompresowany obraz tomosyntezy piersi zawiera średnio 450 MB danych. To tylko kilka z wielu przykładów, w których diagnostyka wspomagana komputerowo wykorzystuje duże zbiory danych. Z tego powodu duże zbiory danych zostały uznane za jedno z siedmiu kluczowych wyzwań, które muszą pokonać systemy diagnostyki wspomaganej komputerowo, aby osiągnąć wyższy poziom wydajności.

Edukacja

Badanie McKinsey Global Institute wykazało niedobór 1,5 miliona wysoko wykwalifikowanych specjalistów i menedżerów ds. danych, a wiele uniwersytetów, w tym University of Tennessee i UC Berkeley , stworzyło programy magisterskie, aby sprostać temu zapotrzebowaniu. Prywatne obozy startowe również opracowały programy, aby sprostać temu zapotrzebowaniu, w tym darmowe programy, takie jak The Data Incubator lub programy płatne, takie jak General Assembly . W konkretnej dziedzinie marketingu jednym z problemów podkreślanych przez Wedla i Kannana jest to, że marketing ma kilka poddziedzin (np. reklama, promocje, rozwój produktów, branding), które wykorzystują różne rodzaje danych.

Głoska bezdźwięczna

Aby zrozumieć, w jaki sposób media wykorzystują big data, konieczne jest najpierw nadanie kontekstu mechanizmowi wykorzystywanemu w procesie medialnym. Nick Couldry i Joseph Turow zasugerowali, że praktycy w mediach i reklamie podchodzą do big data jako wielu praktycznych punktów informacji o milionach osób. Wydaje się, że branża odchodzi od tradycyjnego podejścia polegającego na korzystaniu z określonych środowisk medialnych, takich jak gazety, czasopisma lub programy telewizyjne, a zamiast tego sięga do konsumentów za pomocą technologii, które docierają do docelowych osób w optymalnym czasie w optymalnych lokalizacjach. Ostatecznym celem jest dostarczenie lub przekazanie wiadomości lub treści, które są (statystycznie rzecz biorąc) zgodne z nastawieniem konsumenta. Na przykład środowiska wydawnicze coraz częściej dostosowują komunikaty (reklamy) i treści (artykuły), aby przemawiały do ​​konsumentów, które zostały zebrane wyłącznie w wyniku różnych działań w zakresie eksploracji danych .

  • Targetowanie konsumentów (w celu reklamy przez marketerów)
  • Przechwytywania danych
  • Dziennikarstwo danych : wydawcy i dziennikarze korzystają z narzędzi Big Data, aby dostarczać unikalne i innowacyjne spostrzeżenia i infografiki .

Channel 4 , brytyjski służby publicznej telewizji nadawca, jest liderem w dziedzinie dużych danych i analizy danych .

Ubezpieczenie

Dostawcy ubezpieczeń zdrowotnych zbierają dane na temat społecznych „determinantów zdrowia”, takich jak konsumpcja żywności i telewizji , stan cywilny, rozmiar odzieży i nawyki zakupowe, na podstawie których dokonują prognoz dotyczących kosztów zdrowia, aby wykryć problemy zdrowotne u swoich klientów. Jest kontrowersyjne, czy te prognozy są obecnie wykorzystywane do wyceny.

Internet rzeczy (IoT)

Big data i IoT działają w połączeniu. Dane wyodrębnione z urządzeń IoT zapewniają mapowanie połączeń między urządzeniami. Takie mapowania są wykorzystywane przez branżę medialną, firmy i rządy w celu dokładniejszego dotarcia do odbiorców i zwiększenia wydajności mediów. Internet rzeczy jest również coraz częściej wykorzystywany jako sposób gromadzenia danych sensorycznych, które są wykorzystywane w kontekście medycznym, produkcyjnym i transportowym.

Kevin Ashton , ekspert ds. innowacji cyfrowych, któremu przypisuje się ukucie tego terminu, definiuje Internet rzeczy w następującym cytacie: „Gdybyśmy mieli komputery, które wiedziałyby wszystko, co trzeba wiedzieć o rzeczach – korzystając z danych, które zebrały bez naszej pomocy – my bylibyśmy w stanie śledzić i policzyć wszystko, a także znacznie zmniejszyć ilość odpadów, strat i kosztów. Wiedzielibyśmy, kiedy rzeczy wymagają wymiany, naprawy lub wycofania i czy były świeże, czy przeszły.

Technologia informacyjna

Zwłaszcza od 2015 roku big data zyskała na znaczeniu w działalności biznesowej jako narzędzie, które pomaga pracownikom pracować wydajniej oraz usprawnia gromadzenie i dystrybucję technologii informatycznych (IT). Wykorzystanie dużych zbiorów danych do rozwiązywania problemów IT i gromadzenia danych w przedsiębiorstwie nazywa się analizą operacji IT (ITOA). Stosując zasady big data w koncepcjach inteligencji maszynowej i głębokiego przetwarzania, działy IT mogą przewidywać potencjalne problemy i im zapobiegać. Firmy ITOA oferują platformy do zarządzania systemami, które łączą silosy danych i generują wgląd z całego systemu, a nie z izolowanych kieszeni danych.

Studium przypadku

Rząd

Chiny

  • Zintegrowana Platforma Wspólnych Operacji (IJOP, 一体化联合作战平台) jest wykorzystywana przez rząd do monitorowania ludności, zwłaszcza Ujgurów . Dane biometryczne , w tym próbki DNA, są gromadzone w ramach programu bezpłatnych danych fizycznych.
  • Do 2020 roku Chiny planują przyznać wszystkim swoim obywatelom osobistą ocenę „kredytu społecznego” w oparciu o ich zachowanie. System Kredytu Społecznego , obecnie pilotowany w wielu chińskich miastach, jest uważany za formę masowej inwigilacji, która wykorzystuje technologię analizy dużych zbiorów danych.

Indie

  • Aby BJP wygrała wybory powszechne w Indiach w 2014 r., wypróbowano analizę dużych zbiorów danych .
  • Rząd indyjski wykorzystuje wiele technik, aby ustalić, w jaki sposób indyjski elektorat reaguje na działania rządu, a także pomysły na rozszerzenie polityki.

Izrael

  • Dzięki rozwiązaniu Big Data GlucoMe można stworzyć spersonalizowane leczenie cukrzycy.

Zjednoczone Królestwo

Przykłady zastosowań big data w usługach publicznych:

  • Dane dotyczące leków na receptę: łącząc pochodzenie, lokalizację i czas wystawienia każdej recepty, jednostka badawcza była w stanie zilustrować znaczne opóźnienie między wydaniem dowolnego leku a ogólnobrytyjską adaptacją National Institute for Health and Care Excellence wytyczne. Sugeruje to, że nowe lub najbardziej aktualne leki potrzebują trochę czasu, aby dotrzeć do ogólnego pacjenta.
  • Łączenie danych: władze lokalne połączyły dane o usługach, takich jak piaskarki drogowe, z usługami dla osób zagrożonych, takimi jak posiłki na kółkach . Połączenie danych pozwoliło lokalnym władzom uniknąć opóźnień związanych z pogodą.

Stany Zjednoczone

  • W 2012 r. administracja Obamy ogłosiła Inicjatywę Badań i Rozwoju Big Data, aby zbadać, w jaki sposób można wykorzystać duże zbiory danych do rozwiązywania ważnych problemów, z którymi boryka się rząd. Inicjatywa składa się z 84 różnych programów Big Data rozmieszczonych w sześciu departamentach.
  • Analiza big data odegrała dużą rolę w udanej kampanii wyborczej Baracka Obamy w 2012 roku .
  • Rząd federalny Stanów Zjednoczonych posiada pięć z dziesięciu najbardziej potężnych superkomputerów na świecie.
  • Utah Data Center został zbudowany przez amerykańską Agencję Bezpieczeństwa Narodowego . Po zakończeniu placówka będzie w stanie obsłużyć dużą ilość informacji gromadzonych przez NSA przez Internet. Dokładna ilość miejsca na dysku nie jest znana, ale nowsze źródła twierdzą, że będzie to rzędu kilku eksabajtów . Wywołało to obawy dotyczące bezpieczeństwa w zakresie anonimowości gromadzonych danych.

Sprzedaż

  • Walmart co godzinę obsługuje ponad milion transakcji klientów, które są importowane do baz danych, które według szacunków zawierają ponad 2,5 petabajta (2560 terabajtów) danych — odpowiednik 167-krotności informacji zawartych we wszystkich książkach Biblioteki Kongresu Stanów Zjednoczonych .
  • Windermere Real Estate korzysta z informacji o lokalizacji od prawie 100 milionów kierowców, aby pomóc nowym nabywcom domów określić ich typowy czas dojazdu do pracy i z pracy o różnych porach dnia.
  • System wykrywania kart FICO chroni konta na całym świecie.

Nauki ścisłe

  • W Wielki Zderzacz Hadronów eksperymenty stanowią około 150 milionów czujników dostarczania danych 40 milionów razy na sekundę. Na sekundę dochodzi do prawie 600 milionów kolizji. Po przefiltrowaniu i powstrzymaniu się od rejestrowania ponad 99,99995% tych strumieni, na sekundę pojawia się 1000 interesujących kolizji.
    • W rezultacie, pracując tylko z mniej niż 0,001% danych strumienia czujnika, przepływ danych ze wszystkich czterech eksperymentów LHC reprezentuje 25 petabajtów rocznie przed replikacją (stan na 2012 r.). Po replikacji to prawie 200 petabajtów.
    • Gdyby wszystkie dane z czujników były rejestrowane w LHC, przepływ danych byłby niezwykle trudny do pracy. Przepływ danych przed replikacją przekroczyłby 150 milionów petabajtów rocznie, czyli prawie 500 eksabajtów dziennie. Aby umieścić tę liczbę z perspektywy, odpowiada to 500 kwintylionom (5×10 20 ) bajtów dziennie, prawie 200 razy więcej niż wszystkie inne źródła łącznie na świecie.
  • Kilometr kwadratowy Array jest radioteleskop zbudowany z tysięcy anten. Oczekuje się, że zacznie działać do 2024 r. Łącznie oczekuje się, że anteny te gromadzą 14 eksabajtów i przechowują jeden petabajt dziennie. Jest uważany za jeden z najbardziej ambitnych projektów naukowych, jakie kiedykolwiek podjęto.
  • Kiedy Sloan Digital Sky Survey (SDSS) zaczął zbierać dane astronomiczne w 2000 roku, zgromadził więcej w ciągu pierwszych kilku tygodni niż wszystkie dane zebrane wcześniej w historii astronomii. Kontynuując z szybkością około 200 GB na noc, SDSS zgromadził ponad 140 terabajtów informacji. Kiedy w 2020 r. pojawi się w sieci Large Synoptic Survey Telescope , następca SDSS, jego projektanci spodziewają się, że będzie on gromadził taką ilość danych co pięć dni.
  • Rozszyfrowanie ludzkiego genomu zajęło pierwotnie 10 lat; teraz można to osiągnąć w niecały dzień. Sekwencery DNA podzieliły koszt sekwencjonowania przez 10 000 w ciągu ostatnich dziesięciu lat, co jest 100 razy tańsze niż redukcja kosztów przewidziana przez prawo Moore'a .
  • NASA Centrum Symulacji Klimatu (KCF) przechowuje 32 petabajtów obserwacji klimatycznych i symulacji na klastrze Superkomputerowo Discover.
  • Google DNAStack kompiluje i porządkuje próbki DNA danych genetycznych z całego świata w celu identyfikacji chorób i innych wad medycznych. Te szybkie i dokładne obliczenia eliminują wszelkie „punkty tarcia” lub ludzkie błędy, które mógłby popełnić jeden z licznych ekspertów w dziedzinie nauki i biologii pracujących z DNA. DNAStack, część Google Genomics, umożliwia naukowcom wykorzystanie ogromnej próbki zasobów z serwera wyszukiwania Google do natychmiastowego skalowania eksperymentów społecznych, które zwykle trwałyby lata.
  • 23andMe jest baza danych DNA zawiera informację genetyczną ponad milion osób na całym świecie. Firma bada sprzedaż „anonimowych zagregowanych danych genetycznych” innym badaczom i firmom farmaceutycznym w celach badawczych, jeśli pacjenci wyrażą na to zgodę. Ahmad Hariri, profesor psychologii i neuronauki na Duke University, który wykorzystuje 23andMe w swoich badaniach od 2009 roku, twierdzi, że najważniejszym aspektem nowej usługi firmy jest to, że badania genetyczne są dostępne i stosunkowo tanie dla naukowców. Badanie, które zidentyfikowało 15 witryn genomowych powiązanych z depresją w bazie danych 23andMe, doprowadziło do gwałtownego wzrostu żądań dostępu do repozytorium, a 23andMe złożyło prawie 20 wniosków o dostęp do danych dotyczących depresji w ciągu dwóch tygodni po opublikowaniu artykułu.
  • Obliczeniowa dynamika płynów ( CFD ) i badania turbulencji hydrodynamicznych generują ogromne zbiory danych. Bazy danych Johns Hopkins Turbulence Databases ( JHTDB ) zawierają ponad 350 terabajtów pól czasoprzestrzennych pochodzących z bezpośrednich symulacji numerycznych różnych przepływów turbulentnych. Takie dane były trudne do udostępnienia przy użyciu tradycyjnych metod, takich jak pobieranie plików wyjściowych płaskich symulacji. Dostęp do danych w JHTDB można uzyskać za pomocą „wirtualnych czujników” z różnymi trybami dostępu, od bezpośrednich zapytań przeglądarki internetowej, poprzez dostęp za pośrednictwem programów Matlab, Python, Fortran i C działających na platformach klientów, po wycinanie usług pobierania surowych danych. Dane zostały wykorzystane w ponad 150 publikacjach naukowych.

Sporty

Big data może być wykorzystana do poprawy treningu i zrozumienia zawodników za pomocą sensorów sportowych. Możliwe jest również przewidzenie zwycięzców w meczu za pomocą analityki big data. Można było również przewidzieć przyszłe wyniki zawodników. Tak więc wartość i wynagrodzenie zawodników są określane na podstawie danych gromadzonych przez cały sezon.

W wyścigach Formuły 1 samochody wyścigowe wyposażone w setki czujników generują terabajty danych. Czujniki te zbierają dane, od ciśnienia w oponach po efektywność spalania paliwa. Na podstawie danych inżynierowie i analitycy danych decydują, czy należy wprowadzić poprawki, aby wygrać wyścig. Poza tym, korzystając z big data, zespoły wyścigowe starają się wcześniej przewidzieć czas ukończenia wyścigu na podstawie symulacji wykorzystujących dane zebrane w trakcie sezonu.

Technologia

  • eBay.com korzysta z dwóch hurtowni danych o pojemności 7,5 petabajtów i 40 PB, a także klastra Hadoop o wielkości 40 PB do wyszukiwania, rekomendacji konsumentów i merchandisingu.
  • Amazon.com obsługuje codziennie miliony operacji zaplecza, a także zapytania od ponad pół miliona sprzedawców zewnętrznych. Podstawowa technologia, dzięki której Amazon działa, jest oparta na Linuksie, a od 2005 roku firma posiadała trzy największe na świecie bazy danych Linux o pojemnościach 7,8 TB, 18,5 TB i 24,7 TB.
  • Facebook obsługuje 50 miliardów zdjęć ze swojej bazy użytkowników. W czerwcu 2017 r. Facebook osiągnął 2 miliardy aktywnych użytkowników miesięcznie .
  • Od sierpnia 2012 r. Google obsługiwał około 100 miliardów wyszukiwań miesięcznie.

COVID-19

Podczas pandemii COVID-19 zebrano duże zbiory danych jako sposób na zminimalizowanie wpływu choroby. Istotne zastosowania big data obejmowały minimalizację rozprzestrzeniania się wirusa, identyfikację przypadków i rozwój leczenia.

Rządy wykorzystywały duże zbiory danych do śledzenia zainfekowanych osób, aby zminimalizować rozprzestrzenianie się. Wśród pierwszych użytkowników znalazły się Chiny, Tajwan, Korea Południowa i Izrael.

Działalność badawcza

Szyfrowane wyszukiwanie i tworzenie klastrów w dużych zbiorach danych zademonstrowano w marcu 2014 r. w Amerykańskim Towarzystwie Edukacji Inżynierskiej. Gautam Siwach zaangażowany w rozwiązywanie problemów Big Data przez MIT Computer Science and Artificial Intelligence Laboratory oraz Amir Esmailpour z UNH Research Group zbadali kluczowe cechy big data, takie jak tworzenie klastrów i ich wzajemne połączenia. Skupili się na bezpieczeństwie dużych zbiorów danych i ukierunkowaniu tego terminu na obecność różnych typów danych w postaci zaszyfrowanej w interfejsie chmury, dostarczając surowe definicje i przykłady w czasie rzeczywistym w ramach technologii. Co więcej, zaproponowali podejście do identyfikacji techniki kodowania, aby przejść w kierunku przyspieszonego przeszukiwania zaszyfrowanego tekstu, prowadzącego do ulepszeń bezpieczeństwa w dużych zbiorach danych.

W marcu 2012 r. Biały Dom ogłosił krajową „Inicjatywę Big Data”, która składała się z sześciu federalnych departamentów i agencji przeznaczających ponad 200 milionów dolarów na projekty badawcze dotyczące dużych zbiorów danych.

Inicjatywa obejmowała grant National Science Foundation „Expeditions in Computing” w wysokości 10 milionów dolarów w ciągu pięciu lat dla AMPLab na Uniwersytecie Kalifornijskim w Berkeley. AMPLab otrzymał również fundusze od DARPA i kilkunastu sponsorów przemysłowych i wykorzystuje big data do atakowania szerokiego zakresu problemów, od przewidywania zatorów komunikacyjnych po walkę z rakiem.

Inicjatywa Big Data Białego Domu obejmowała również zobowiązanie Departamentu Energii do przekazania 25 milionów dolarów w ciągu pięciu lat na utworzenie Instytutu Scalable Data Management, Analysis and Visualization (SDAV), kierowanego przez Lawrence Berkeley National Laboratory z Departamentu Energii . Instytut SDAV ma na celu zebranie wiedzy fachowej sześciu krajowych laboratoriów i siedmiu uniwersytetów w celu opracowania nowych narzędzi, które pomogą naukowcom zarządzać i wizualizować dane na superkomputerach tego wydziału.

Stan Massachusetts ogłosił w maju 2012 roku Massachusetts Big Data Initiative, która zapewnia finansowanie od rządu stanowego i prywatnych firm różnym instytucjom badawczym. Massachusetts Institute of Technology gospodarzem Centrum Nauki i Techniki Intel dla dużych danych w MIT Computer Science and Artificial Intelligence Laboratory , łączenie, korporacyjnych, rządowych i instytucjonalnych finansowania badań i wysiłków.

W ramach siódmego programu ramowego Komisja Europejska finansuje dwuletnie publiczno-prywatne forum Big Data, aby zaangażować firmy, naukowców i inne zainteresowane strony w dyskusję na temat dużych zbiorów danych. Projekt ma na celu zdefiniowanie strategii w zakresie badań i innowacji, aby kierować działaniami wspierającymi ze strony Komisji Europejskiej w pomyślnym wdrażaniu gospodarki opartej na dużych zbiorach danych. Wyniki tego projektu zostaną wykorzystane jako wkład do programu Horyzont 2020 , ich kolejnego programu ramowego .

Brytyjski rząd ogłosił w marcu 2014 r. założenie Instytutu Alana Turinga , nazwanego na cześć pioniera komputerowego i łamacza kodów, który skupi się na nowych sposobach zbierania i analizowania dużych zbiorów danych.

Na kampusie Uniwersytetu Waterloo Stratford w Canadian Open Data Experience (CODE) Inspiration Day uczestnicy pokazali, w jaki sposób korzystanie z wizualizacji danych może zwiększyć zrozumienie i atrakcyjność dużych zbiorów danych oraz przekazać swoją historię światu.

Obliczeniowe nauki społeczne  — każdy może korzystać z interfejsów programowania aplikacji (API) udostępnianych przez posiadaczy dużych zbiorów danych, takich jak Google i Twitter, do prowadzenia badań z zakresu nauk społecznych i behawioralnych. Często te interfejsy API są udostępniane bezpłatnie. Tobias Preis i in. wykorzystał dane Google Trends, aby wykazać, że internauci z krajów o wyższym produkcie krajowym brutto (PKB) na mieszkańca częściej szukają informacji o przyszłości niż o przeszłości. Wyniki sugerują, że może istnieć związek między zachowaniami online a rzeczywistymi wskaźnikami ekonomicznymi. Autorzy badania przeanalizowali logi zapytań Google tworzonych przez stosunek liczby wyszukiwań w nadchodzącym roku (2011) do liczby wyszukiwań w roku poprzednim (2009), który nazywają „ wskaźnik orientacji na przyszłość ”. Porównali wskaźnik orientacji na przyszłość z PKB na mieszkańca każdego kraju i stwierdzili silną tendencję do wyższego PKB w krajach, w których użytkownicy Google pytają więcej o przyszłość.

Tobias Preis i jego współpracownicy Helen Susannah Moat i H. Eugene Stanley wprowadzili metodę identyfikacji internetowych prekursorów ruchów giełdowych, wykorzystując strategie handlowe oparte na danych o liczbie wyszukiwań dostarczonych przez Google Trends. Przeprowadzona przez nich analiza liczby wyszukiwań w Google dla 98 haseł o różnym znaczeniu finansowym, opublikowana w Scientific Reports , sugeruje, że wzrost liczby wyszukiwań haseł istotnych z finansowego punktu widzenia zwykle poprzedza duże straty na rynkach finansowych.

Wielkie zbiory danych wiążą się z wyzwaniami algorytmicznymi, które wcześniej nie istniały. W związku z tym niektórzy uważają, że istnieje potrzeba fundamentalnej zmiany sposobów przetwarzania.

Warsztaty na temat algorytmów dla nowoczesnych masowych zbiorów danych (MMDS) gromadzą informatyków, statystyków, matematyków i praktyków analizy danych w celu omówienia wyzwań algorytmicznych związanych z dużymi zbiorami danych. Jeśli chodzi o big data, takie koncepcje wielkości są względne. Jak stwierdzono: „Jeśli przeszłość może być wskazówką, to dzisiejsze big data najprawdopodobniej nie będą traktowane jako takie w najbliższej przyszłości”.

Próbkowanie dużych zbiorów danych

Pytanie badawcze, które zadaje się na temat dużych zbiorów danych, dotyczy tego, czy konieczne jest spojrzenie na pełne dane, aby wyciągnąć pewne wnioski na temat właściwości danych, czy też próbka jest wystarczająco dobra. Sama nazwa big data zawiera termin związany z rozmiarem i jest to ważna cecha big data. Jednak próbkowanie umożliwia wybór właściwych punktów danych z większego zestawu danych w celu oszacowania cech całej populacji. W produkcji różne rodzaje danych sensorycznych, takich jak akustyka, wibracje, ciśnienie, prąd, napięcie i dane sterownika są dostępne w krótkich odstępach czasu. Aby przewidzieć czas przestoju, może nie być konieczne przeglądanie wszystkich danych, ale próbka może być wystarczająca. Big data można podzielić na różne kategorie punktów danych, takie jak dane demograficzne, psychograficzne, behawioralne i transakcyjne. Dzięki dużym zestawom punktów danych marketerzy mogą tworzyć i wykorzystywać bardziej spersonalizowane segmenty konsumentów w celu bardziej strategicznego kierowania.

Wykonano pewne prace nad algorytmami próbkowania dla dużych zbiorów danych. Opracowano teoretyczne sformułowanie próbkowania danych z Twittera.

Krytyka

Krytyka paradygmatu big data występuje w dwóch odmianach: kwestionująca konsekwencje samego podejścia i kwestionująca sposób, w jaki jest to obecnie realizowane. Jednym z podejść do tej krytyki jest dziedzina krytycznych badań danych .

Krytyka paradygmatu big data

„Kluczowym problemem jest to, że niewiele wiemy o podstawowych mikroprocesach empirycznych, które prowadzą do pojawienia się typowych cech sieci Big Data”. W swojej krytyce Snijders, Matzat i Reips wskazują, że często przyjmuje się bardzo silne założenia dotyczące właściwości matematycznych, które mogą wcale nie odzwierciedlać tego, co naprawdę dzieje się na poziomie mikroprocesów. Mark Graham skierował szeroką krytykę na twierdzenie Chrisa Andersona , że big data oznacza koniec teorii: skupiając się w szczególności na założeniu, że big data musi być zawsze kontekstualizowana w kontekście społecznym, gospodarczym i politycznym. Nawet jeśli firmy inwestują ośmio- i dziewięciocyfrowe sumy, aby uzyskać wgląd w informacje płynące od dostawców i klientów, mniej niż 40% pracowników ma wystarczająco dojrzałe procesy i umiejętności, aby to robić. Aby przezwyciężyć ten deficyt wglądu, duże zbiory danych, bez względu na to, jak wszechstronne lub dobrze przeanalizowane, muszą być uzupełnione „wielkim osądem”, zgodnie z artykułem w Harvard Business Review .

W podobnym tonie zwraca się uwagę, że decyzje podejmowane na podstawie analizy big data są nieuchronnie „informowane przez świat taki, jaki był w przeszłości, a w najlepszym razie taki, jaki jest obecnie”. Algorytmy, zasilane dużą liczbą danych dotyczących przeszłych doświadczeń, mogą przewidywać przyszły rozwój, jeśli przyszłość jest podobna do przeszłości. Jeśli dynamika systemu przyszłości zmieni się (jeśli nie jest to proces stacjonarny ), to przeszłość niewiele może powiedzieć o przyszłości. Aby dokonywać prognoz w zmieniających się środowiskach, konieczne byłoby dokładne zrozumienie dynamiki systemów, co wymaga teorii. W odpowiedzi na tę krytykę Alemany Oliver i Vayre proponują wykorzystanie „rozumowania abdukcyjnego jako pierwszego kroku w procesie badawczym w celu nadania kontekstu śladom cyfrowym konsumentów i wyłonienia nowych teorii”. Ponadto zasugerowano połączenie podejścia do dużych zbiorów danych z symulacjami komputerowymi, takimi jak modele agentowe i złożone systemy . Modele oparte na agentach są coraz lepsze w przewidywaniu wyniku społecznych złożoności nawet nieznanych przyszłych scenariuszy dzięki symulacjom komputerowym, które opierają się na zbiorze wzajemnie zależnych algorytmów. Wreszcie, zastosowanie metod wielowymiarowych, które badają utajoną strukturę danych, takich jak analiza czynnikowa i analiza skupień , okazały się przydatne jako podejścia analityczne, które znacznie wykraczają poza podejścia dwuwymiarowe (przekrojowe) zwykle stosowane w przypadku mniejszych danych zestawy.

W zdrowiu i biologii konwencjonalne podejścia naukowe opierają się na eksperymentowaniu. W przypadku tych podejść czynnikiem ograniczającym są odpowiednie dane, które mogą potwierdzić lub obalić początkową hipotezę. Obecnie w naukach biologicznych przyjmuje się nowy postulat: informacje dostarczane przez dane w ogromnych tomach ( omiki ) bez wcześniejszej hipotezy są komplementarne, a czasem niezbędne do konwencjonalnych podejść opartych na eksperymentach. W masowych podejściach czynnikiem ograniczającym jest sformułowanie odpowiedniej hipotezy wyjaśniającej dane. Logika poszukiwań jest odwrócona i należy wziąć pod uwagę granice indukcji („Glory of Science and Philosophy skandal”, CD Broad , 1926).

Zwolennicy prywatności są zaniepokojeni zagrożeniem dla prywatności wynikającym z rosnącego przechowywania i integracji informacji umożliwiających identyfikację osób ; Panele ekspertów wydały różne zalecenia dotyczące polityki, aby dostosować praktykę do oczekiwań dotyczących prywatności. Nadużywanie big data w kilku przypadkach przez media, firmy, a nawet rząd pozwoliło na zniesienie zaufania do niemal każdej fundamentalnej instytucji podtrzymującej społeczeństwo.

Nayef Al-Rodhan argumentuje, że potrzebny będzie nowy rodzaj umowy społecznej, aby chronić wolności jednostki w kontekście dużych zbiorów danych i gigantycznych korporacji, które posiadają ogromne ilości informacji, oraz że wykorzystanie dużych zbiorów danych powinno być monitorowane i lepiej regulowane na poziomie krajowym i międzynarodowym. Barocas i Nissenbaum twierdzą, że jednym ze sposobów ochrony indywidualnych użytkowników jest informowanie o rodzajach gromadzonych informacji, komu są one udostępniane, pod jakimi ograniczeniami i w jakim celu.

Krytyka modelu „V”

Model „V” dużych zbiorów danych jest niepokojący, ponieważ koncentruje się na skalowalności obliczeniowej i nie ma straty wokół postrzegalności i zrozumiałości informacji. Doprowadziło to do powstania ram kognitywnych big data , które charakteryzują aplikacje big data zgodnie z:

  • Kompletność danych: rozumienie tego, co nieoczywiste z danych
  • Korelacja danych, przyczynowość i przewidywalność: przyczynowość jako nieistotny wymóg osiągnięcia przewidywalności
  • Wyjaśnialność i interpretowalność: ludzie chcą zrozumieć i zaakceptować to, co rozumieją, gdzie algorytmy nie radzą sobie z tym
  • Poziom zautomatyzowanego podejmowania decyzji: algorytmy wspierające automatyczne podejmowanie decyzji i algorytmiczne samouczenie

Krytyka nowości

Duże zbiory danych były analizowane przez maszyny obliczeniowe od ponad wieku, w tym analizy spisu powszechnego USA wykonywane przez komputery perforowane IBM, które obliczały statystyki, w tym średnie i wariancje populacji na całym kontynencie. W ostatnich dziesięcioleciach eksperymenty naukowe, takie jak CERN , dostarczyły danych w podobnej skali do obecnych komercyjnych „big danych”. Jednak eksperymenty naukowe miały tendencję do analizowania swoich danych przy użyciu wyspecjalizowanych niestandardowych klastrów i siatek obliczeniowych o wysokiej wydajności (super-komputerów), a nie chmur tanich komputerów, jak w obecnej fali komercyjnej, co sugeruje różnicę zarówno w kulturze, jak i technologii stos.

Krytyka wykonywania dużych zbiorów danych

Ulf-Dietrich Reips i Uwe Matzat napisali w 2014 roku, że big data stała się „modą” w badaniach naukowych. Badaczka Danah Boyd wyraziła obawy dotyczące wykorzystania dużych zbiorów danych w nauce, zaniedbując zasady, takie jak wybór reprezentatywnej próby , zbytnio zaniepokojona obsługą ogromnych ilości danych. Takie podejście może prowadzić do wyników, które są w taki czy inny sposób tendencyjne . Integracja między heterogenicznymi zasobami danych — niektóre, które można uznać za duże zbiory danych, a inne nie — stwarza ogromne wyzwania logistyczne i analityczne, ale wielu badaczy twierdzi, że takie integracje prawdopodobnie reprezentują najbardziej obiecujące nowe granice w nauce. W prowokacyjnym artykule „Critical Questions for Big Data” autorzy tytułują big data częścią mitologii : „duże zbiory danych oferują wyższą formę inteligencji i wiedzy [...], z aurą prawdy, obiektywizmu i dokładności ”. Użytkownicy dużych zbiorów danych często „gubią się w samej ilości liczb”, a „praca z Big Data jest nadal subiektywna, a to, co określa ilościowo, niekoniecznie ma bliższe twierdzenie o obiektywnej prawdzie”. Najnowsze osiągnięcia w dziedzinie BI, takich jak pro-aktywnych sprawozdawczych zwłaszcza ulepszeń docelowych w użyteczność dużych danych, dzięki automatycznemu filtrowaniu of non-użytecznych danych i korelacji . Duże struktury są pełne fałszywych korelacji albo z powodu nieprzyczynowych koincydencji ( prawo naprawdę dużych liczb ), wyłącznie natury dużej losowości ( teoria Ramseya ), albo z powodu istnienia nieuwzględnionych czynników, więc nadzieja wczesnych eksperymentatorów na tworzenie dużych baz danych liczb „mówią same za siebie” i rewolucjonizują metodę naukową, jest kwestionowana.

Analiza big data jest często płytka w porównaniu z analizą mniejszych zbiorów danych. W wielu projektach big data nie ma miejsca analiza dużych ilości danych, ale wyzwaniem jest wyodrębnienie, przekształcenie i załadowanie części przetwarzania wstępnego danych.

Big data to modne słowo i „nieokreślony termin”, ale jednocześnie „obsesja” na punkcie przedsiębiorców, konsultantów, naukowców i mediów. Prezentacje Big Data, takie jak Google Flu Trends, nie dostarczyły dobrych prognoz w ostatnich latach, zawyżając epidemie grypy dwukrotnie. Podobnie nagrody Akademii i prognozy wyborcze oparte wyłącznie na Twitterze były częściej nietrafione niż celne. Duże zbiory danych często stwarzają te same wyzwania, co małe dane; dodanie większej ilości danych nie rozwiązuje problemu stronniczości, ale może uwydatnić inne problemy. W szczególności źródła danych, takie jak Twitter, nie są reprezentatywne dla całej populacji, a wyniki uzyskane z takich źródeł mogą prowadzić do błędnych wniosków. Tłumacz Google — oparty na statystycznej analizie tekstu big data — dobrze radzi sobie z tłumaczeniem stron internetowych. Jednak wyniki z wyspecjalizowanych domen mogą być dramatycznie wypaczone. Z drugiej strony, big data może również wprowadzać nowe problemy, takie jak problem wielokrotnych porównań : jednoczesne testowanie dużego zestawu hipotez może dać wiele fałszywych wyników, które błędnie wydają się znaczące. Ioannidis twierdził, że „większość opublikowanych wyników badań jest fałszywa” z powodu zasadniczo tego samego efektu: gdy wiele zespołów naukowych i badaczy przeprowadza wiele eksperymentów (tj. przetwarza dużą ilość danych naukowych; chociaż nie przy użyciu technologii big data), prawdopodobieństwo wystąpienia „znaczący” wynik, który jest fałszywy, szybko rośnie – tym bardziej, gdy publikowane są tylko wyniki pozytywne. Co więcej, wyniki analizy big data są tak dobre, jak model, na którym są oparte. Na przykład big data brały udział w próbie przewidzenia wyników wyborów prezydenckich w USA w 2016 r. z różnym powodzeniem.

Krytyka polityki i nadzoru big data

Big data jest wykorzystywana w policji i inwigilacji przez instytucje takie jak organy ścigania i korporacje . Ze względu na mniej widoczny charakter nadzoru opartego na danych w porównaniu z tradycyjnymi metodami prowadzenia działań policyjnych, istnieje mniejsze prawdopodobieństwo pojawienia się sprzeciwu wobec nadzoru dotyczącego dużych zbiorów danych. Według Sarah Brayne's Big Data Surveillance: The Case of Policing , nadzór nad dużymi danymi może odtworzyć istniejące nierówności społeczne na trzy sposoby:

  • Poddanie podejrzanych przestępców zwiększonej inwigilacji za pomocą uzasadnienia matematycznego, a zatem bezstronnego algorytmu
  • Zwiększenie zakresu i liczby osób, które podlegają śledzeniu przez organy ścigania i zaostrzenie istniejącej nadreprezentacji rasowej w systemie sądownictwa karnego
  • Zachęcanie członków społeczeństwa do porzucania interakcji z instytucjami, które tworzyłyby cyfrowy ślad, stwarzając tym samym przeszkody dla integracji społecznej

Jeśli te potencjalne problemy nie zostaną naprawione lub uregulowane, skutki nadzoru nad dużymi danymi mogą nadal kształtować hierarchie społeczne. Sumienne stosowanie nadzoru nad dużymi danymi może zapobiec temu, by indywidualne uprzedzenia na poziomie nie stały się uprzedzeniami instytucjonalnymi, zauważa również Brayne.

W kulturze popularnej

Książki

  • Moneyball to książka non-fiction, która bada, w jaki sposób Oakland Athletics wykorzystało analizę statystyczną, aby przewyższyć wyniki zespołów z większymi budżetami. W 2011 roku ukazała się adaptacja filmowa z Bradem Pittem w roli głównej.

Film

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki

  • Multimedia związane z Big Data w Wikimedia Commons
  • Słownikowa definicja big data w Wikisłowniku