Big data to termin obejmujący różnorodne, zmienne woluminy danych o dużej objętości, a także – zwyczajowo – całość działań analitycznych i systematyzujących w ich obrębie oraz technologie służące ich składowaniu. Specyfika przetwarzania tych zbiorów danych polega na zastosowaniu niestandardowych narzędzi, wymuszonych przez złożoność informacji, jakie generują.
Czym jest big data?
Specjaliści w zakresie Big Data do precyzyjniejszej definicji zjawiska używają koncepcji trzech atrybutów w modelu 3V – volume (objętość), variety (różnorodność), velocity (szybkość przetwarzania) – model ten opisano po raz pierwszy w 2001 roku w ramach raportu META Group. Ta sama firma, już jako Gartner, w 2011 roku poszerzyła go o dwa kolejne wymiary – zmienność (variability) i złożoność (complexity). Również takie firmy, jak IBM czy SAS definiują Big Data w oparciu o warianty modelu Gartnera.
Jak zarządzać big data?
Konieczność zarządzania dużymi woluminami danych wymusiła na firmach specjalizujących się w infrastrukturze IT nowe rozwiązania w zakresie składowania (sewerów i pamięci masowej), a także oprogramowania. Kluczowymi technologiami i narzędziami na chwilę obecną są: oprogramowanie Apache Hadoop, projekt Stratosphere a także model cloud computing, umożliwiającym działanie zasobów informatycznych firm w tzw. chmurze. [Tabakow, Korczak, Franczyk, „Big Data – definicje, wyzwania i technologie informatyczne]
Gdzie zastosowanie znajduje big data?
Rozwój baz danych znajduje swoje zastosowanie w niemal każdej dziedzinie życia – od telekomunikacji i nowych technologii internetowych po medycynę i rozwój dronów. Wg szacunków, w 2020 roku liczba danych wygenerowanych przez ludzkość osiągnie 40 zetabajtów (gdzie jeden zetabajt odpowiada miliardowi terabajtów informacji). Na chwilę obecną około 90% ze zbiorów stanowią tak zwane dark data – czyli dane nieusystematyzowane, takie, do których nie mamy dostępu jako do woluminów ustrukturyzowanych. Wraz ze wzrostem gromadzonych danych pojawiła się potrzeba takiej ich analizy, która pozwoliłaby na otrzymanie wymiernych korzyści w postaci wiedzy o nawykach i zachowaniach jednostek w kontekście większej całości. Słowem – w najbliższych latach czeka nas swoista praca nad polepszeniem „user experience” – z tym, że 'userem’ będą maszyny, którym potrzebny będzie coraz lepszy dostęp do ustrukturyzowanych danych dla analizy.
Big data, a sztuczna inteligencja
Rozwój analityki Big Data nierozerwalnie łączy się z machine learningiem, a w szerokim ujęciu – z rozwojem sztucznej inteligencji, jednak bardzo ważne jest wprowadzenie rozróżnienia między tymi dziedzinami wiedzy w oparciu o różnice i wzajemne relacje. Machine learning, czyli samouczenie maszynowe lub uczące się systemy, ma na celu m.in wykrywanie nieznanych prawidłowości w bazach danych, tworzenie analogii i modyfikowanie danych, innymi słowy jest efektem dopracowania algorytmów i zautomatyzowanych systemów analitycznych, opierających się na Big Data i będących podstawą dla rozwoju sztucznej inteligencji. Co przyniesie nam przyszłość? Bardzo możliwe, że analitykę Big Data przez AI będzie można zastosować w tzw. marketing automation.