Dzisiejsza Sieć to miejsce niekontrolowanego rozrostu danych i nadprodukcji big data. Internauci w ciągu sekundy pobiorą ponad 800 aplikacji, przeprowadzą 1 885 rozmów na Skype, wrzucą 2 760 fotek na Instagram oraz 10 205 tweetów na Twittera, a także dokonają ponad 108 tys. odsłon na YouTube i blisko 51 tys. wyszukiwań w Google.

W ciągu sekundy globalna Sieć powiększa się o około 30 GB danych. Mniej więcej tyle „ważył” cały internet 20 lat temu. To pokazuje szalone tempo, w jakim rozwijają się dzisiaj duże zbiory danych big data. W ciągu kwadransa internet rozrasta się średnio o 20 biliardów bitów danych. Analogową równowartością tej liczby byłyby wszystkie dzieła składające się na kanon literatury światowej. Bez cienia przesady możemy więc określić nasze czasy mianem „epoki danych” czy cyfrowego potopu – mówi Piotr Prajsnar, CEO Cloud Technologies.

Nadprodukcji danych w Sieci towarzyszy zwiększanie szybkości transferu danych. Według raportu Akamai Technologies „Global Average Connection Speeds and Global Broadband Connectivity”, prędkość Sieci w II kw. 2015 r. wzrosła globalnie o 3,5 proc, do poziomu 5,1 Mb/s. Na 144 badane państwa aż w 110 krajach zanotowano zwiększenie przepustowości łączy. Polski internet może pochwalić się średnią prędkością sięgającą 7,6 Mb/s.

Lewandowski a big data

20160206_152926Jak szybko informacja obiega dziś internet? Innymi słowy: z jaką prędkością powiększają się zbiory big data w Sieci? Dobrze ilustruje to casus… Roberta Lewandowskiego. Napastnik Bayernu Monachium strzelając pięć bramek w 9 minut w meczu z Wolfsburgiem we wrześniu ub.r. “rozbił internetowy bank”. W ciągu doby po udostępnieniu wideo, w którym Lewandowski rozbija obronę Wolfsburga, jego nazwisko pojawiło się na blisko 2 mln stron. To tylko jeden z przykładów eksplozji cyfrowych treści.

W ciągu doby dociera do nas potencjalnie tyle treści, ile nasi dziadkowie konsumowali średnio przez całe swoje życie. Big data to nie wyłącznie gigantyczna ilość danych, ale przede wszystkim to, co możemy z tymi danymi zrobić. A dzięki zaawansowanej analityce internetowej możemy zdziałać już naprawdę dużo – mówi Łukasz Kapuśniak, Chief Big Data Officer Cloud Technologies.

Analityka danych nie ogranicza się wyłącznie do posprzątania naszej przeglądarki z reklamowego spamu. Ważne miejsce zaczyna zajmować analityka predyktywna, która na podstawie  danych umożliwia przewidywanie np. kryzysów finansowych na światowych rynkach, katastrof ekologicznych czy turbulencji politycznych. Korzysta z niej choćby amerykańska CIA. Korzystają z niej również organizacje porządku publicznego czy naukowcy. A w niedalekiej przyszłości dzięki internetowi rzeczy dane będą produkować już całe miasta (smart cities).

Analityka danych imperatywem

O tym jak szybko rośnie internet i wolumen danych, świadczy rozwój centrów danych. Według prognoz IDC do 2017 r. na całym świecie będzie ponad 8,6 mln ośrodków data center. PMR Research w raporcie „Rynek centrów danych w Polsce 2015” szacuje, że każdego roku światowa powierzchnia w centrach danych powiększa się o 4-7 tys. m2.

Z internetowego boomu danych korzysta dziś coraz więcej firm. Rozbudowują one własne systemy CRM oraz ERP, integrując je z zewnętrznymi hurtowniami danych DMP (Data Management Platform).

binary-503583_1280Danych w Sieci jest tak dużo, są tak rozdrobnione i rozprzestrzeniają się z taką prędkością, że żaden wewnętrzny system klasy BI w firmie nie poradzi sobie z ich przetworzeniem i zmonetyzowaniem. Rozwiązaniem stają się wówczas platformy DMP, które uzupełniają systemy CRM i ERP, działając jako repozytoria i agregatory danych o internautach, przetwarzając je z różnych źródeł. Dzięki nim bank czy firma uzyskują 360-stopniowy obraz swojego klienta w ciągu kilku chwil i wiedzą, jaką ofertą mogą mu zaproponować. Platformy DMP jako jedyne są dziś w stanie poradzić sobie z zarządzaniem danymi w tym chaotycznym środowisku, jakim jest internet – przekonuje Piotr Prajsnar.

Według badań przeprowadzonych przez Intel w Europie, z analityki danych korzysta średnio co czwarte przedsiębiorstwo (25 proc.). W Polsce takie rozwiązania wykorzystuje jednak raptem 18 proc. firm (pod tym względem plasujemy się za Czechami, Słowacją oraz Węgrami). Kolejne 6,7 proc. ankietowanych firm w Polsce deklarowało wdrożenie takich rozwiązań do końca 2015 roku.

– Gros danych generowanych w Sieci wcale nie pochodzi od ludzi. Często jest dziełem botów bądź programów. To zjawisko określa się jako „dirty data”. Szacuje się, że już teraz od 50 do nawet 80 proc. czasu, jaki badacze danych spędzają w firmach nad analizą big data, pochłania oczyszczanie danych – mówi Piotr Prajsnar.

IDC szacuje, że obecnie udaje nam się pożytecznie zagospodarować tylko 20 proc. całego wolumenu big data. Do 2020 r. będziemy w stanie sensownie wykorzystać 30 proc. danych wygenerowanych w Sieci.

Czytaj też: Kim jest badacz danych?

Napisane przez Stefan Kaczmarek