„Ciemne” (dark) i „brudne” (dirty) dane zalewające dziś internet spędzają sen z powiek analitykom i marketerom. Według szacunków IDC około 90 proc. danych w internecie to dark data, a blisko 10 proc. wszystkich danych w mediach społecznościowych to dirty data. Czym są i skąd się biorą – wyjaśniają szefowie firmy Cloud Technologies – Piotr Prajsnar, CEO oraz Łukasz Kapuśniak, Chief Big Data Officer.

Przed nami implozja big data. Według szacunków Oracle, coroczny przyrost danych w internecie kształtuje się obecnie na poziomie 40 proc. (ponad 6 ZB), a w 2020 r. będzie już kilka razy większy (ok. 45 ZB).

Cyfrowe średniowiecze?

W lutym 2015 r. Vinton Gray Cerf, „ojciec internetu” i wiceprezydent Google przemawiając do zgromadzonych w San Jose członków American Association for the Advancement of Science ostrzegał przed nadchodzącym „cyfrowym średniowieczem”. Jako główny katalizator „Digital Dark Age” wymienił implozję danych (big data), zdominowanych przez dark data, czyli dane nieuporządkowane, nieustrukturyzowane, nieprzetworzone i surowe. Podkreślał, że to właśnie inwazja dark data jest dziś największym wyzwaniem stojącym przed analitykami danych. Od wyniku tej konfrontacji będzie zależała przyszłość wielu cyfrowych biznesów.

 Puszka Pandory czy żyła złota?

Ciemna strona danych polega nie tylko na tym, że stanowią zbiory pełne chaosu, lecz również na dobrą sprawę nie wiadomo, co w sobie kryją. Mogą być jak puszka Pandory, ale także okazać się żyłą złota, zawierając informacje, które z powodzeniem organizacje mogą zmonetyzować bądź wykorzystać do uzyskania pełnego profilu klienta.

data-978962_1280Dark data liczy się już w zetabajtach. Według obliczeń IDC w 2015 r. aż 90 proc. danych wygenerowanych w Sieci będą stanowiły chaotyczne i nieuporządkowane dane. Nie podjęcie wysiłku ich analizy i próby odczytania zakodowanych w nich informacji dla biznesu może oznaczać utratę szansy na lepsze poznanie swojego klienta, a co za tym idzie możliwości weryfikacji biznesowej strategii firmy czy wzmocnienia działań CRM-owych.

Często firmy gromadzą dane w surowym stanie – „na wszelki wypadek”, „na zapas”, „na później”, łudząc się, że przyjdzie czas na ich analizę. Równie często ignorują dark data, nie wiedząc jak się do nich zabrać lub postrzegając takie przedsięwzięcie jako syzyfową pracę. W rezultacie wiele potencjalnie cennych informacji przepada bezpowrotnie.

Dark data, czyli zmarnowany potencjał

Dark data to wciąż stosunkowo słabo eksplorowany obszar, nie tylko w sensie praktycznym, ale i teoretycznym, stąd też pojawia się wiele różnych definicji tego rodzaju danych. Gartner w swoim słowniku IT („Gartner IT Glossary”) określa je jako: „Zasoby informacyjne, gromadzone i przetwarzane przez organizacje podczas ich codziennej aktywności biznesowej, które na ogół nie nadają się do wykorzystania w żadnym sensownym celu”. Natomiast Cory Janssen w Techopedii pisze: „Dark data to rodzaj nieustrukturyzowanych, nieotagowanych i niewykorzystanych danych, które zalegają w repozytoriach danych i nie są analizowane ani przetwarzane. Można je znaleźć w plikach dziennika (log files) oraz archiwach danych, przechowywanych w dużych przedsiębiorstwach”.

Zdaniem Chief Big Data Officer firmy Cloud Technologies, dark data można opisać w trojaki sposób. Po pierwsze, są to dane, z których istnienia przedsiębiorstwo w ogóle nie zdaje sobie sprawy, więc ani ich nie gromadzi, ani nie przetwarza. Po drugie, mogą to być dane, o których przedsiębiorstwo wie i je gromadzi, lecz nie ma pojęcia, jak je przetworzyć. Po trzecie, to również dane, o których istnieniu przedsiębiorstwo wie i nawet dysponuje narzędziami do ich analizy, lecz jej nie podejmuje, ponieważ uznaje ją za zbyt kosztowną lub obawia się, że jej rezultaty będą niewspółmierne z koniecznym nakładem pracy. Dopiero połączenie tych definicji daje szerszą perspektywę tego, czym jest „Dark Data”. Przyjmując perspektywę biznesową, dark data to dane, które (z różnych powodów) nie są monetyzowane przez organizacje.

 Dirty data – zanieczyszczone dane

Obinary-797263_1280 ile dark data można by określić jako „zmarnowany potencjał”, o tyle już dirty data można porównać do internetowego trolla big data marketingu. Jeżeli ze zbiorów dark data za pomocą odpowiednich narzędzi analitycznych można wydobyć informacje, wzorce i zależności, to w przypadku dirty data mamy do czynienia z totalnym cyfrowym bezładem. Media społecznościowe (głównie Facebook) to największe generatory i kopalnie danych o internautach. Nic dziwnego, że wiele firm koncentruje się na analizie danych wyłącznie tutaj. Bazując tylko na takich informacjach, jak polubienia, tagi, hashtagi itp. zgromadzone na fanpejdżach – przedsiębiorstwo buduje swoją strategię marketingową. A to poważny błąd przestrzegają szefowie Cloud Technologies, ponieważ lwia część danych z portali społecznościowych to zanieczyszczone dane (dirty data). Według analiz Networked Insights, blisko 10 proc. takich danych nadaje się do wyrzucenia, ponieważ wcale nie pochodzą od realnych użytkowników. Są generowane przez sztuczne boty (53%), ruch wytwarzany przez spamerów lub osoby opłacane przez konkurencyjne firmy (23%) bądź przez nieaktywne konta (11%). W wyniku takiego “zatruwania danych”powstają dirty data, które wprowadzają w błąd przede wszystkim marketerów, dostarczając im bezużyteczne informacje.

Już teraz od 50 do nawet 80 proc. czasu, jaki badacze danych spędzają w firmach nad analizą dużych zbiorów danych (big data) pochłania “oczyszczanie danych z dirty data”. W żargonie analitycznym określa się to jako janitor work, czyli pracę „dozorcy” lub „woźnego” danych, choć pasowałoby tu raczej określenie “dirty job”. A jest co robić, ponieważ według DOMO tylko w ciągu minuty użytkownicy samego Facebooka tworzą 2 460 000 nowych treści.

Niepokojące jest też to, że udział dirty data w ogólnym strumieniu big data w Sieci w ostatnim roku wzrósł aż o 658 proc. Niektóre firmy przyznają wprost, że nawet 90 proc. postów na ich fanpage’ach w mediach społecznościowych spokojnie mogą zaklasyfikować jako śmieciowe. Dirty data zanieczyszczają wartościowe big data, które stanowią dla marketerów najważniejsze źródło informacji o klientach, ponieważ dotyczą ich intencji, gustów i zachowań.

Piotr Prajsnar, CEO Cloud Technologies

Piotr Prajsnar, CEO Cloud Technologies

Żeby nie utonąć i poradzić sobie z zalewem dirty i dark data, warto poprosić o pomoc badaczy danych (data scientists), posługujących się specjalistycznymi narzędziami analitycznymi, takimi jak np. silniki behawioralne, które analizują anonimowe dane o użytkownikach wielopłaszczyznowo i z wielu źródeł. BehavioralEngine to silnik behawioralny z wbudowanym antybotem opracowany przez spółkę Cloud Technologies, pozwalający na konwertowanie dirty data na big data. Dostarcza narzędzia do personalizowania reklam internetowych w modelu RTB (Real Time Bidding). Dziennie przetwarza ponad 5 TB danych i monitoruje ponad pół miliona witryn www.

Dane – nowa waluta epoki cyfrowej

Wartość anonimowych danych zgromadzonych o internautach z Unii Europejskiej w 2020 roku zbliży się do okrągłego biliona euro – szacują eksperci Boston Consulting Group w swoim raporcie „The Value of Our Digital Identity”. Oznacza to, że wartość cyfrowych śladów pozostawionych przez europejczyków w Sieci będzie odpowiadała około 8 proc. PKB krajów całej UE.

Według badań Gartnera wydatki na analitykę danych już teraz rosną w tempie dwucyfrowym. Do 2017 r. 30 proc. danych, jakimi będą dysponowały przedsiębiorstwa, będzie pochodziło z hurtowni big data. IDC podaje, że już teraz 70 proc. dużych firm korzysta z danych o użytkownikach gromadzonych i przetwarzanych przez zewnętrzne platformy big data. Zdaniem analityków IDC do 2019 r. tym tropem pójdą wszystkie duże organizacje. Coraz więcej firm będzie także monetyzować własne zbiory danych, podwajając inwestycje w analitykę big data oraz wyszukując unikatowych danych, które pozwolą im na uzyskanie biznesowej przewagi nad konkurencją.

Czytaj też:

O danych jako nowej ropie naftowej w cyfrowej ekonomii

Big data na lotnisku i kolei

Drony i big data dla rolników i górników

Napisane przez Stefan Kaczmarek