Badacz danych (data scientist) to zdaniem Hala Variana, głównego ekonomisty Google, najbardziej seksowny zawód tej dekady. Rynek zmaga się z deficytem specjalistów od big data i analityki internetowej, w samych tylko Stanach Zjednoczonych do 2020 roku liczba wakatów na tych stanowiskach może sięgnąć nawet 4 milionów.
Terminu „big data scientist” po raz pierwszy użyli w 2008 r. Jeff Hammerbacher i D.J. Patil, podkreślając konieczność analizowania danych w sieci. Po latach amerykański Forbes zaliczył obu Panów do grona siedmiu najbardziej wpływowych badaczy danych na świecie, tuż za Larrym Pagem, szefem Google.
Poszukiwany big data scientist
Badacz danych to wciąż jeszcze młody zawód, który nie zdołał okrzepnąć na rynku i zakorzenić się w powszechnej świadomości. Kiedy w 2008 r. portal LinkedIn postanowił przebadać profile zawodowe swoich użytkowników okazało się, że nikt wówczas nie zadeklarował się jako big data scientist. Za to w 2013 r. tę profesję wpisało w swoich profilach już 3 440 użytkowników portalu. Dzisiaj to jeden z najczęściej poszukiwanych specjalistów w Dolinie Krzemowej.
Niestety, na rynku odczuwalny jest dotkliwy brak wykwalifikowanych badaczy danych. Walczą o nich przede wszystkim firmy zajmujące się analityką internetową. Josh Sullivan, lider niemal pół tysięcznej grupy specjalistów od big data w firmie konsultingowej Booz Allen Hamilton twierdzi, że użytkownicy, w których profilu zawodowym na LinkedIn widnieje wpis „data science” otrzymują dziś od rekruterów nawet sto maili dziennie z propozycją zmiany pracy.
Dlaczego badacze danych są tak łakomym kąskiem na celowniku headhunterów? Specjaliści zajmujący się analityką dużych zbiorów danych to pracownicy sektora gospodarki cyfrowej, gdzie główną rolę odgrywa informacja i dostęp do danych, z których trzeba wydobyć wartość biznesową. To właśnie dane są nową ropą naftową – jak w 2006 r. ładnie ujął to Clive Humby.
– Pracownicy sektora big data są specjalistami od pozyskiwania, analizowania, segmentowania i interpretowania informacji, jakie internauci pozostawiają po sobie na witrynach. Ich wiedza jest kombinatem wiadomości z zakresu ekonomii, matematyki, statystyki oraz nowych technologii. Właśnie do tych nauk nawiązuje termin „scientist” (naukowiec, badacz), używany w nazwie tego zawodu – tłumaczy Piotr Prajsnar, CEO Cloud Technologies.
Jak wynika z raportu McKinsey Global Institute, badacz danych już teraz jest jednym z najbardziej pożądanych zawodów nie tylko w USA, ale i na całym świecie. Do 2020 r. na amerykańskim rynku pracy 1,5 mln wolnych stanowisk będzie czekać na obsadzenie przez specjalistów od big data, a cały deficyt stanowisk związanych z rozwiązaniami big data może sięgnąć nawet ponad 4 mln.
Magister big data
Brak analityków danych dostrzegły już amerykańskie uczelnie wyższe. W odpowiedzi na alarmujące sygnały spływające ze środowisk biznesowych włączyły do swojej oferty edukacyjnej studia dedykowane zagadnieniom big data. I tak na przykład Uniwersytet w Iowa uruchomił w 2013 r. kierunek Analityka Biznesowa i Systemy Informacyjne. Na pierwszy rok studiów zapisało się ponad 170 studentów.
Na polskim rynku, który mimo wszystko jeszcze raczkuje jeżeli chodzi o big data, również odczuwalny jest brak badaczy danych. Już obecnie na portalach z ogłoszeniami o pracę coraz częściej poszukiwane są osoby z doświadczeniem w zakresie rozwiązań big data. Zapotrzebowanie zgłasza sam biznes. Według badania InsightExpress, 8 na 10 polskich menedżerów IT sądzi, że big data będzie stanowiło trzon strategii ich przedsiębiorstw w ciągu najbliższych 5 lat.
W polskiej nauce pierwsze oznaki zainteresowania potencjałem tej branży są już widoczne. Szkoła Główna Handlowa w październiku ub. r. uruchomiła pierwszą edycję dwusemestralnych studiów podyplomowych: Inżynieria danych – big data. Koło Statystyki i Demografii SGH organizuje konferencje przybliżające tę tematykę zainteresowanym studentom. Podobnie Instytut Podstaw Informatyki PAN zachęca do podjęcia studiów podyplomowych na kierunku Metody i narzędzia nowoczesnej analizy danych w biznesie. Z kolei Politechnika Warszawska od 2012 r. organizuje seminaria poświęcone tematyce Big Data.
Big data = big money?
Oprócz obiecujących perspektyw zawodowych kuszą także zarobki. Frank J. Ohlhorst, dziennikarz IT zaczął zajmować się tematyką big data zanim jeszcze stało się to modne. W książce „Turning Big Data into Big Money” przywołał zasadę 4V, za sprawą której big data może (ale wcale nie musi) generować wielkie pieniądze (big money).
– Te 4V to: Volume (ogromna ilość danych), Variety (ogromna ich różnorodność), Veracity (wiarygodność danych) oraz Velocity (zawrotna szybkość ich generowania). Te cztery czynniki składają się na wartość danych, w sensie zarówno merytorycznym, jak i czysto finansowym – tłumaczy Łukasz Kapuśniak, Chief Big Data Officer w Cloud Technologies.
Ohlhorst jednak nie odpowiedział wprost na pytanie: ile można zarobić na danych? Pokazuje raczej, na czym należy się skupić, żeby móc na nich zarobić. O oszacowanie średnich wynagrodzeń badaczy danych w USA pokusił się portal DataJobs. Według jego analityków, zarobki specjalisty ds. big data w USA wahają się w granicach 50-75 tys. USD rocznie. W przypadku doświadczonych analityków mówimy już o widełkach cenowych 65–110 tys. USD. Z kolei według Burtch Works, mediana zarobków badacza danych ze stażem do 3 lat, który może pochwalić się dyplomem uniwersyteckim, dobrą znajomością języków programowania oraz metod statystycznych, wynosi 80 tys. USD. Pracujący w branży dłużej mogą liczyć nawet na 150 tys. USD. W USA są to już zarobki, które są porównywalne do pensji lekarzy czy prawników, a także wyspecjalizowanych programistów. W kraju nad Wisłą w dostępnych raportach płacowych zawody takie jak big data scientist czy big data architect praktycznie nie występują i dlatego trudno na razie określić wynagrodzenia badaczy danych, których często kwalifikuje się do tej samej grupy wynagrodzeń, co np. programiści.
Epoka big (i smart) data
Big Data rośnie dziś w tempie dwucyfrowym, zaś dynamika wzrostu przekracza 40 proc. w skali roku. Wikibon prognozuje, że do 2017 r. wartość całego rynku osiągnie 47 mld USD. Już dziś należałoby mówić może nie tyle o “big”, co o “huge data”. Jak przewiduje Oracle, do 2020 r. Sieć będzie dziewięciokrotnie większa niż obecnie – wygenerujemy ponad 45 zetabajtów danych (obecnie to około 6 ZB). IDC przelicza, że na jednego mieszkańca Ziemi przypadnie wówczas ponad 5,2 GB danych.
– Obecnie wykorzystujemy stosunkowo niewielką część danych, średnio 20% całego wolumenu big data. IDC pociesza jednak, że do 2020 roku będzie to już 30%. Mimo istotnego skoku procentowego to jednak wciąż mało, ten procent trzeba zwiększać – mówi Łukasz Kapuśniak z Cloud Technologies.
Według prezesa Google, w 48 godzin produkujemy w internecie więcej danych, niż od początku powstania cywilizacji do 2003 r.
– Nie popadajmy jednak w obsesję ilości. Bardziej podstawową kwestią powinna być dla nas rozdzielczość czy też jakość danych, czyli to, co można z ich pomocą zrobić. Wówczas na pierwszym planie pojawia się pojęcie „smart data”, czyli danych już uporządkowanych i zinterpretowanych, pogrupowanych w profile behawioralne (profile zachowań) użytkowników internetu. To przetworzone dane, które przeszły przez warsztat wytrawnego badacza i stanowią solidną podstawę nie tylko do zbudowania konkretnej strategii komunikacyjnej, ale też do personalizacji Sieci – tłumaczy Piotr Prajsnar.
Warszawska spółka Cloud Technologies opracowała jedną z największych platform DMP (Data Management Platform) w naszej części Europy. Behawioralny silnik behavioralengine.com przetwarza zbiory danych big data w smart data i pozwala personalizować reklamy online oraz monetyzować dane gromadzone przez przedsiębiorstwa. Za pomocą tej platformy DMP dziennie jest przetwarzanych ponad 5 TB danych z ponad pół miliona witryn www. Składa się na nią ponad 70 mln profili użytkowników, podzielonych na ponad 100 segmentów i 5 000 atrybutów.
Pozostaw komentarz