Takie ciekawe pytanie na swoim blogu stawia Bill Schmarzo, CTO Dell EMC Services, i zastanawia się, co może zadecydować o tym, że szeroko rozumiana nauka poświęcona danym i ich analizie (algorytmy, narzędzia i aplikacje big data) zostanie zaliczona w poczet dyscyplin naukowych. Według niego, internet rzeczy będzie tym rozwiązaniem, które przybliży badaczy danych do tradycyjnych naukowców, stawiających kluczowe pytanie: “dlaczego” określone działania prowadzą do przewidywalnych rezultatów.
Nauka – definicje
W encyklopedii PWN czytamy: „w literaturze naukowej i mowie potocznej w języku polskim, używany w wielu różnych, choć pokrewnych i powiązanych ze sobą znaczeniach; wobec wieloznaczności pojęcia, różnorodności desygnatów terminu „nauka” oraz wielości aspektów, w kontekście których może być rozpatrywana, nie ma jednej, uniwersalnej definicji nauki, zadawalającej wszystkich i obejmującej wszystkie aspekty znaczeniowe tego terminu”.
„Nauka” – to intelektualna i praktyczna aktywność obejmująca systematyczną analizę struktur i zachowań świata fizycznego i naturalnego poprzez obserwację i eksperymenty – taką z kolei definicję przytacza Bill Schmarzo, nazywany „dziekanem big data”. Nauka funkcjonuje w poszczególnych dziedzinach w oparciu o określone, specyficzne reguły, takie jak prawa fizyki, termodynamiki, elektromagnetyzmu, matematyki, aerodynamiki, prawa ruchu Newtona itp. Naukowcy mogą stosować je, aby zrozumieć, dlaczego określone działania prowadzą do pewnych rezultatów. W wielu dziedzinach dla naukowców (lekarze lub inżynierowie) krytyczne znaczenie (w niektórych przypadkach, to nawet kwestia życia i śmierci) ma wiedza, dlaczego coś się wydarzy.
- W farmacji: chemicy muszą wiedzieć, jak pewne substancje chemiczne można łączyć (receptury), aby uzyskać pożądany efekt leczenia.
- W inżynierii mechanicznej: inżynier budowlany musi wiedzieć, jak należy połączyć i uformować wybrane materiały, aby fundamenty wytrzymały ciężar 40-piętrowego budynku.
- W elektrotechnice: inżynierowie elektrycy muszą wiedzieć, ile potrzebnych jest przewodów, jak je zainstalować oraz jaki rodzaj okablowania wybrać, żeby zapewnić optymalne zasilanie budynku lub pojazdu.
Ludzie, czyli maszyny podejmujące nielogiczne decyzje
W przypadku nauki o danych początkowo brakowało charakterystycznego dla wielu dyscyplin naukowych kluczowego pytania „dlaczego?” – zauważa Schmarzo i przytacza fragment artykułu Chrisa Andersona z 2006 r. “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”:
„Google podbił świat reklamy niczym więcej niż matematyką stosowaną. Nie udawał, że wie coś o kulturze i konwencji reklamy – po prostu przyjęto założenie, że lepsze dane, z lepszych narzędzi analitycznych zwyciężą. I Google miał rację“.
Dzięki dostępności dużej ilości szczegółowych danych i bardzo wydajnych narzędzi analitycznych, możliwe jest określenie, co działa bez konieczności martwienia się tym, „dlaczego” to działa. Być może, jeśli chodzi o zachowania ludzkie, nie ma żadnych reguł, które mogą być wykorzystywane do zrozumienia (lub skodyfikowania), dlaczego ludzie podejmują określone działania w określonych warunkach. W rzeczywistości, już wiemy, że ludzie to maszyny podejmujące nielogiczne decyzje (źr. „Human Decision-Making in a Big Data World”).
IoT i fizyka na torze kolizyjnym
Według Schmarzo, istnieją jednak pewne nowe rozwiązania, które będą przybliżały “data science” do innych nauk. Przede wszystkim będzie to internet rzeczy (IoT – Internet of Things), który wymusi na organizacjach zrozumienie i usystematyzowanie, dlaczego określone operacje prowadzą do przewidywalnych rezultatów. Na przykład, dla producentów krytyczne znaczenie będzie miało zrozumienie (i standaryzacja), dlaczego określone komponenty produktu najczęściej psują się, co jest tego przyczyną (niewłaściwy materiał użyty do budowy komponentu, zły projekt, niestaranna instalacja, inne?).
Jako przykład współpracy między analityką a fizyką, Schmarzo podaje wykorzystanie koncepcji „digital twins” przez koncerny, takie jak General Electric, budujące cyfrowe modele, które stanowią lustrzane odbicia fizycznych struktur ich produktów. To pozwala im nie tylko przyspieszyć rozwój nowych produktów i usług, ale również testować je w większej liczbie sytuacji, w celu określenia takich wskaźników, jak: średni czas do awarii, wytrzymałość czy obciążenia strukturalne.
W ciągu 3-5 lat, miliardy rzeczy będą reprezentowane przez tzw. digital twins – dynamiczny software’owy model fizycznej rzeczy lub systemu. Wykorzystując fizyczne dane (do określania sposobu, w jaki komponenty danej rzeczy działają i reagują na środowisko), jak również dane dostarczane przez czujniki w świecie fizycznym, digital twins mogą być używane do: analizy i symulacji rzeczywistych warunków, reagowania na zmiany, poprawiania działania i dodawania wartości. Digital twin funkcjonuje jako proxy do łączenia specjalistów (np. techników) i tradycyjnych urządzeń do monitorowania i kontroli (np. manometry).
Jako że światy fizyki i IoT przenikają się, badacze danych coraz bardziej będą przypominać tradycyjnych „naukowców’, w miarę jak ich cyfrowy świat zacznie być regulowany takimi samymi prawami, jakie obowiązują w takich dziedzinach, jak: fizyka, aerodynamika, chemia czy elektryka.
Na stronie Politechniki Warszawskiej można znaleźć informacje o zapisach na studia podyplomowe Data Science – algorytmy, narzędzia i aplikacje dla problemów typu Big Data.
Badacze danych i fizycy łączcie się
W świecie internetu rzeczy, konsekwencje pomyłek mogą oznaczać konieczność poniesienia bardzo poważnych kosztów prawnych i finansowych. Linie lotnicze nie mogą sobie pozwolić na katastrofy samolotów, producenci autonomicznych samochodów na to, że będą one wjeżdżały w pieszych, a farmaceuci – na przypadkowe zabijanie pacjentów, przestrzega Schmarzo.
Ze świata IoT, w którym organizacje łączą analitykę (uczenie maszynowe i sztuczną inteligencję) z fizycznymi produktami, wyłania się dyscyplina naukowa „data science” wykraczająca daleko poza tylko naukę o danych. Zespoły badaczy danych działające w internecie rzeczy powinny poszerzać zakres swojej aktywności, współpracując z inżynierami i fizykami. Ułatwi to zrozumienie i odpowiedź na ważny aspekt analitycznych modeli – pytanie: “dlaczego rzeczy się zdarzają” (także w ujęciu ilościowym). Jeśli nie, to koszty mogą być katastrofalne – konkluduje Schmarzo (oryginalny wpis tutaj).
Trudno powiedzieć, czy Data Science to nauka. Na pewno jest to dosyć chwytliwa nazwa zawodu. Jestem natomiast prawie pewien (lub w języku analizy danych temu zdarzeniu przypisuje duże prawdopodobieństwo), że niedługo powstanie nauka zajmująca się Big Data. Nie zapowiada się jednak do tej pory, żeby miała być to niezależna dziedzina naukowa. Będzie raczej bardzo mocno osadzona w osiągnięciach matematyki, statystyki, czy jak wspomniał autor fizyki