Szybki przyrost danych niestrukturalnych jest poważnym wyzwaniem dla przedsiębiorstw. Repozytoria danych, określane jako data lakes, mają duże szanse na odegranie ważnej roli przy wydobywaniu wartościowych informacji biznesowych z gigantycznej ilości zbiorów danych (big data) wytwarzanych w ekosystemach ICT.

Źródło: EMC Corp.

Źródło: EMC Corp.

Podobnie jak „big data”, termin „data lake” często jest deprecjonowany i traktowany jako marketingowy slogan dotyczący produktów obsługiwanych przez rozwiązania Hadoop. Jednocześnie koncepcja „jeziora danych” coraz częściej rozumiana i traktowana jest jako sposób opisania dowolnie dużego zasobu danych, w którym wymagania dotyczące schematu i samych danych nie są zdefiniowane do momentu, w którym pojawi się zapytanie o konkretne informacje. Skalowalne repozytoria przeznaczono do przechowywania różnego rodzaju zasobów, pochodzących z różnych źródeł i generowanych przez  tradycyjne obciążenia (katalogi główne i współużytkowane pliki), jak i obciążenia nowej generacji (analiza danych, aplikacje udostępniane w chmurze i mobilne systemy synchronizacji i współużytkowania plików). Dane w nich zgromadzone są przetwarzane za pomocą różnych mechanizmów przez odrębne systemy pamięci masowej, bez konieczności zarządzania nimi.

Co to jest data lake i jak działa?

software-557616_1280Data lake to repozytorium, w którym jest przechowywana ogromna ilość nieprzetworzonych danych w oryginalnym formacie. Podczas gdy hierarchiczna hurtownia danych przechowuje informacje w plikach i folderach, data lake do przechowywania danych wykorzystuje płaską architekturę. Każdy element znajdujący się w repozytorium ma przypisany unikalny identyfikator i jest oznaczany zestawem znaczników metadanych. Gdy pojawia się zapytanie biznesowe, repozytorium może zostać przeszukane pod kątem określonych informacji, a następnie mniejszy, wydzielony zestaw danych może zostać poddany analizie, co ma pomóc w rozwiązaniu określonego problemu.

Koncepcja data lake polega na konsolidacji infrastruktury do przechowywania i przetwarzania danych nieustrukturyzowanych, znajdujących się poza tradycyjnymi relacyjnymi bazami danych. W data lake mogą być jednocześnie przechowywane katalogi domowe pracowników, archiwa dokumentów elektronicznych, pliki multimedialne lub logi z systemów e-commerce. Oczywiście podstawą data lake nie może stać się dowolna macierz plikowa, ale taka, która zapewnia skalowalność, elastyczność i dostęp do danych za pośrednictwem różnych protokołów (m.in. dostęp obiektowy i współpraca z rozwiązaniami analitycznymi typu Hadoop) – taką definicję podaje Radosław Piedziuk, dyrektor ds. sprzedaży rozwiązań Isilon w firmie EMC.

Data lake pozwala na maksymalnie szybką, zaawansowaną i kontekstową analizę danych nie tylko historycznych, ale także tych generowanych w czasie rzeczywistym (np. w ramach procesów transakcyjnych). Jest to możliwe m.in. dzięki dynamicznemu reroutingowi realizowanemu nie na podstawie tablic routingu, ale kontekstu i z wykorzystaniem technologii przetwarzania in-memory, mogącej zastąpić wolniejsze i kosztowne systemy business intelligence – zwraca uwagę Michael Cucchi, dyrektor działu Product Marketing for Data w firmie Pivotal. Przetwarzanie in-memory daje firmom lepszy wgląd w prowadzone działania, poprawia ich efektywność oraz obniża koszty IT.

Pojęcie data lake jest często powiązane z obiektowymi pamięciami masowymi opartymi na platformie Hadoop. W tym przypadku dane organizacji najpierw są umieszczane na wspomnianej platformie, a następnie przetwarzane za pomocą narzędzi do analiz biznesowych i eksploracji danych.

Data lake wg EMC

Data lake wg EMC

Pozyskiwanie nowych danych do data lake może następować stopniowo. W jeziorze najpierw gromadzone są tylko surowe dane. Następnie, w miarę jak przybywa ich coraz więcej, a użytkownicy i maszyny tworzą metadane, repozytorium dojrzewa i rozszerza się jego zastosowania. Wcześniej niejednoznaczne, rozproszone i sprzeczne pojęcia, zamieniają się na dające się odczytać informacje zrozumiałe dla danego profilu działalności biznesowej. Dojrzałość danych jest osiągana wskutek interakcji użytkownika i informacji zwrotnych pochodzących z warstwy zarządzania metadanymi. Te interakcje nieustannie doskonalą repozytorium i stwarzają większe możliwości analiz. Dzięki data lake użytkownik może wybrać to, co jest dla niego istotne, nie przejmując się resztą. Nie jest wymagana dokładna klasyfikacja danych. Do wyławiania informacji z jezior danych potrzebni są specjaliści określani jako „data scientists” (termin spopularyzowany przez „Harvard Business Review” już w 2012 r.), którzy zajmują się analizą danych nieuporządkowanych, w szczególności big data.

Nadszedł czas, żeby organizacje rozważyły wykorzystanie data lake jako platformy do zarządzania danymi, przeznaczonej do zaawansowanych analiz i prognozowania – przekonuje Bill Schmarzo, CTO w EMC Consulting. Data lake zapewnia nie tylko dostęp do repozytorium, w którym gromadzone są wszelkiego rodzaju dane strukturalne i niestrukturalne, zarówno wewnętrzne jak i pochodzące spoza organizacji, ale również umożliwia samodzielne przeprowadzanie analiz, na podstawie których można uzyskać wartościowe informacje oraz przygotowywać strategie rozwojowe dla przedsiębiorstwa.

Fundamentem rozwiązań typu data lake są następujące elementy:

  • repozytorium dla dużych zbiorów danych (big data),
  • zarządzanie metadanymi,
  • ramy aplikacyjne do przechwytywania i nadawania kontekstu informacjom zwrotnym od użytkownika.

repository-995180_1280Koncepcja date lake jest rozwijana, a repozytoria zaczynają wyglądać jak małe hurtownie danych. I chociaż panuje przekonanie, że data lakes nie zastąpią hurtowni danych dla przedsiębiorstw, to zdaniem Mike’a Gualtieri, analityka Forrester Research, repozytoria oparte na platformie Hadoop mogą stać się alternatywą dla hurtowni danych klasy enterprise.

Więcej o repozytoriach data lakes:

  • i przestrogach analityków firmy Gartner przed błędnymi interpretacjami dotyczącymi koncepcji data lake,
  • innych spojrzeniach na repozytoria danych,
  • zaletach, potencjale biznesowym i technologicznym,
  • zastosowaniach i ofercie rynkowej

=> w artykule Repozytoria data lakes – zaawansowana analiza danych oraz w wywiadzie z Radosławem Piedziukiem, dyrektorem ds. sprzedaży rozwiązań Isilon w firmie EMC – opublikowanym w miesięczniku “IT Professional”, sierpień 2015.

Napisane przez Stefan Kaczmarek