Koncepcja repozytorium danych (ang. data lakes) staje się coraz atrakcyjniejszą opcją dla przedsiębiorstw, które mają do czynienia z coraz większą ilością danych. Data lake umożliwia łączenie różnych silosów danych oraz zwiększanie dostępności do danych w całej firmie, służąc jako scentralizowane repozytorium lub zbiór danych, niezależnie od kształtu i rozmiaru.

Organizacje mogą wykorzystywać repozytorium danych do pracy z narzędziami zorientowanymi na dane, w tym narzędzia, takie jak rozwiązania do optymalizacji zapytań, które pozwalają minimalizować przenoszenie danych, umożliwiając jednocześnie ulepszone przetwarzanie i analizę. A korzyści ekonomicznych nie można lekceważyć, gdyż organizacje coraz częściej wykorzystują pamięci masowe w chmurze i minimalizują koszty operacyjne poprzez konsolidację infrastrukturalnych silosów.

Najpierw chmury, teraz czas na „jeziora danych”

Według analityków Enterprise Strategy Group (ESG), data lakes to kolejny zyskujący na znaczeniu trend w branży ICT po usługach chmurowych. W ankiecie przeprowadzonej przez ESG wśród 325 specjalistów IT w organizacjach średniej wielkości (500 do 999 pracowników) i przedsiębiorstwach (zatrudniających 1000 lub więcej pracowników) w Stanach Zjednoczonych i Kanadzie, 78 proc. respondentów stwierdziło, że ich data lake znajduje się albo w chmurze publicznej (38 proc.), albo zarówno w lokalnym centrum danych (ang. on-premise), jak i chmurze publicznej, ale jako oddzielne repozytorium danych (40 proc.). 18 proc. data lakes organizacji znajduje się tylko w lokalnych centrach danych.

(źr. ESG)

Jedną z kluczowych zalet koncepcji data lake jest zdolność do ujednolicania autonomicznych repozytoriów, przekonują analitycy ESG. Podczas gdy początki data lake to środowiska lokalne oparte na systemie Hadoop, organizacje nadal dostrzegają korzyści płynące z korzystania ze środowisk chmurowych w celu osiągnięcia sukcesu w zakresie rozwiązań data lake.

Technologie współdziałające z jeziorami danych

Dzięki temu, że wszystkie dane znajdują się w ujednoliconym repozytorium, data lakes mogą zapewnić większy dostęp do danych większej liczbie zainteresowanych w różnych jednostkach biznesowych. Przetwarzanie dużych zbiorów danych big data (43 proc.), analiza biznesowa (41 proc.) i analityka operacyjna/logowa (41 proc.) to trzy technologie, które najprawdopodobniej wejdą w interakcje z data lake. Co istotne, fakt, że nie ma jednej dominującej technologii, która współdziałałaby z repozytorium danych bardziej niż inne, świadczy o szerokiej gamie zastosowań rozwiązań data lakes.

(źr. ESG)

Wyzwania związane z data lake

Sercem repozytorium danych jest podstawowa infrastruktura pamięci masowej. Ponieważ danych stale przybywa i coraz więcej użytkowników chce mieć do nich większy dostęp, wzrost obciążeń infrastruktury pamięci masowej zmusza organizacje do ponownej oceny metod zarządzania danymi. Spośród wszystkich napotykanych przez organizacje wyzwań związanych ze środowiskiem data lake, największe to: zarządzanie, optymalizacja i automatyzacja rozmieszczania danych, pokazały badania ESG.

Pozostałe wymieniane wyzwania, z jakimi boryka się co najmniej 20 proc. organizacji, to: bezpieczeństwo/zarządzanie danymi (23 proc.), udostępnianie danych narzędziom BI (Business Intelligence)/analitycznym (22 proc.), dłuższe czasy wdrażania/dostarczania (22 proc.), zapewnienie ochrony danych (21 proc.) oraz migracja danych (21 proc.).

Pomimo wskazywanych wyzwań związanych z podstawową infrastrukturą obsługującą repozytorium danych, organizacje poszukują rozwiązań data lake, które mogą odpowiedzieć na te wyzwania. Bezpieczeństwo (31 proc.), niezawodność (26 proc.), wydajność (26 proc.) i przetwarzanie w chmurze (24 proc.) mają zasadnicze znaczenie, jeśli chodzi o rozwiązania data lakes, pokazały badania ESG.

Prawidłowo wdrożone i odpowiednio zintegrowane z innymi technologiami repozytorium danych może zapewnić przedsiębiorstwu efektywne kosztowo rozwiązanie umożliwiające poprawę ukierunkowania na dane. Wszyscy pracownicy w firmie zyskują bardziej niezawodny dostęp do właściwych danych, co umożliwia im m.in. zadawanie większej liczby pytań czy współpracę przy projektach.

(źr. ESG)

(Grafika tytułowa – źr. Pixabay)

Napisane przez Stefan Kaczmarek