Czym jest Data Lake? Czy i dlaczego go potrzebujesz? Jak inne firmy wykorzystują Data Lake w praktyce? Poszukajmy odpowiedzi na te i inne pytania.
Czym jest Data Lake?
Data Lake to scentralizowane repozytorium przeznaczone do przechowywania, przetwarzania i zabezpieczania dużych ilości danych. Są to zarówno dane ustrukturyzowane, częściowo ustrukturyzowane jak i nieustrukturyzowane. Data Lake może przechowywać dane w ich natywnej postaci oraz przetwarzać dowolną ich odmianę bez względu na rozmiar. Ponieważ Data Lake dostępne jest w Google Cloud, to możesz w prosty sposób zacząć korzystać z jego możliwości.
Dzięki Data Lake otrzymujemy dostęp do skalowalnej i bezpiecznej platformy umożliwiającej:
- pozyskiwanie dowolnych danych z dowolnego systemu i dowolną prędkością,
- pozyskiwanie danych z rozwiązań on-premises, chmurowych i brzegowych (edge-computing),
- przechowywanie dowolnego rodzaju i ilości danych z pełną wiernością,
- przetwarzanie danych w czasie rzeczywistym lub tzw. batch mode,
- analizowanie danych za pomocą SQL, Python, R lub innych języków danych oraz aplikacji analitycznych.
Różnice między Data Lake a hurtownią danych
Najprostszym wytłumaczeniem różnicy między Data Lake a hurtownią danych jest to, że Data Lake nie jest wyłącznie pamięcią masową. Chociaż w obu przypadkach mamy do czynienia z przechowywaniem danych o określonej pojemności, to są one jednak zoptymalizowane pod kątem różnych zastosowań.
Hurtownie danych docenią firmy, które tworzą powtarzalne raporty i analizy, takie jak miesięczne raporty sprzedaży, przetwarzanie danych sprzedażowych z danego regionu czy obserwację ruchu na stronie internetowej. Data Lake i hurtownie danych to narzędzia wzajemnie się uzupełniające, a nie konkurujące ze sobą.
Czy potrzebujesz Data Lake?
Przekonajmy się. Na początek warto sprawdzić z jakimi rodzajami danych pracujesz na co dzień. Następnie trzeba odpowiedzieć na pytanie co chcesz z tymi danymi zrobić, jaka bardzo złożony jest proces pozyskiwania danych oraz czy w ogóle masz strategię zarządzania danymi.
Mówi się, że Data Lake ma zastosowanie wówczas, kiedy nie myślisz wyłącznie o przechowywaniu danych, ale chcesz z ich pomocą lepiej zrozumieć wydarzenia biznesowe. Data Lake zapewnia większy kontekst co pozwala trafniej przeprowadzać eksperymenty analityczne.
Przenoszenie danych do Data Lake pozwala:
- obniżyć TCO (total cost of ownership),
- uprościć zarządzanie danymi,
- przygotować firmę do wykorzystania sztucznej inteligencji i uczenia maszynowego,
- przyspieszyć analizę danych,
- poprawić bezpieczeństwo.
Przykłady wykorzystania Data Lake
Obecnie po Data Lake chętnie sięgają twórcy rozwiązań AI/ML, którzy potrzebują dostępu do dużej ilości nieprzetworzonych danych w różnych formatach wyjściowych. Jednak zastosowań jest sporo, nawet w bardziej tradycyjnych dziedzinach
Media i rozrywka
Data Lake to rozwiązanie dla firm oferujących strumieniowe przesyłanie muzyki i podcastów czy też radia on-line. Możliwości Data Lake pozwalają ulepszyć system rekomendacji, a przez to sprawić, że użytkownicy, którzy dzięki dobrym dopasowaniu do swoich preferencji uzyskują wartościowe treści, będą chętniej korzystać z rozwiązania danej firmy. To przekłada się na możliwość lepszej komercjalizacji, czyli sprzedania większej liczby reklam.
Telekomunikacja
Firmy telekomunikacyjne doświadczają ciągłej fluktuacji klientów. Kiedy zbliża się termin wygaśnięcia umowy abonamentowej, klienci zaczynają rozglądać się za alternatywną tańszą opcją, szczególnie, że poziom świadczenia usług czy dostęp do sieci jest obecnie niemal identyczny u wszystkich operatorów. Data Lake pozwala budować modele skłonności do rezygnacji, dzięki czemu firma może przedsięwziąć działania mające na celu zachęcenie klientów do pozostania pod swoimi skrzydłami.
Usługi finansowe
Tematy związane z finansami i inwestowaniem są zawsze dyskusyjne i uzależnione od wielu warunków, nie tylko rynkowych, ale również psychologicznych. Mimo wszystko Data Lake dostarcza narzędzi pozwalających uczeniu maszynowym wpływać na zarządzanie ryzykiem portfela pozyskując dane z rynku w czasie rzeczywistym.
Modernizacja Data Lake
Tradycyjne jeziora danych mają pewne luki, chociaż lepszą metaforą byłoby wiry. Po pierwsze przetwarzanie danych i analiz pochłania sporo zasobów, co może doprowadzić do przekroczenia umów SLA.
Kolejna przeszkoda to powolne eksperymenty analityczne i wydłużony cykl developmentu związane ze złożonością alokacji zasobów, wyzwaniami administracyjnymi i skalowaniem.
W takim przypadku warto rozważyć modernizację Data Lake. Mogą Ci w tym pomóc eksperci Google Cloud z FOTC.
Zwiększenie obciążenia Data Lake
Możesz przenieść obciążenia wymagające dużej ilości danych albo przetwarzania analitycznego do chmury Google i korzystać możliwości automatycznego skalowania.
Budowanie natywnego Data Lake w chmurze
Kolejną opcją jest zbudowanie natywnego Data Lake w chmurze. Skorzystaj z doświadczenia i wiedzy Cloud Architects FOTC, którzy mogą Ci stworzyć sprawnie działające Data Lake od zera.