Spis treści
Mało które przedsiębiorstwo podejmuje dziś decyzje, kierując się jedynie intuicją. Nawet jeśli intuicja odgrywa dużą rolę, nierzadko idzie ręka w rękę z analizą danych, a finalne decyzje biznesowe zapadają i tak po przeprowadzeniu dokładnej interpretacji wyników. Jeśli proces decyzyjny wspiera nowoczesny, wydajny system analityczny, firma ma możliwość bycia kilka kroków przed konkurencją; jeśli jednak korzysta z podstarzałej infrastruktury i systemu stworzonego kilkanaście czy kilkadziesiąt lat temu, sytuacja wygląda nieco gorzej. Ilość danych rośnie z każdą minutą, zmieniają się wymagania rynku, klienci stają się wybredni – a z łatwo łapiącą zadyszkę infrastrukturą utrzymanie narzuconego tempa nie będzie proste.
Żeby zwiększyć możliwości analityczne firmy i szybciej podejmować decyzje biznesowe poparte liczbami, możesz zbudować hurtownię danych w chmurze Google Cloud Platform.
Czym jest hurtownia danych?
Hurtownia danych (data warehouse) to system analityczny, który wspiera podejmowanie decyzji biznesowych. Umożliwia prowadzenie kompleksowej analizy danych pochodzących z różnych źródeł i różnych przedziałów czasowych. Informacje do hurtowni są pobierane w zautomatyzowany sposób z różnych narzędzi czy plików, oczyszczane i ujednolicane, by móc je ze sobą przyrównać. Dane wykorzystuje się do generowania raportów czy tworzenia predykcji, a wyniki można przedstawić na graficznych wizualizacjach.
Korzyści używania hurtowni danych w firmie:
- prowadzenie kompleksowej analityki,
- wyszukiwanie zależności pomiędzy pozornie niepowiązanymi obszarami,
- większa efektywność pracowników dzięki łatwemu dostępowi do danych,
- zrozumienie wyników analizy również wśród osób nietechnicznych dzięki możliwości wizualizacji danych,
- archiwum i wgląd w dane historyczne,
- brak negatywnego wpływu na wydajność systemów bazodanowych czy aplikacji w środowisku produkcyjnym,
- możliwość prowadzenia predykcji i symulacji scenariuszy biznesowych z użyciem mechanizmów ML.
Hurtownia danych na lokalnej infrastrukturze a w chmurze Google
Przedsiębiorstwa, które tworzyły hurtownie danych kilka czy kilkanaście lat temu, siłą rzeczy wykorzystywały własną infrastrukturę – technologie chmurowe nie były wtedy tak rozwinięte, jak są dziś. Z biegiem lat dostawcy usług chmurowych rośli w siłę, prowadzili inwestycje w coraz mocniejsze procesowy i coraz bardziej rozbudowane centra danych; natomiast serwery fizyczne należące do firm traciły na wydajności i analizę prowadziły coraz wolniej.
Dlaczego warto przeprowadzić migrację hurtowni danych na Google Cloud Platform?
- Chmura zapewnia większą zwinność i elastyczność. Dzisiejsze firmy muszą szybko dostrzegać potencjalne zagrożenia czy możliwości ulepszeń i wprowadzać zmiany w okamgnieniu. Muszą też zapewnić pracownikom środowisko sprzyjające efektywności, gdzie specjaliści mogą mieć nieskrępowany dostęp do potrzebnych informacji. Według obserwacji inżynierów Google Cloud, wśród wielu firm infrastruktura legacy obsługująca hurtownie danych osiąga średnio 95-100% pojemności, nie zostawiając tym samym przestrzeni na żadne ulepszenia, a wręcz dodatkowo obciążając zespół administratorów.
- Infrastruktura legacy wymaga dużych nakładów pracy, natomiast chmura jest niemal bezobsługowa. Jak twierdzi zespół Google Cloud, firmy, które posiadają hurtownię danych na własnej infrastrukturze przeznaczają jedynie ok. 15% czasu na prowadzenie właściwej analizy, ponieważ resztę czasu poświęcają na prace utrzymaniowe. W chmurze prace dotychczas wykonywane manualnie – ekstrakcja danych, ujednolicenie, rezerwacja zasobów, skalowanie, aktualizacje, optymalizacje – wykonują się automatycznie, bez konieczności ingerencji pracownika.
- Koszt chmury w dłuższym ujęciu jest niższy. Może się wydawać, że maszyny fizyczne są tańsze od uruchamianych na żądanie usług chmurowych; w dłuższej perspektywie jednak to chmura łączy się z mniejszymi kosztami oraz z wyższą wydajnością. Pod uwagę należy brać nie tylko sam koszt zakupu serwera czy minutę pracy usługi, ale TCO (total cost of ownership), czyli wszystkie koszty związane z utrzymaniem systemu – między innymi zakup licencji, koszty skalowania czy czas pracy administratorów. Według badań ESG organizacje, które przenoszą hurtownię danych z własnej infrastruktury do chmury Google, zyskują do 52% oszczędności TCO w skali trzech lat.
- Hurtownia danych w chmurze zwraca wyniki niemal natychmiast. Kiedy tradycyjne hurtownie danych potrzebują godzin (a niekiedy dni), by wygenerować raport, usługi Google Cloud Platform bazują na najnowszych danych i pozwalają śledzić zmiany w czasie rzeczywistym. To dlatego, że dzięki mocy obliczeniowej GCP hurtownia danych w chmurze jest w stanie prowadzić jednocześnie wiele akcji – takich jak przetwarzanie wsadowe, przetwarzanie strumieniowe i obsługa zapytań wśród petabajtów danych. Na lokalnej infrastrukturze możemy napotkać ograniczenia sprzętowe, co przełoży się na niższą wydajność i dłuższy czas zwracania wyników.
- Usługi chmurowe są skalowalne i zapewniają wyższą dostępność niż infrastruktura on-premise. Poziom użycia usług chmurowych dopasowuje się automatycznie do aktualnego obciążenia. By wygenerować raport roczny, usługi analityczne GCP zeskalują się w górę, a po zakończeniu analizy wrócą do normalnego poziomu użycia (albo nawet do niższego, jeśli żądań do systemu nie będzie dużo). Skalowalność w ciągu sekund przekłada się też na wysoką dostępność, ponieważ infrastruktura chmurowa przeprowadzi analizę bez zająknięcia w sytuacjach, gdy lokalna infrastruktura mogłaby ulec przeciążeniu. Ponadto dostawcy usług chmurowych zobowiązują się do wypełnienia warunków umowy o dostępności usług. W przypadku narzędzi analitycznych Google Cloud Platform SLA wynosi 99,95-99,99%.
- Usługi hurtowni danych w chmurze Google posiadają wbudowane mechanizmy uczenia maszynowego, co umożliwia relatywnie łatwe i tanie prowadzenie predykcji i symulacji scenariuszy biznesowych. Przedsiębiorstwa korzystające z lokalnej hurtowni danych, jeśli chciały prowadzić predykcje, do budowy własnych modeli ML musiały delegować analityków i inżynierów. Ci nierzadko kopiowali dane i tworzyli odizolowane repozytoria do trenowania modeli, co prowadziło do duplikowania i decentralizacji informacji oraz dodatkowo obciążało infrastrukturę. Ponadto, jeśli infrastruktura nie była wystarczająco wydajna, nawet najlepiej zbudowany model uczenia maszynowego nie mógł rozwinąć w pełni swojego potencjału. Natomiast chmura, nie dość, że oferuje dużą moc obliczeniową, jej usługi analityczne posiadają wbudowane mechanizmy uczenia maszynowego, którymi można zarządzać z poziomu interfejsu SQL. Dzięki temu modele można tworzyć szybciej, mniejszym nakładem energii i bez konieczności duplikowania danych.
Usługi GCP używane do budowy hurtowni danych w chmurze
Na Google Cloud Platform składa się niemal 200 gotowych, zarządzanych usług. Wśród nich znajdują się te dedykowane prowadzeniu analizy, jak też usługi “ogólnego przeznaczenia”, o które można rozbudować hurtownię danych.
Cloud Storage
Cloud Storage to usługa magazynu chmurowego, w którym można przechowywać pliki o dowolny rozszerzeniu – dokumenty tekstowe, arkusze kalkulacyjne, eksporty z baz danych i inne. Pliki z Cloud Storage mogą być automatycznie pobierane przez usługi streamujące, ujednolicane i przesyłane do hurtowni w celu przeprowadzenia analizy.
Pub/Sub
Pub/Sub to usługa asynchronicznej komunikacji między usługami Google Cloud Platform. Usługa często jest używana do integrowania pipeline’ów pobierania i dystrybuowania danych oraz do strumieniowego przesyłania analiz.
Dataprep by Trifacta
Inteligentna usługa do eksplorowania danych ustrukturyzowanych i nieustrukturyzowanych, ich czyszczenia, ujednolicania i przygotowania do analizy lub procesów uczenia maszynowego.
Data Catalog
Data Catalog to usługa automatycznego katalogowania, tagowania i wyszukiwania danych oraz zarządzania metadanymi.
Dataflow
Dataflow to bezserwerowa usługa ujednoliconego przetwarzania danych strumieniowych (stream) i wsadowych (batch). Umożliwia tworzenie potoków (pipelines) i przesyłanie danych w czasie rzeczywistym. Usługa korzysta z open source’owego projektu Apache Beam.
Dataproc
Zarządzana i skalowalna usługa do uruchamiania Apache Spark, Apache Flink, Presto oraz ponad 30 innych narzędzi i frameworków open source’owych. Ponieważ Apache Spark jest uznawane za najszybsze narzędzie wspierające procesy ETL w hurtowni danych, Dataproc zapewnia wysoką wydajność przesyłu.
Cloud Data Fusion
Usługa no-code, która z poziomu graficznego interfejsu umożliwia szybkie i wygodne tworzenie potoków danych (data pipelines) dla oprogramowania ETL.
Cloud Composer
Cloud Composer to zarządzana usługa orkiestracji procesów workflow zbudowana na open source’owym projekcie Apache Airflow. Pozwala tworzyć, planować, monitorować i zarządzać procesami workflow z uwzględnieniem relacji i zależności.
BigQuery
BigQuery to bezserwerowa usługa właściwej hurtowni w systemie hurtowni danych. To narzędzie, w którym są przechowywane tera- czy petabajty ujednoliconych danych i w którym jest prowadzona analiza.
Cloud Life Sciences
Cloud Life Sciences (poprzednio Google Geomics) to usługa analityczna dedykowana naukom przyrodniczym. Pozwala w wydajny, bezpieczny i relatywnie niedrogi sposób przetwarzać dane biomedyczne na dużą skalę.
Google Data Studio
Google Data Studio to bezpłatna platforma wizualizacji danych, która umożliwia prezentowanie wyników analizy danych za pomocą graficznych dashboardów.
Looker
Looker to oprogramowanie business intelligence – platforma, która, obok wizualizacji danych na interaktywnych panelach, wspiera też prowadzenie analityki predykcyjnej.
Schemat przykładowej hurtowni danych w chmurze Google
Każdy system w chmurze jest budowany inaczej, w zależności od potrzeb przedsiębiorstwa, celu, ilości danych czy planów rozwojowych. W przeprowadzeniu analizy potrzeb, opracowaniu architektury oraz wdrożeniu hurtowni danych mogą pomóc certyfikowani inżynierowie chmurowi FOTC.
Wyżej znajduje się przykład struktury prostej hurtowni danych z użyciem niektórych opisanych wcześniej usług. Dane – w tym przypadku z usługi bazy danych w chmurze Cloud SQL, z magazynu chmurowego Cloud Storage oraz z zewnętrznego narzędzia Google Analytics – są przesyłane do usługi Dataprep, gdzie są poddawane czyszczeniu i ujednolicaniu. Stamtąd, dzięki usłudze Dataflow, dane są ładowane do właściwej hurtowni, BigQuery, w której jest prowadzona analiza. Wyniki następnie mogą zostać przesłane na graficzne dashboardy Data Studio lub na platformę Looker.
Nagrania z meetupu „Biznes oparty na danych w chmurze”
Zorganizowaliśmy bezpłatne wydarzenie online dla specjalistów, którzy chcą wykorzystać potencjał danych firmowych – poprawić wyniki biznesowe, wyciągać rzetelne wnioski przy pomocy narzędzi chmurowych i podejmować świadome, poparte liczbami decyzje.
Podczas meetupu praktyczną wiedzą podzielili się trzej specjaliści ds. analizy danych:
- Stanisław Magierski, Customer Engineer w Google Cloud, opowiedział jak wykorzystać potencjał danych, zarządzać nimi i skalować analitykę biznesową,
- Marcin Kolenda, Chief Analyst w Alterdata.io, podzielił się doświadczeniami z użycia usługi BigQuery ML podczas prelekcji „Budowa hurtowni danych na GCP – okiem praktyka”,
- Tomasz Karsznia, Data Engineer w FOTC, zaprezentował sposób analizy logów przy użyciu BigQuery oraz Data Studio na przykładzie danych z pakietu aplikacji biznesowych Google Workspace.
Nagrania z meetupu można pobrać, rejestrując się przez formularz na stronie: “Biznes oparty na danych w chmurze”.
Zobacz też: