Spis treści
Analiza danych stanowi ważny element rozwoju wielu organizacji. To obszar, w którym znalezienie wspólnego języka między technologią a biznesem jest niezwykle ważne do efektywnego działania.
W wielu przypadkach działy analiz biznesowych korzystają z przygotowanych przez developerów pipeline’ów. Pipeline to cykl szeregowego przetwarzania danych, gdzie dane wyjściowe jednego elementu są danymi wejściowymi elementu następnego.
Do niedawna wykorzystanie przez biznes pracy developerów było dość kłopotliwe – uruchomienie pipeline’u wymagało instalacji i konfiguracji środowiska programistycznego wraz ze wszystkimi zależnościami (np. bibliotekami) po stronie użytkownika oraz wprowadzenia zmian w kodzie źródłowym. A nie każdy analityk biznesowy ma wiedzę programistyczną, by sprawnie poradzić sobie z tym zadaniem.
Grafika prezentuje proces uruchamiania pipeline przed wprowadzeniem przez Google Cloud rozwiązania, jakim są szablony Dataflow:
Proces uruchamiania pipeline znacznie uprościły szablony – classic templates i od niedawna Flex Templates.
Udostępnianie pipeline’ów Dataflow z klasycznymi szablonami
Dotychczas Google dawało możliwość wykorzystania klasycznych szablonów (classic templates). Funkcjonalność pozwala developerowi uruchomić pipeline w środowisku programistycznym, gdzie następnie konwertuje go do szablonu i zamieszcza w Cloud Storage. Użytkownik może uruchomić szablon bez konieczności instalowania i konfigurowania środowiska programistycznego.
Klasyczne szablony posiadają jednak kilka ograniczeń – m.in. nie dają użytkownikowi możliwości wprowadzania zmian czy samodzielnego dopasowania do potrzeb analizy (np. w kwestii wyboru źródła danych wyjściowych), co dalej wymagało od developerów tworzenia różnych wariantów pipeline’ów; klasyczne szablony są też uzależnione od interfejsu ValueProvider Apache Beam, które posiada ograniczoną liczbę źródeł wejścia i wyjścia. Analityka, nawet z ułatwieniem w postaci classic templates, wciąż była ciężkim kawałkiem chleba, angażującym developerów i znacznie ograniczającym analityków.
Dopasowanie pipeline do potrzeb analizy dzięki Dataflow Flex Templates
Z początkiem października 2020 Google rozszerzyło możliwości udostępniania i wykorzystania pipeline’ów dzięki Flex Templates.
Flex Templates zapewnia większą elastyczność w porównaniu z szablonami klasycznymi. Podobnie jak classic templates, Flex Templates również daje możliwość uruchomienia pipeline’u bez konieczności instalowania środowiska programistycznego. Ponadto pozwala analitykom wprowadzać zmiany w szablonach – np. wybierać dowolne źródło danych wejściowych i wyjściowych (source/sink), co zdejmuje z developerów konieczność tworzenia kilku wariantów szablonów. Flex Templates usuwa też zależność od interfejsu ValueProvider, co pozwala korzystać z większej liczby źródeł.
Schemat tworzenia i udostępniania Flex Templates wygląda następująco:
Developer tworzy pipeline. Zamiast zamieszczać go w Cloud Storage, konwertuje kod lub pliki binarne do obrazu dockera i zapisuje go w Google Container Registry. Tworzy też plik ze specyfikacją szablonu, który jest przechowywany w Cloud Storage. Konstrukcja Flex Templates umożliwia dynamiczne tworzenie diagramów na podstawie danych wprowadzonych przez użytkownika.
Użytkownik może wprowadzić dane i parametry oraz uruchomić szablon z poziomu wiersza poleceń gcloud, używając API lub interfejsu Dataflow w konsoli Google Cloud, wskazując odpowiedni plik w Cloud Storage.
Więcej informacji o Dataflow Flex Templates znajdziesz w filmie niżej:
Źródło: Google – Turn any Dataflow pipeline into a reusable template
Zobacz też:
- BigQuery – co to jest i jak zacząć? [Tutorial]
- Kubernetes – co to jest i jak zacząć? [Tutorial na GCP]
- Kubernetes vs. Docker Swarm – porównanie platform do orkiestracji