Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



29.04.2021

KasperskyOS

Podczas targów Hannover Messe zaprezentowano rozwiązanie Kaspersky IoT Secure Gateway 100...
29.04.2021

Serwery OVHcloud

Scale i High-Grade
29.04.2021

NaaS od Cisco

Cisco Plus
29.04.2021

Inwestycja Google'a w Polsce

Google Cloud
29.04.2021

Usługa od AWS i RedHata

ROSA
29.04.2021

Samsung

Samsung prezentuje nowe serie monitorów dla biznesu i profesjonalistów.
29.04.2021

Tęczowe Maki

iMac na M1
29.04.2021

Polska drukarka 3D

Zmorph i500
29.04.2021

W ekosystemie Microsoftu

Surface Laptop 4

Hurtownia danych z Azure Synapse Analytics

Data publikacji: 04-03-2021 Autor: Marcin Szeliga

Firmy coraz częściej podejmują decyzje biznesowe oparte na danych. Przede wszystkim dlatego, że dysponują coraz większą ilością różnorodnych danych. Jest ich jednak tak dużo, że ich efektywne przechowywanie i analiza wymagają specjalistycznych narzędzi.

 

Tradycyjne hurtownie danych doskonale radzą sobie z przechowywaniem i przetwarzaniem ogromnych, liczonych w terabajtach zbiorów danych. Były one jednak projektowane z myślą o przetwarzaniu danych tabelarycznych. Ponadto ich wdrożenie jest czasochłonne, bo wymaga stworzenia dostosowanego do konkretnych potrzeb modelu danych. Tymczasem użytkownicy coraz częściej chcą też analizować dane przechowywane w plikach o dowolnych strukturach, coraz bardziej zależy im na możliwości szybkiego dostosowywania hurtowni do zmieniających się danych i nowych sytuacji biznesowych. Zwracają też coraz większą uwagę na integrację hurtowni z łatwymi w użyciu narzędziami do wizualizacji i zaawansowanej analizy danych.


Tu z pomocą przychodzą nowoczesne hurtownie danych. Ich podstawą są wysokowydajne magazyny danych pozwalające tanio przechowywać w chmurze dowolne dane. Do analizowania i graficznego przedstawiania tych danych używane są usługi typu PaaS (Platform-as-a-Service) lub SaaS (Software-as-a-Service). Dzięki uproszczonej konfiguracji pozwalają one skupić się na rozwiazywaniu konkretnych problemów biznesowych.


W praktyce spora część analizowanych danych, jeśli nie zdecydowana większość, nadal pochodzi z operacyjnych baz danych i ma formę tabel. Dlatego potrzebne nam jest rozwiązanie hybrydowe, pozwalające w ten sam sposób i za pomocą tych samych narzędzi analizować zarówno dane plikowe, jak i tabelaryczne. Takim narzędziem jest Azure Synapse Analytics.


> Usługa Azure Synapse Analytics


W grudniu 2020 roku Microsoft ogłosił dostępność usługi Azure Synapse Analytics, następcy usługi Azure SQL Data Warehouse. Jednak funkcjonalność nowej usługi analizy danych znacznie wykracza poza możliwości klasycznej hurtowni MPP (Massively Parallel Processing), jaką był Azure SQL Data Warehouse. Azure Synapse Analytics łączy hurtownie MPP (nazwane tu dedykowanymi pulami SQL) z usługą przetwarzania danych plikowych za pośrednictwem języka SQL (nazwaną bezserwerowymi pulami SQL), serwerem Apache Spark (pulami Apache Spark) i platformą integracji danych bazującą na usłudze Azure Data Factory. Jeśli dodamy do tego integrację z najważniejszymi usługami Azure, w tym Azure Machine Learning, Microsoft Power BI, Azure Data Lake, Azure Blob Storage, Azure Purview i Azure Active Directory, oraz kilkadziesiąt konwektorów pozwalających pobierać dane z najróżniejszych źródeł, otrzymamy kompletną platformę do analizy danych.


Żeby utworzyć Azure Synapse Analytics, potrzebna nam będzie subskrypcja Azure. Bezpłatną subskrypcję testową można założyć pod adresem azure.microsoft.com/free. Po zalogowaniu się na portalu Azure należy utworzyć nowy zasób typu Azure Synapse Analytics. Podczas konfiguracji będziemy musieli:

 

  • wskazać grupę zasobów (zalecane utworzenie nowej grupy zasobów),
  • podać nazwę tworzonej usługi,
  • wskazać region, w którym zostanie ona utworzona (zalecane wybranie Europy Zachodniej lub Północnej),
  • wskazać konto Data Lake drugiej generacji (zalecane utworzenie nowego konta),
  • wskazać kontener danych (zalecane utworzenie nowego kontenera).

 

Po kliknięciu przycisku Create zasób zostanie utworzony. W zakładce Overwiew znajdziemy przycisk pozwalający przejść do Synapse Studio. Studio jest graficznym narzędziem służącym do pracy z usługą Azure Synapse Analytics.


Znajdujące się z lewej strony okno pozwala przełączać się pomiędzy sześcioma sekcjami (rys. 1):

 

  • W sekcji Home znajdziemy przycisk pozwalający tworzyć nowe skrypty SQL, notatniki Jupyter, zadania Apache Spark, przepływy i potoki danych. Ponadto znajdziemy tu nazwy ostatnio używanych zasobów i odnośniki do dokumentacji, przykładów i opisów nowych funkcjonalności.
  • Sekcja Data pozwala pracować z danymi, zarówno zapisanymi w bazach danych, jak i w powiązanych źródłach danych. Domyślnie usługa zawiera powiązanie z wskazanym podczas jej tworzenia kontenerem usługi Data Lake.
  • Develop pozwala tworzyć, modyfikować lub importować skrypty SQL, notatniki Jupyter, zadania Apache Spark, przepływy i potoki danych.
  • W sekcji Integrate możemy zarządzać zadaniami kopiowania i przepływami danych.
  • Sekcja Monitor pozwala monitorować działanie poszczególnych składników usługi.
  • W Manage możemy zarządzać zasobami usługi, w tym tworzyć nowe pule SQL.


> Dedykowane pule SQL


Przygodę z usługą Azure Synapse Analytics zaczniemy od zbudowania klasycznej hurtowni danych MPP. W tym celu dodamy do wcześniej utworzonej przestrzeni roboczej dedykowaną pulę SQL W tym celu należy przejść do sekcji Manage, wybrać opcję Analytics pools/SQL pools i kliknąć przycisk New. Następnie podajemy nazwę tworzonej puli (np. NYT – będziemy tam przechowywać dane o trasach nowojorskich taksówek). Teraz czas wybierać wydajność puli. Wydajność mierzona jest w jednostkach DWUc (Data Warehouse Units compute). Najmniejsza dedykowana pula SQL ma wydajność 100 DWUc i kosztuje około 1 euro za godzinę, największa z dostępnych w czasie pisania artykułu ma wydajność 30 tys. jednostek, a jej koszt to nieco ponad 300 euro za godzinę pracy. Wydajność dedykowanych puli SQL można zmieniać, dostosowując ją do bieżącego obciążenia, możliwe jest też wstrzymywanie dedykowanych puli SQL (wtedy płacimy wyłącznie za używane przez nie magazyny Premium). Na potrzeby ćwiczenia wystarczy nam najmniejsza z dedykowanych puli SQL. Po kilku, maksymalnie kilkunastu minutach od utworzenia będzie ona gotowa do użycia.


Dedykowana pula SQL składa się z węzła kontrolnego, jednego lub więcej węzłów obliczeniowych, magazynu danych i usługi DMS (Data Movement Service), która synchronizuje dane pomiędzy węzłami. Ponadto zawiera ona usługę Polybase pozwalającą wydajnie odczytywać przechowywane w Data Lake pliki z danymi. Węzeł kontrolny to specjalna wersja serwera SQL Server. To z nim łączymy się za pomocą narzędzi analitycznych, takich jak Power BI, Excel czy Tableau, i to do tego węzła wysyłamy wszystkie instrukcje języka SQL. Zadaniem węzła kontrolnego jest rozdzielenie prac pomiędzy węzły obliczeniowe (nasze żądania będą wykonywane przez nie równolegle) oraz zebranie zwróconych przez nie wyników cząstkowych, scalenie ich i odesłanie do aplikacji klienckiej.

 

[...]

 

Pracownik naukowy Wyższej Szkoły Bankowej w Poznaniu Wydział Zamiejscowy w Chorzowie, jest autorem książek poświęconych analizie danych i posiada tytuł Microsoft Most Valuable Professional.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

prenumerata Numer niedostępny Spis treści

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2019 Presscom / Miesięcznik "IT Professional"