Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



01.06.2021

Monitory interaktywne Newline...

Na rynek trafiły nowe monitory interaktywne Newline MIRA stanowiące kompletne narzędzia...
27.05.2021

Anywhere Workspace

VMware wprowadza rozwiązanie Anywhere Workspace
27.05.2021

Narzędzie SaaS

Lenovo Device Intelligence Plus
27.05.2021

Nowa fala przetwarzania edge

Red Hat Edge
27.05.2021

Wirtualny router od QNAP-a

QuWAN vRouter
27.05.2021

Ochrona endpointów

Cisco SASE
27.05.2021

Monitor graficzny

Monitor graficzny PD2725U od BenQ zaprojektowany jest z myślą o wygodnej pracy...
27.05.2021

Monitoring wizyjny

D-Link Vigilance
27.05.2021

Moc i elastyczność

Liebert EXM2

Katalogowanie i zarządzanie danymi z Azure Purview

Data publikacji: 27-05-2021 Autor: Marcin Szeliga

Purview, nowa usługa dostępna w Azure, automatyzuje wyszukiwanie i katalogowanie zarówno danych, jak i procesów ich przetwarzania (potoków danych) oraz upraszcza ochronę poufnych danych. Celem artykułu jest przedstawienie tej długo wyczekiwanej, szczególnie przez użytkowników Data Lake, usługi.

 

Firmy przetwarzają dane w dziesiątkach, a czasem setkach różnych systemów informatycznych. Firmowe systemy komputerowe przechowują informacje o tysiącach, jeśli nie milionach obiektów i faktów biznesowych. Ponadto coraz częściej dane przechowywane są zarówno lokalnie, jak i w chmurze obliczeniowej. W efekcie procesy odpowiedzialne za przetwarzanie i udostępnianie rozproszonych pomiędzy wieloma systemami danych są coraz bardziej skomplikowane, a zarządzanie nimi staje się coraz większym wyzwaniem.

 

> Wszechobecność danych

Do niedawna większość firmowych danych była przechowywana w postaci tabel i przetwarzana przez systemy baz danych, takie jak systemy ERP czy CRM. Wiele takich systemów ma wbudowaną możliwość raportowania, dzięki czemu liczba baz danych i tabel, w których użytkownicy musieli wyszukiwać interesujące ich informacje, była stosunkowo niewielka. Rosnąca popularność nowoczesnych technologii, takich jak inteligentne urządzenia, aplikacje mobilne i systemy zaawansowanej analizy danych, zmieniła tę sytuację. Administratorów baz danych zastąpili inżynierowie danych, a zakres ich obowiązków obejmuje nie tylko przetwarzanie i zabezpieczenie ustrukturyzowanych (tabelarycznych), częściowo ustrukturyzowanych (dokumenty) i nieustrukturyzowanych (pliki binarne) danych, ale również katalogowanie i udostępnianie wszystkich tych danych użytkownikom. Według Gartnera 60% problemów związanych z utrzymaniem nowoczesnych systemów informatycznych wynika ze złej jakości danych oraz kwestii związanych z zarządzaniem i bezpieczeństwem danych (gtnr.it/3u0OYgN).

Coraz więcej firm przechowuje terabajty danych w swoich systemach Data Lake. Zaletą tych systemów miało być skrócenie i uproszczenie projektów Business Intelligence dzięki zapisaniu wszystkich danych w jednym miejscu. Tymczasem okazało się, że średni czas potrzebny na znalezienie w Data Lake wszystkich potrzebnych danych wynosi ponad miesiąc. Wydłuża to niepotrzebnie czas projektów Business Intelligence i zwiększa ich koszty.

Konieczne stało się zautomatyzowanie procesów zarządzania danymi. Procesy te dotyczą nie tylko jakości danych, ale również metadanych (danych opisujących dane), wyszukiwania i katalogowania danych oraz bezpieczeństwa i poufności danych.

Specjalistów danych można podzielić na cztery kategorie:

 

  • twórców – do tej grupy należą eksperci znający zagadnienia biznesowe i umiejący przygotować dane na potrzeby użytkowników;
  • użytkowników – użytkownikami danych są nie tylko analitycy, ale również menedżerowie projektów i kierownicy działów;
  • osoby odpowiedzialne za bezpieczeństwo – pracownicy działu IT, których zadaniem jest ochrona systemów informatycznych przed atakami;
  • osoby odpowiedzialne za zgodność z obowiązującymi przepisami – do tej grupy należą między innymi osoby odpowiedzialne za ochronę poufnych danych zgodnie z wytycznymi rodo.


Wszyscy oni pracują na co dzień z metadanymi. Metadane opisują np. fizyczną lokalizację danych, ich strukturę czy kategorię poufności. Metadane opisują też procesy przetwarzania danych, np. dokumentują przepływ danych od źródeł do raportów Power BI. Azure Purview pomaga gromadzić metadane obu rodzajów oraz zarządzać nimi.

 

> Usługa Azure Purview

Azure Purview jest usługą typu PaaS, czyli w pełni zarządzaną, gotową do użycia usługą w chmurze. W czasie powstawania artykułu była ona dostępna w wersji zapoznawczej, zatem lista dostępnych funkcji może się jeszcze poszerzyć. Wersja zapoznawcza:

 

  • umożliwia katalogowanie i zarządzanie danych przechowywanych w systemach lokalnych, w Azure i innych chmurach publicznych;
  • automatycznie klasyfikuje dane za pomocą ponad stu predefiniowanych reguł;
  • pozwala na definiowanie własnych reguł klasyfikacji danych;
  • dokumentuje przepływy danych;
  • pozwala na zdefiniowanie własnego słownika terminów biznesowych używanych do klasyfikacji zgromadzonych metadanych;
  • pozwala na przeszukiwanie zgromadzonych metadanych za pomocą języka naturalnego.


Do utworzenia usługi Purview potrzebna jest subskrypcja Azure z posiadanymi uprawnieniami administracyjnymi. Darmową subskrypcję demonstracyjną możemy założyć pod adresem bit.ly/3eGsTxI. Zalecamy podpięcie tej subskrypcji pod prywatne konto Microsoft. Podpinając ją pod konto firmowe, ryzykujemy, że ewentualne ograniczenia wdrożone przez administratora firmy uniemożliwią nam utworzenie usługi Purview. Najprostszym sposobem utworzenia usługi jest skorzystanie z portalu Azure:

 

  • po kliknięciu odnośnika Create a resource należy w polu wyszukiwania wpisać purview, jako typ tworzonego zasobu wybrać Azure Purview i kliknąć Create;
  • zostaniemy poproszeni o wybór: subskrypcji (w ramach której utworzona zostanie usługa), podanie grupy zasobów (logicznego kontenera na zasoby Azure), nazwy tworzonej usługi i jej lokalizacji. Nazwa usługi musi być unikatowa w skali Azure, natomiast region należy wybrać najbliższy naszej lokalizacji (wersja zapoznawcza dostępna jest między innymi w regionie Europy Zachodniej);
  • na zakładce Configuration możemy też zmienić wydajność. Wersja zapoznawcza pozwala jedynie wybrać cztery (darmowe w tej wersji) jednostki lub 16 jednostek wydajności. Wersji katalogu danych oraz usługi ich analizowania nie można na razie zmieniać;
  • po kliknięciu przycisku Review + Create konfiguracja zostanie sprawdzona i jeśli będzie poprawna, będziemy mogli utworzyć usługę, klikając Create.

 

[...]

 

Pracownik naukowy Wyższej Szkoły Bankowej w Poznaniu Wydział Zamiejscowy w Chorzowie, jest autorem książek poświęconych analizie danych i posiada tytuł Microsoft Most Valuable Professional.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

prenumerata Numer niedostępny Spis treści

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2019 Presscom / Miesięcznik "IT Professional"