Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



23.09.2021

5 edycja konferencji Test...

21 października startuje kolejna, piąta już edycja największej w Polsce konferencji...
23.09.2021

Zero Trust Firewall

FortiGate 3500F
23.09.2021

Ochrona IoT

Kaspersky SHS
23.09.2021

Wydatki lobbingowe

Cyfrowy monopol
23.09.2021

Współdziałanie klastrów

SUSE Rancher 2.6
23.09.2021

Panasonic TOUGHBOOK 55

Najnowsza wersja wszechstronnego Panasonic TOUGHBOOK 55 to wytrzymały notebook typu...
23.09.2021

Elastyczna dystrybucja...

Liebert RXA i MBX
23.09.2021

Zdalny podgląd w 360°

D-Link DCS-8635LH
23.09.2021

Sejf na dane

Szyfrowany pendrive

Katalogowanie i zarządzanie danymi z Azure Purview

Data publikacji: 27-05-2021 Autor: Marcin Szeliga

Purview, nowa usługa dostępna w Azure, automatyzuje wyszukiwanie i katalogowanie zarówno danych, jak i procesów ich przetwarzania (potoków danych) oraz upraszcza ochronę poufnych danych. Celem artykułu jest przedstawienie tej długo wyczekiwanej, szczególnie przez użytkowników Data Lake, usługi.

 

Firmy przetwarzają dane w dziesiątkach, a czasem setkach różnych systemów informatycznych. Firmowe systemy komputerowe przechowują informacje o tysiącach, jeśli nie milionach obiektów i faktów biznesowych. Ponadto coraz częściej dane przechowywane są zarówno lokalnie, jak i w chmurze obliczeniowej. W efekcie procesy odpowiedzialne za przetwarzanie i udostępnianie rozproszonych pomiędzy wieloma systemami danych są coraz bardziej skomplikowane, a zarządzanie nimi staje się coraz większym wyzwaniem.

 

> Wszechobecność danych

Do niedawna większość firmowych danych była przechowywana w postaci tabel i przetwarzana przez systemy baz danych, takie jak systemy ERP czy CRM. Wiele takich systemów ma wbudowaną możliwość raportowania, dzięki czemu liczba baz danych i tabel, w których użytkownicy musieli wyszukiwać interesujące ich informacje, była stosunkowo niewielka. Rosnąca popularność nowoczesnych technologii, takich jak inteligentne urządzenia, aplikacje mobilne i systemy zaawansowanej analizy danych, zmieniła tę sytuację. Administratorów baz danych zastąpili inżynierowie danych, a zakres ich obowiązków obejmuje nie tylko przetwarzanie i zabezpieczenie ustrukturyzowanych (tabelarycznych), częściowo ustrukturyzowanych (dokumenty) i nieustrukturyzowanych (pliki binarne) danych, ale również katalogowanie i udostępnianie wszystkich tych danych użytkownikom. Według Gartnera 60% problemów związanych z utrzymaniem nowoczesnych systemów informatycznych wynika ze złej jakości danych oraz kwestii związanych z zarządzaniem i bezpieczeństwem danych (gtnr.it/3u0OYgN).

Coraz więcej firm przechowuje terabajty danych w swoich systemach Data Lake. Zaletą tych systemów miało być skrócenie i uproszczenie projektów Business Intelligence dzięki zapisaniu wszystkich danych w jednym miejscu. Tymczasem okazało się, że średni czas potrzebny na znalezienie w Data Lake wszystkich potrzebnych danych wynosi ponad miesiąc. Wydłuża to niepotrzebnie czas projektów Business Intelligence i zwiększa ich koszty.

Konieczne stało się zautomatyzowanie procesów zarządzania danymi. Procesy te dotyczą nie tylko jakości danych, ale również metadanych (danych opisujących dane), wyszukiwania i katalogowania danych oraz bezpieczeństwa i poufności danych.

Specjalistów danych można podzielić na cztery kategorie:

 

  • twórców – do tej grupy należą eksperci znający zagadnienia biznesowe i umiejący przygotować dane na potrzeby użytkowników;
  • użytkowników – użytkownikami danych są nie tylko analitycy, ale również menedżerowie projektów i kierownicy działów;
  • osoby odpowiedzialne za bezpieczeństwo – pracownicy działu IT, których zadaniem jest ochrona systemów informatycznych przed atakami;
  • osoby odpowiedzialne za zgodność z obowiązującymi przepisami – do tej grupy należą między innymi osoby odpowiedzialne za ochronę poufnych danych zgodnie z wytycznymi rodo.


Wszyscy oni pracują na co dzień z metadanymi. Metadane opisują np. fizyczną lokalizację danych, ich strukturę czy kategorię poufności. Metadane opisują też procesy przetwarzania danych, np. dokumentują przepływ danych od źródeł do raportów Power BI. Azure Purview pomaga gromadzić metadane obu rodzajów oraz zarządzać nimi.

 

> Usługa Azure Purview

Azure Purview jest usługą typu PaaS, czyli w pełni zarządzaną, gotową do użycia usługą w chmurze. W czasie powstawania artykułu była ona dostępna w wersji zapoznawczej, zatem lista dostępnych funkcji może się jeszcze poszerzyć. Wersja zapoznawcza:

 

  • umożliwia katalogowanie i zarządzanie danych przechowywanych w systemach lokalnych, w Azure i innych chmurach publicznych;
  • automatycznie klasyfikuje dane za pomocą ponad stu predefiniowanych reguł;
  • pozwala na definiowanie własnych reguł klasyfikacji danych;
  • dokumentuje przepływy danych;
  • pozwala na zdefiniowanie własnego słownika terminów biznesowych używanych do klasyfikacji zgromadzonych metadanych;
  • pozwala na przeszukiwanie zgromadzonych metadanych za pomocą języka naturalnego.


Do utworzenia usługi Purview potrzebna jest subskrypcja Azure z posiadanymi uprawnieniami administracyjnymi. Darmową subskrypcję demonstracyjną możemy założyć pod adresem bit.ly/3eGsTxI. Zalecamy podpięcie tej subskrypcji pod prywatne konto Microsoft. Podpinając ją pod konto firmowe, ryzykujemy, że ewentualne ograniczenia wdrożone przez administratora firmy uniemożliwią nam utworzenie usługi Purview. Najprostszym sposobem utworzenia usługi jest skorzystanie z portalu Azure:

 

  • po kliknięciu odnośnika Create a resource należy w polu wyszukiwania wpisać purview, jako typ tworzonego zasobu wybrać Azure Purview i kliknąć Create;
  • zostaniemy poproszeni o wybór: subskrypcji (w ramach której utworzona zostanie usługa), podanie grupy zasobów (logicznego kontenera na zasoby Azure), nazwy tworzonej usługi i jej lokalizacji. Nazwa usługi musi być unikatowa w skali Azure, natomiast region należy wybrać najbliższy naszej lokalizacji (wersja zapoznawcza dostępna jest między innymi w regionie Europy Zachodniej);
  • na zakładce Configuration możemy też zmienić wydajność. Wersja zapoznawcza pozwala jedynie wybrać cztery (darmowe w tej wersji) jednostki lub 16 jednostek wydajności. Wersji katalogu danych oraz usługi ich analizowania nie można na razie zmieniać;
  • po kliknięciu przycisku Review + Create konfiguracja zostanie sprawdzona i jeśli będzie poprawna, będziemy mogli utworzyć usługę, klikając Create.

 

[...]

 

Pracownik naukowy Wyższej Szkoły Bankowej w Poznaniu Wydział Zamiejscowy w Chorzowie, jest autorem książek poświęconych analizie danych i posiada tytuł Microsoft Most Valuable Professional.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2019 Presscom / Miesięcznik "IT Professional"