Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



26.08.2021

Firma Fortinet rozszerzyła...

Firma Fortinet rozszerzyła ofertę o usługę FortiTrust, która dołączyła do innych usług...
26.08.2021

Aplikacje biznesowe

Ready_™ AppStore
26.08.2021

Automatyzacja chmur...

Integracja z Red Hat Ansible
26.08.2021

Backup kodu źródłowego

GitProtect.io dostępny na Github
26.08.2021

Wsparcie pracy hybrydowej

Zdalny SD WAN
26.08.2021

Nowy monitor Philips 498P9Z

Nowy monitor Philips 498P9Z to model wyposażony w 49-calowy, zakrzywiony panel VA o...
26.08.2021

Wytrzymały punkt dostępowy

D-Link DIS-2650AP
26.08.2021

Ekonomiczne dyski

SSD bez DRAM
26.08.2021

Petabajty pojemności

Serwery QNAP

Dane

Data publikacji: 01-04-2021 Autor: Michał Jaworski

W lutym 2020 r. ogłoszono „Europejską strategię w zakresie danych”. Na trzydziestu sześciu stronach słowo „dane” pojawiło się sześćset osiemdziesiąt osiem razy. Towarzyszą mu sto czterdzieści cztery różne określenia takie jak dostęp, przepływy, zbieranie, przechowywanie, przetwarzanie, wymiana czy wartość.

 

Prawdopodobnie w dalszym ciągu prawdziwe jest stwierdzenie, że druga połowa wszystkich danych, jakie stworzyła ludzkość, pojawiła się w ciągu ostatnich dwóch lat. Na pierwszą część składa się wszystko, co wytworzyliśmy od czasów hominidów opuszczających Afrykę aż do 2019 r. Wielki Zderzacz Hadronów (LHC) produkuje petabajt danych na sekundę, jednak nie dajemy rady zapisać aż tyle. Stąd zachowuje się tylko jedna wartość na milion, co jednak w dalszym ciągu oznacza przepływ gigabajtów informacji. Te gigabajty składają się w sumie na 30 petabajtów rocznie w tym jednym laboratorium. Bezmiar danych oznacza, że maleje koszt ich zebrania i ich wartość jednostkowa. Liczy się dopiero umiejętność działania na dużych zbiorach. To nie jest próba dokopania się do złotej żyły gdzieś w Klondike, ale umiejętność takiego przefiltrowania tony wody morskiej, by uzyskać kilka miligramów złota. Zupełnie inne zadanie, inne narzędzia, inne umiejętności.


Wydaje się, że dopiero pomału zdajemy sobie z tego sprawę, choć wciąż intuicyjnie sądzimy, że to pojedyncze dane mają ogromną wartość. W jednym z eksperymentów prowadzonych na Uniwersytecie Warszawskim proponowano uczestnikom zniżki w przejazdach taksówkami w zamian za udostępnienie niektórych informacji o sobie. Pasażerowie bez szczególnych zahamowań dzielili się informacją o trasach przejazdów, natomiast bardzo wysoko wyceniali swoje imię i nazwisko. Dla firmy transportowej mającej podnieść efektywność zarządzania flotą samochodową te pierwsze dane mają zasadnicze znaczenie, ponieważ pozwalają zbudować modele popytu w czasie i przestrzeni. Te drugie nie mają niemal żadnego znaczenia. Eksperyment pokazał także, dlaczego tak łatwo udostępniamy treści o sobie. Dla nas mają znikomą wartość, dla firmy zasadniczą. Nasza intuicja zawodzi. Co więcej, dopóki firma nie zbierze odpowiedniej liczby tych danych, które ją interesują, to ich wartość będzie niewielka. Informacja o trasach przejazdu dziesięciorga pasażerów jest bezwartościowa, o tysiącu daje podstawy do nadania zbiorowi pewnej wartości, o stu tysiącach staje się cenna. Zobaczmy jednak, że jeśli dane Iksińskiego nie zostaną uwzględnione, gdyż gość ten ogromnie sobie ceni prywatność, to nie wpłynie to na jakość dużego zbioru. Ten akt odmowy nie ma żadnego znaczenia, pojedyncze dane nie wpływają na model. Oczywiście ktoś może powiedzieć, że przykład został wybrany tendencyjnie. Że gdyby chodziło o wystawienie polisy ubezpieczeniowej, to dane konkretnego Iksińskiego mają bardzo duże znaczenie. Tak, mają. Jednak bez bigdatowego kontekstu – bez relacji do statystyk, do modelu, do oceny, czy jednostka jest typowa, czy odbiega od standardu – przygotowanie dokumentu mogłoby być niewykonalne.


Każdy z nas, każda organizacja i każda firma musi zatem mieć rozliczne strategie związane z danymi – od ich pozyskiwania, przez ich wykorzystanie, a skończywszy na usuwaniu. Jeśli szukamy użyteczności w świecie danych, to potrzebujemy wykorzystywać narzędzia analizujące ich wielkie ilości. By z nich wyciągnąć użyteczne informacje, które z kolei zamienią się w konkretną wiedzę. Wiedzę o chorobach i skuteczności leczenia, o ruchu drogowym czy ruchu w sieci, zachowaniach w galeriach handlowych, popycie na usługi czy produkty etc. Wiedzę pozwalającą przewidzieć sytuację w przyszłości – od jakości przedmiotów schodzących z linii produkcyjnej, aż do preferencji politycznych osób, które pierwszy raz pójdą na wybory za trzy lata. Dane powinny pracować, pracować i jeszcze raz pracować.


W tym miejscu aż chciałoby się zacząć dwa kolejne tematy. Pierwszy to Europa i reszta świata. W Europie, wszystko na to wskazuje, zamiast zaprząc dane do pracy, będziemy dane kodyfikować i regulować, zwłaszcza regulować ich ochronę, chronić je w sposób regulowany, a nawet regulować regulowane rynki danych regulowanych. Raj dla prawników. A dla reszty? Drugi zaś to pytanie, czy jesteśmy w stanie jakoś zapisać to tsunami danych. Produkcja danych powinna przekroczyć produkcję pamięci masowych – takich, jakie znamy! – w ciągu najbliższych czterech–pięciu lat. Czy jest rozwiązanie? Mark Russinovich pokazał ostatnio niezwykle pojemną i niewielką gabarytowo pamięć, na której zapisano jego książki. Tak niewielką, że nie było nic widać na dnie próbówki – helisę DNA…

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2019 Presscom / Miesięcznik "IT Professional"