Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.



14.07.2021

Platforma AQUILA

IBM zaprezentował platformę opartą na sztucznej inteligencji służącą do kompleksowej, w...
14.07.2021

Przenoszenie Javy do chmury

JBoss Enterprise
14.07.2021

Nowe okna

Windows 11
14.07.2021

Monitoring sieci

nVision 12.5
14.07.2021

Automatyczna ochrona

Nowości w FortiEDR
14.07.2021

Seria monitorów...

Firma Newline prezentuje serię monitorów interaktywnych MIRA.
14.07.2021

Modularne routery IoT

Cisco Catalyst
14.07.2021

Nowy poziom pracy

Radeon PRO W6000
14.07.2021

SI w monitoringu

Kamery i-PRO S-Series

Najważniejsze czynniki bezpośredniego wpływu na przestój data center

Data publikacji: 27-05-2021 Autor: Sebastian Jary
Rys. 1. Obszary kompetencyjne...

Za każdą chmurą obliczeniową stoi realny obiekt pełniący funkcję data center. Kluczową rolę w funkcjonowaniu obiektów data center odgrywają instalacje elektryczne, mechaniczne oraz hydrauliczne. Są to instalacje, których klasyczny świat IT na co dzień nie widzi i bardzo często nie chce widzieć. Awaria w którymkolwiek ich miejscu skutkuje poważnymi zakłóceniami w działaniu data center.

 

W codziennym funkcjonowaniu data center mamy do czynienia z podziałem obszarów, które przedstawiono na rys. 1. Na samym dole tej struktury znajdują się obszary związane z zasilaniem elektrycznym, chłodzeniem oraz bezpieczeństwem przeciwpożarowym. Są to filary każdego centrum przetwarzania danych. Incydent w jednym z tych obszarów może skutkować przerwaniem procesów biznesowych.

W zależności od odporności naszego data center na awarie, wynikającej wprost z założeń projektowych, nasi klienci mogą nie odczuć skutków awarii lub przeciwnie, ich systemy i aplikacje będą niedostępne przez godziny lub nawet tygodnie. Poziom odporności na awarie możemy określać w skali od 1 do 4 wg np. klasyfikacji ANSI/TIA-942 Rated-1 do Rated-4 lub Uptime Institute Tier I do Tier IV.

Obiekty data center posiadające pojedynczy punkt awarii, tzw. SPOF (ang. Single Point of Failure), są narażone na przestoje, które mogą generować kolosalne koszty obsługi awarii i ponownego przywrócenia ciągłości działania. Każda awaria w infrastrukturze data center generuje potężną dawkę stresu dla operatorów obiektu, którzy w początkowej fazie są kluczowym ogniwem mającym bezpośredni wpływ na potencjalne zminimalizowanie strat. To w tych momentach najbardziej doświadczeni pracownicy pokazują swoje opanowanie, szybkość reakcji i zdolność do podejmowania strategicznych decyzji decydujących o być albo nie być naszego obiektu.

W sytuacjach ekstremalnych, takich jak pożar, kiedy dochodzi do niekontrolowanego rozprzestrzeniania się ognia, możemy być prawie pewni, że ciągłość działania obiektu zostanie przerwana i dojdzie do przestoju. Na jak długo? To zależy od rozwoju sytuacji i zniszczeń, jakich dokona ogień, a następnie woda użyta do opanowania pożaru. Jeżeli pożar dotknie tylko jedną wydzieloną strefę pożarową, np. pomieszczenie z zapasowym UPS-em, to mamy bardzo dużą szansę na to, że obiekt zostanie ponownie podłączony do miejskiej infrastruktury energetycznej w ciągu kilku lub kilkunastu godzin od zakończenia akcji gaśniczej. O terminie podłączenia decyduje głównodowodzący akcją gaśniczą oraz przedstawiciel dostawcy energii elektrycznej.

Każdy przestój data center generuje bardzo duże straty finansowe oraz wizerunkowe. Reputacja obiektu spada w środowisku branżowym. Wszyscy, od portali IT po wydawców takich jak MSN, zaczynają pisać o incydencie. Każdego kolejnego dnia na światło dzienne wychodzą nowe informacje. Bardzo często informacje te jeszcze bardziej negatywnie wpływają na wizerunek firmy, ujawniając listę zaniedbań w obszarach utrzymania i monitorowania infrastruktury niskopoziomowej.

To właśnie awarie w infrastrukturze niskopoziomowej (zasilanie, chłodzenie) są najczęściej źródłem długiej niedostępności centrów przetwarzania danych. Przykładowo wymiana uszkodzonej na skutek pożaru rozdzielnicy elektrycznej, sprężarki w układzie chłodzenia lub UPS-a jest procesem o wiele bardziej złożonym niż wymiana uszkodzonej karty sieciowej w jednym z głównych switchów. Częstotliwość występowania awarii urządzeń sieciowych jest znacznie większa niż awarii urządzeń wchodzących w skład infrastruktury energetycznej lub chłodniczej.

Awarie urządzeń IT są na pewno kłopotliwe dla obsługi, jednakże mają z reguły mniejszy wpływ na całkowity przestój centrum danych i nie generują efektów kaskadowych. Przykładem efektu kaskadowego jest np. awaria klimatyzacji lub dramatyczny spadek jej wydajności. Brak odpowiedniej ilości dostarczanego chłodu powoduje, że temperatura w pomieszczeniu UPS zaczyna wzrastać. Po przekroczeniu wartości krytycznej, np. 45°C, może nastąpić samoczynne wyłączenie się UPS-a, co oczywiście skutkuje całkowitym zatrzymaniem pracy data center (topologia zasilania Tier 1 lub Tier 2-dla UPS’ów zainstalowanych w tym samym pomieszczeniu).

Awarie w obiektach data center są nieuniknione. To, jak często będą występować, zależy w dużej mierze od tego, jak skrupulatnie podchodzimy do przestrzegania procedur związanych z przeglądami i codziennym utrzymaniem infrastruktury. Wnioski z badań incydentów, które miały miejsce w centrach przetwarzania danych, pokazują, że czynnik ludzki jest kluczowy i może odpowiadać nawet za 60% przestojów data center.

Próbując minimalizować liczbę incydentów, których źródłem jest człowiek, staramy się skrupulatnie zarządzać dostępem obsługi (dział techniczny oraz administratorzy systemów) do pomieszczeń technicznych oraz do komory serwerowej. Z pomocą w realizacji tego zadania przychodzą nam systemy zarządzania zmianą w infrastrukturze, czyli tzw. systemy ITSM (Information Technology Service Management). W systemie ITSM każda planowana do wykonania praca musi zostać dokładnie opisana, włącznie z określeniem poziomu ryzyka, a następnie przejść proces akceptacji. Tylko w pełni zaakceptowane zmiany mogą być realizowane. Data i godzina wykonania prac musi odpowiadać ramom czasowym określonym w procesie akceptacji.

Kontrola dostępu personelu do obiektów data center jest kluczowa z punktu widzenia bezpieczeństwa przetwarzanych danych, jak również wystąpienia potencjalnych awarii z powodu obecności człowieka i jego umyślnego bądź nieumyślnego działania. Musimy pamiętać, że błąd ludzki jest nieuniknioną konsekwencją ludzkiej obecności w centrum przetwarzania danych.

W celu uszczelnienia fizycznej kontroli dostępu nowoczesne obiekty data center starają się stosować identyfikację biometryczną i zdalne zarządzanie dostępem do komory oraz wybranych szaf rack. Pomału wypierana jest tradycyjna karta oparta na technologii RFID oraz bezpieczeństwo oparte na fizycznym pracowniku ochrony. Śledzenie działalności człowieka w centrum danych może być już realizowane za pomocą autonomicznych robotów skonstruowanych do pracy w środowisku data center.

 

> Raport Ponemon Institute

 

W styczniu 2021 r. Ponemon Institute opublikował raport przedstawiający wyniki z badania mającego na celu określenie częstotliwości przestojów data center i czasu ich trwania. Badanie opiera się na odpowiedziach 425 uczestników reprezentujących 132 centra danych i 1667 lokalizacji brzegowych z obszaru USA, Kanady i Ameryki Południowej. Przedstawiciele Ponemon Institute wysłali ankiety z pytaniami do ponad 600 organizacji, co do których zachodziło bardzo duże prawdopodobieństwo, że w ciągu ostatnich 12 miesięcy wystąpiła u nich co najmniej jedna awaria. Sto trzydzieści dwa centra danych dostarczyły ankiety nadające się do analizy. Badanie wykonane przez Ponemon Institute identyfikuje czynniki, które mogą przyczyniać się do zdarzeń związanych z przestojami.

Według raportu ponad połowa (54%) wszystkich zaudytowanych centrów danych nie stosuje najlepszych praktyk branżowych w zakresie projektowania systemów i nadmiarowości, a 69% operatorów twierdzi, że ich ryzyko nieplanowanego przestoju jest zwiększone w wyniku redukcji kosztów na etapie projektu i budowy. Raport wskazuje również, że głównymi przyczynami nieplanowanych przestojów były cyber­ataki, awarie sprzętu IT, błąd ludzki, awarie baterii UPS-a oraz awarie innych komponentów UPS–a. Zapytano również o to, jakie działania mogą podjąć zarządzający obiektem, aby zapobiec przyszłym przestojom. Najczęściej wskazywano na inwestycję w nowy sprzęt oraz implementację komponentów nadmiarowych tworzących systemy redundantne odporne na awarię.

Badanie Ponemon Institute jest ich trzecim z kolei badaniem, gdzie obserwujemy stale wydłużający się czas trwania nieplanowanych przestojów. Ich średni czas trwania wzrósł z 86 minut w 2013 roku do 101 minut w 2020 roku, a średni czas całkowitego wyłączenia obiektu data center na skutek awarii wzrósł z 119 minut w 2013 roku do 138 minut w 2020 roku.

W raporcie znajdujemy również odwołanie do globalnego badania centrów przetwarzania danych przeprowadzonego przez Uptime Institute w 2020 r. Uptime Institute wskazuje, że aż trzech na czterech uczestników ankiety stwierdziło, że ich ostatnim zdarzeniom związanym z przestojem można było zapobiec. Stwierdzenie to sugeruje, że istnieje możliwość zmniejszenia częstotliwości przestojów lub skrócenie ich czasu trwania.

Na rys. 2 przedstawiono działania, które zdaniem uczestników ankiety Ponemon Institute można podjąć, aby zapobiec nieplanowanym przestojom w przyszłości. Najczęściej pojawiającą się odpowiedzią (56%) była inwestycja w sprzęt IT. Jest to prawdopodobnie spowodowane bardzo dużą częstotliwością przestojów związanych z urządzeniami IT, takimi jak switche oraz serwery. Ponad połowa (51%) głównych centrów przetwarzania danych i 40% lokalizacji brzegowych wskazuje udoskonalenie praktyk bezpieczeństwa jako podstawowy krok w zapobieganiu nieplanowanym przestojom.

Mając na uwadze wnioski z raportu, musimy również wiedzieć, że z czasem każdy obiekt data center może na skutek zaniedbań obniżyć klasę swojej odporności na awarię względem założeń projektowych. Zdarza się, że degradacja z poziomu Tier 3 do Tier 2 przebiega nawet w sposób niezauważalny dla obsługi obiektu. Jak to możliwe? Z biegiem czasu biznes wdraża coraz większą liczbę systemów, jakie muszą być eksploatowane w ramach centrum przetwarzania danych. Fizyczne ograniczenie przestrzeni w data center (skończona liczba szaf rack) wymusza stosowanie sprzętu IT o wysokiej gęstości mocy. Wyższa gęstość mocy urządzeń IT powoduje, że ta sama szafa rack pobiera znacznie większą ilość mocy elektrycznej (nawet o 300%). Zwiększenie ilości pobieranej mocy przekłada się natomiast wprost proporcjonalnie na zwiększenie ilości wydzielanego ciepła. Dodatkowe zyski ciepła w komorze serwerowej muszą być odebrane przez system klimatyzacji (np. klimatyzatory z nadmuchem zimnego powietrza pod podłogę podniesioną), który ma pewną określoną wydajność. Sytuacja ta powoduje, że dział techniczny data center poddawany jest ciągłej presji z uwagi na ograniczenia systemu chłodzenia. By sprostać wymaganiom biznesu, bardzo często zostaje podjęta decyzja o zainstalowaniu dodatkowych urządzeń chłodniczych w komorze serwerowej. Projektanci układów klimatyzacyjnych dokładają najczęściej dodatkowe klimatyzatory pomiędzy nowymi lub modernizowanymi szafami rack. Klimatyzatory montowane pomiędzy szafami rack nazywa się potocznie urządzeniami typu „In-row”. Klimatyzator typu „In-row” dostarcza chłodne powietrze bezpośrednio na przód kilku najbliżej umieszczonych szaf rack. Dystrybucja powietrza realizowana przez klimatyzator „In-row” wygląda inaczej niż w tradycyjnym już zainstalowanym systemie z nadmuchem pod podłogę podniesioną. Mieszanie różnych systemów klimatyzacyjnych w ramach tego samego pomieszczenia powoduje bardzo duże trudności w zarządzaniu pojemnością – ilością dostępnego chłodu. Precyzyjne wyliczenie, jakim buforem dostępnego chłodu dysponujemy, staje się bardzo czasochłonne i często wymaga wsparcia firmy zewnętrznej. Niedokładne wyliczenia skutkują najczęściej tym, że usterka jednego z urządzeń pracującego zgodnie z technologią nadmuchu pod podłogę podniesioną spowoduje znaczny wzrost temperatury w pewnym obszarze serwerowni, co w konsekwencji może spowodować wyłączenie urządzeń w kilku szafach rack.

W sytuacji sprzed modernizacji awaria ta nie wpłynęłaby na zmiany temperatur i mielibyśmy zachowaną odporność na pojedynczą awarię. O tym, jak skomplikowane jest liczenie dostępnej mocy chłodniczej, mogą przekonać się tylko osoby zarządzające obiektem data center z kilkoma pomieszczeniami serwerowymi i redundantnym centralnym systemem wytwarzania technologicznej wody chłodzącej. Woda ta wykorzystywana jest do zasilania klimatyzatorów pracujących w pomieszczeniach IT oraz w pomieszczeniach technicznych. Jeżeli będziemy mieli miks technologii klimatyzacyjnych w ramach tego samego pomieszczenia, to skala komplikacji zwiększa się diametralnie.

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2019 Presscom / Miesięcznik "IT Professional"