Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.


26.08.2021

Firma Fortinet rozszerzyła...

Firma Fortinet rozszerzyła ofertę o usługę FortiTrust, która dołączyła do innych usług...
26.08.2021

Aplikacje biznesowe

Ready_™ AppStore
26.08.2021

Automatyzacja chmur...

Integracja z Red Hat Ansible
26.08.2021

Backup kodu źródłowego

GitProtect.io dostępny na Github
26.08.2021

Wsparcie pracy hybrydowej

Zdalny SD WAN
26.08.2021

Nowy monitor Philips 498P9Z

Nowy monitor Philips 498P9Z to model wyposażony w 49-calowy, zakrzywiony panel VA o...
26.08.2021

Wytrzymały punkt dostępowy

D-Link DIS-2650AP
26.08.2021

Ekonomiczne dyski

SSD bez DRAM
26.08.2021

Petabajty pojemności

Serwery QNAP

Najważniejsze czynniki bezpośredniego wpływu na przestój data center

Data publikacji: 27-05-2021 Autor: Sebastian Jary
Rys. 1. Obszary kompetencyjne...

Za każdą chmurą obliczeniową stoi realny obiekt pełniący funkcję data center. Kluczową rolę w funkcjonowaniu obiektów data center odgrywają instalacje elektryczne, mechaniczne oraz hydrauliczne. Są to instalacje, których klasyczny świat IT na co dzień nie widzi i bardzo często nie chce widzieć. Awaria w którymkolwiek ich miejscu skutkuje poważnymi zakłóceniami w działaniu data center.

 

W codziennym funkcjonowaniu data center mamy do czynienia z podziałem obszarów, które przedstawiono na rys. 1. Na samym dole tej struktury znajdują się obszary związane z zasilaniem elektrycznym, chłodzeniem oraz bezpieczeństwem przeciwpożarowym. Są to filary każdego centrum przetwarzania danych. Incydent w jednym z tych obszarów może skutkować przerwaniem procesów biznesowych.

W zależności od odporności naszego data center na awarie, wynikającej wprost z założeń projektowych, nasi klienci mogą nie odczuć skutków awarii lub przeciwnie, ich systemy i aplikacje będą niedostępne przez godziny lub nawet tygodnie. Poziom odporności na awarie możemy określać w skali od 1 do 4 wg np. klasyfikacji ANSI/TIA-942 Rated-1 do Rated-4 lub Uptime Institute Tier I do Tier IV.

Obiekty data center posiadające pojedynczy punkt awarii, tzw. SPOF (ang. Single Point of Failure), są narażone na przestoje, które mogą generować kolosalne koszty obsługi awarii i ponownego przywrócenia ciągłości działania. Każda awaria w infrastrukturze data center generuje potężną dawkę stresu dla operatorów obiektu, którzy w początkowej fazie są kluczowym ogniwem mającym bezpośredni wpływ na potencjalne zminimalizowanie strat. To w tych momentach najbardziej doświadczeni pracownicy pokazują swoje opanowanie, szybkość reakcji i zdolność do podejmowania strategicznych decyzji decydujących o być albo nie być naszego obiektu.

W sytuacjach ekstremalnych, takich jak pożar, kiedy dochodzi do niekontrolowanego rozprzestrzeniania się ognia, możemy być prawie pewni, że ciągłość działania obiektu zostanie przerwana i dojdzie do przestoju. Na jak długo? To zależy od rozwoju sytuacji i zniszczeń, jakich dokona ogień, a następnie woda użyta do opanowania pożaru. Jeżeli pożar dotknie tylko jedną wydzieloną strefę pożarową, np. pomieszczenie z zapasowym UPS-em, to mamy bardzo dużą szansę na to, że obiekt zostanie ponownie podłączony do miejskiej infrastruktury energetycznej w ciągu kilku lub kilkunastu godzin od zakończenia akcji gaśniczej. O terminie podłączenia decyduje głównodowodzący akcją gaśniczą oraz przedstawiciel dostawcy energii elektrycznej.

Każdy przestój data center generuje bardzo duże straty finansowe oraz wizerunkowe. Reputacja obiektu spada w środowisku branżowym. Wszyscy, od portali IT po wydawców takich jak MSN, zaczynają pisać o incydencie. Każdego kolejnego dnia na światło dzienne wychodzą nowe informacje. Bardzo często informacje te jeszcze bardziej negatywnie wpływają na wizerunek firmy, ujawniając listę zaniedbań w obszarach utrzymania i monitorowania infrastruktury niskopoziomowej.

To właśnie awarie w infrastrukturze niskopoziomowej (zasilanie, chłodzenie) są najczęściej źródłem długiej niedostępności centrów przetwarzania danych. Przykładowo wymiana uszkodzonej na skutek pożaru rozdzielnicy elektrycznej, sprężarki w układzie chłodzenia lub UPS-a jest procesem o wiele bardziej złożonym niż wymiana uszkodzonej karty sieciowej w jednym z głównych switchów. Częstotliwość występowania awarii urządzeń sieciowych jest znacznie większa niż awarii urządzeń wchodzących w skład infrastruktury energetycznej lub chłodniczej.

Awarie urządzeń IT są na pewno kłopotliwe dla obsługi, jednakże mają z reguły mniejszy wpływ na całkowity przestój centrum danych i nie generują efektów kaskadowych. Przykładem efektu kaskadowego jest np. awaria klimatyzacji lub dramatyczny spadek jej wydajności. Brak odpowiedniej ilości dostarczanego chłodu powoduje, że temperatura w pomieszczeniu UPS zaczyna wzrastać. Po przekroczeniu wartości krytycznej, np. 45°C, może nastąpić samoczynne wyłączenie się UPS-a, co oczywiście skutkuje całkowitym zatrzymaniem pracy data center (topologia zasilania Tier 1 lub Tier 2-dla UPS’ów zainstalowanych w tym samym pomieszczeniu).

Awarie w obiektach data center są nieuniknione. To, jak często będą występować, zależy w dużej mierze od tego, jak skrupulatnie podchodzimy do przestrzegania procedur związanych z przeglądami i codziennym utrzymaniem infrastruktury. Wnioski z badań incydentów, które miały miejsce w centrach przetwarzania danych, pokazują, że czynnik ludzki jest kluczowy i może odpowiadać nawet za 60% przestojów data center.

Próbując minimalizować liczbę incydentów, których źródłem jest człowiek, staramy się skrupulatnie zarządzać dostępem obsługi (dział techniczny oraz administratorzy systemów) do pomieszczeń technicznych oraz do komory serwerowej. Z pomocą w realizacji tego zadania przychodzą nam systemy zarządzania zmianą w infrastrukturze, czyli tzw. systemy ITSM (Information Technology Service Management). W systemie ITSM każda planowana do wykonania praca musi zostać dokładnie opisana, włącznie z określeniem poziomu ryzyka, a następnie przejść proces akceptacji. Tylko w pełni zaakceptowane zmiany mogą być realizowane. Data i godzina wykonania prac musi odpowiadać ramom czasowym określonym w procesie akceptacji.

Kontrola dostępu personelu do obiektów data center jest kluczowa z punktu widzenia bezpieczeństwa przetwarzanych danych, jak również wystąpienia potencjalnych awarii z powodu obecności człowieka i jego umyślnego bądź nieumyślnego działania. Musimy pamiętać, że błąd ludzki jest nieuniknioną konsekwencją ludzkiej obecności w centrum przetwarzania danych.

W celu uszczelnienia fizycznej kontroli dostępu nowoczesne obiekty data center starają się stosować identyfikację biometryczną i zdalne zarządzanie dostępem do komory oraz wybranych szaf rack. Pomału wypierana jest tradycyjna karta oparta na technologii RFID oraz bezpieczeństwo oparte na fizycznym pracowniku ochrony. Śledzenie działalności człowieka w centrum danych może być już realizowane za pomocą autonomicznych robotów skonstruowanych do pracy w środowisku data center.

 

> Raport Ponemon Institute

 

W styczniu 2021 r. Ponemon Institute opublikował raport przedstawiający wyniki z badania mającego na celu określenie częstotliwości przestojów data center i czasu ich trwania. Badanie opiera się na odpowiedziach 425 uczestników reprezentujących 132 centra danych i 1667 lokalizacji brzegowych z obszaru USA, Kanady i Ameryki Południowej. Przedstawiciele Ponemon Institute wysłali ankiety z pytaniami do ponad 600 organizacji, co do których zachodziło bardzo duże prawdopodobieństwo, że w ciągu ostatnich 12 miesięcy wystąpiła u nich co najmniej jedna awaria. Sto trzydzieści dwa centra danych dostarczyły ankiety nadające się do analizy. Badanie wykonane przez Ponemon Institute identyfikuje czynniki, które mogą przyczyniać się do zdarzeń związanych z przestojami.

Według raportu ponad połowa (54%) wszystkich zaudytowanych centrów danych nie stosuje najlepszych praktyk branżowych w zakresie projektowania systemów i nadmiarowości, a 69% operatorów twierdzi, że ich ryzyko nieplanowanego przestoju jest zwiększone w wyniku redukcji kosztów na etapie projektu i budowy. Raport wskazuje również, że głównymi przyczynami nieplanowanych przestojów były cyber­ataki, awarie sprzętu IT, błąd ludzki, awarie baterii UPS-a oraz awarie innych komponentów UPS–a. Zapytano również o to, jakie działania mogą podjąć zarządzający obiektem, aby zapobiec przyszłym przestojom. Najczęściej wskazywano na inwestycję w nowy sprzęt oraz implementację komponentów nadmiarowych tworzących systemy redundantne odporne na awarię.

Badanie Ponemon Institute jest ich trzecim z kolei badaniem, gdzie obserwujemy stale wydłużający się czas trwania nieplanowanych przestojów. Ich średni czas trwania wzrósł z 86 minut w 2013 roku do 101 minut w 2020 roku, a średni czas całkowitego wyłączenia obiektu data center na skutek awarii wzrósł z 119 minut w 2013 roku do 138 minut w 2020 roku.

W raporcie znajdujemy również odwołanie do globalnego badania centrów przetwarzania danych przeprowadzonego przez Uptime Institute w 2020 r. Uptime Institute wskazuje, że aż trzech na czterech uczestników ankiety stwierdziło, że ich ostatnim zdarzeniom związanym z przestojem można było zapobiec. Stwierdzenie to sugeruje, że istnieje możliwość zmniejszenia częstotliwości przestojów lub skrócenie ich czasu trwania.

Na rys. 2 przedstawiono działania, które zdaniem uczestników ankiety Ponemon Institute można podjąć, aby zapobiec nieplanowanym przestojom w przyszłości. Najczęściej pojawiającą się odpowiedzią (56%) była inwestycja w sprzęt IT. Jest to prawdopodobnie spowodowane bardzo dużą częstotliwością przestojów związanych z urządzeniami IT, takimi jak switche oraz serwery. Ponad połowa (51%) głównych centrów przetwarzania danych i 40% lokalizacji brzegowych wskazuje udoskonalenie praktyk bezpieczeństwa jako podstawowy krok w zapobieganiu nieplanowanym przestojom.

Mając na uwadze wnioski z raportu, musimy również wiedzieć, że z czasem każdy obiekt data center może na skutek zaniedbań obniżyć klasę swojej odporności na awarię względem założeń projektowych. Zdarza się, że degradacja z poziomu Tier 3 do Tier 2 przebiega nawet w sposób niezauważalny dla obsługi obiektu. Jak to możliwe? Z biegiem czasu biznes wdraża coraz większą liczbę systemów, jakie muszą być eksploatowane w ramach centrum przetwarzania danych. Fizyczne ograniczenie przestrzeni w data center (skończona liczba szaf rack) wymusza stosowanie sprzętu IT o wysokiej gęstości mocy. Wyższa gęstość mocy urządzeń IT powoduje, że ta sama szafa rack pobiera znacznie większą ilość mocy elektrycznej (nawet o 300%). Zwiększenie ilości pobieranej mocy przekłada się natomiast wprost proporcjonalnie na zwiększenie ilości wydzielanego ciepła. Dodatkowe zyski ciepła w komorze serwerowej muszą być odebrane przez system klimatyzacji (np. klimatyzatory z nadmuchem zimnego powietrza pod podłogę podniesioną), który ma pewną określoną wydajność. Sytuacja ta powoduje, że dział techniczny data center poddawany jest ciągłej presji z uwagi na ograniczenia systemu chłodzenia. By sprostać wymaganiom biznesu, bardzo często zostaje podjęta decyzja o zainstalowaniu dodatkowych urządzeń chłodniczych w komorze serwerowej. Projektanci układów klimatyzacyjnych dokładają najczęściej dodatkowe klimatyzatory pomiędzy nowymi lub modernizowanymi szafami rack. Klimatyzatory montowane pomiędzy szafami rack nazywa się potocznie urządzeniami typu „In-row”. Klimatyzator typu „In-row” dostarcza chłodne powietrze bezpośrednio na przód kilku najbliżej umieszczonych szaf rack. Dystrybucja powietrza realizowana przez klimatyzator „In-row” wygląda inaczej niż w tradycyjnym już zainstalowanym systemie z nadmuchem pod podłogę podniesioną. Mieszanie różnych systemów klimatyzacyjnych w ramach tego samego pomieszczenia powoduje bardzo duże trudności w zarządzaniu pojemnością – ilością dostępnego chłodu. Precyzyjne wyliczenie, jakim buforem dostępnego chłodu dysponujemy, staje się bardzo czasochłonne i często wymaga wsparcia firmy zewnętrznej. Niedokładne wyliczenia skutkują najczęściej tym, że usterka jednego z urządzeń pracującego zgodnie z technologią nadmuchu pod podłogę podniesioną spowoduje znaczny wzrost temperatury w pewnym obszarze serwerowni, co w konsekwencji może spowodować wyłączenie urządzeń w kilku szafach rack.

W sytuacji sprzed modernizacji awaria ta nie wpłynęłaby na zmiany temperatur i mielibyśmy zachowaną odporność na pojedynczą awarię. O tym, jak skomplikowane jest liczenie dostępnej mocy chłodniczej, mogą przekonać się tylko osoby zarządzające obiektem data center z kilkoma pomieszczeniami serwerowymi i redundantnym centralnym systemem wytwarzania technologicznej wody chłodzącej. Woda ta wykorzystywana jest do zasilania klimatyzatorów pracujących w pomieszczeniach IT oraz w pomieszczeniach technicznych. Jeżeli będziemy mieli miks technologii klimatyzacyjnych w ramach tego samego pomieszczenia, to skala komplikacji zwiększa się diametralnie.

Artykuł pochodzi z miesięcznika: IT Professional

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2019 Presscom / Miesięcznik "IT Professional"