Przestój - Downtime

Termin przestój jest używany w odniesieniu do okresów, w których system jest niedostępny.

Niedostępność jest odsetek przedziale czasowym, że układ jest niedostępna lub nieaktywny . Jest to zwykle wynikiem awarii systemu z powodu nieplanowanego zdarzenia lub rutynowej konserwacji (planowane zdarzenie).

Termin ten jest powszechnie stosowany do sieci i serwerów . Najczęstsze przyczyny nieplanowanych przestojów to awarie systemu (takie jak awaria ) lub awarie komunikacji (powszechnie znane jako awarie sieci ).

Termin ten jest również powszechnie stosowany w środowiskach przemysłowych w odniesieniu do awarii przemysłowych urządzeń produkcyjnych. Niektóre zakłady mierzą przestoje powstałe podczas zmiany roboczej lub w okresie 12- lub 24-godzinnym. Inną powszechną praktyką jest identyfikowanie każdego zdarzenia przestoju jako mającego pochodzenie operacyjne, elektryczne lub mechaniczne.

Przeciwieństwem przestojów jest czas pracy bez przestojów .

Rodzaje

Standardy branżowe dla terminu „Czas przestoju” lub „Czas konserwacji” mogą mieć różne punkty rozpoczęcia i zakończenia, dlatego należy zastosować następujące wyjaśnienie, aby uniknąć konfliktów w realizacji umowy:

  1. „Pod klucz” to najbardziej absorbujący ze wszystkich rodzajów przestojów. Przestój lub konserwacja rozpoczyna się od naciśnięcia przez operatora zakładu lub sprzętu przycisku wyłączania lub zatrzymania w celu zainicjowania zatrzymania pracy. O ile nie zaznaczono inaczej, Przestój lub Konserwację uznaje się za zakończoną, gdy zakład lub sprzęt powraca do normalnej pracy, gotowy do rozpoczęcia produkcji lub gotowy do zsynchronizowania z systemem lub siecią lub gotowy do wykonywania zadań jako pompa lub sprężarka.
  2. „Od wyłącznika do wyłącznika” Ta przerwa lub konserwacja rozpoczyna się od usunięcia przez operatora instalacji lub urządzenia obwodu zasilania (wyłącznik główny zasilania w pozycji „wyłączony” lub „odłączony” lub „włączony do ochładzania”), a nie obwodu sterującego z działania. To nadal pozwoliłoby na schłodzenie sprzętu lub doprowadzenie go do otoczenia, tak aby można było przygotować lub rozpocząć prace związane z przestojem/konserwacją. W zależności od typu sprzętu, przestój „od wyłącznika do wyłącznika” może być korzystny, jeśli zlecasz konserwację związaną ze sterowaniem, ponieważ tego rodzaju prace konserwacyjne można wykonywać, gdy główny sprzęt jest nadal w stanie schładzania lub w stanie gotowości. O ile nie zaznaczono inaczej, ten rodzaj wyłączenia jest uważany za zakończony, gdy obwód zasilania jest ponownie zasilany poprzez włączenie wyłącznika zasilania.
  3. „Zakończenie blokady/oznaczenia ” Ta przerwa lub konserwacja (czasami mylona z „wyłączeniem chłodzenia”, ale nie tym samym) rozpoczyna się od usunięcia przez operatora instalacji lub urządzenia obwodu zasilania, odłączenia obwodu sterowania i wykonania innej neutralizacji potencjalnych źródeł zasilania i zagrożeń (zwykle nazywanych Lock-Out, Tag-Out „LOTO”) Ten punkt okresu konserwacji jest zwykle ostatnią fazą etapu rozpoczęcia przestoju przed rozpoczęciem rzeczywistych prac w obiekcie, zakładzie lub sprzęcie. Odprawa bezpieczeństwa powinna zawsze następować po czynnościach LOTO, przed przystąpieniem do jakichkolwiek prac. O ile nie zaznaczono inaczej, ten rodzaj przestoju jest uważany za zakończony, gdy urządzenie zostało ukończone mechanicznie i jest gotowe do umieszczenia na powolnym toczeniu w przypadku wielu ciężkich urządzeń obrotowych, testu uderzeniowego lub kontroli obrotów silników itp., ale musi nastąpić po powrocie lub pozwolenie na pracę zgodnie z procedurami LOTO.

Wszelkie wymagane testy on-line, testy wydajności i strojenie nie powinny wliczać się do czasu trwania przestoju, ponieważ czynności te są zwykle przeprowadzane po zakończeniu awarii lub konserwacji i są poza kontrolą większości wykonawców konserwacji.

Charakterystyka

Nieplanowany przestój może być wynikiem awarii sprzętu itp.

Klasyfikacje awarii telekomunikacyjnych

Przestój może być spowodowany awarią sprzętu (sprzętu fizycznego), (sprzętu sterującego logiką), sprzętu łączącego (takiego jak kable, urządzenia, routery,...), transmisji (bezprzewodowej, mikrofalowej, satelitarnej) i/lub pojemności (system limity).

Awarie mogą wystąpić z powodu uszkodzenia, awarii, projektu, procedury (niewłaściwe użytkowanie przez ludzi), inżynierii (jak używać i wdrażanie), przeciążenia (ruch lub zasoby systemowe obciążone poza zaprojektowane limity), środowiska (systemy wsparcia, takie jak zasilanie i HVAC) , (awarie zaprojektowane w systemie do celów takich jak aktualizacja oprogramowania i rozwój sprzętu), inne (żadne z powyższych, ale znane) lub nieznane.

Za awarie może odpowiadać klient/dostawca usług, sprzedawca/dostawca, zakład użyteczności publicznej, rząd, wykonawca, klient końcowy, osoba publiczna, działanie natury, inne (żadne z powyższych, ale znane) lub nieznane.

Uderzenie

Przestoje spowodowane awariami systemu mogą mieć poważny wpływ na użytkowników systemów komputerowych/sieciowych, w szczególności tych branż, które polegają na prawie 24-godzinnym serwisie:

Dotyczy to również użytkowników usługodawcy internetowego i innych klientów sieci telekomunikacyjnej.

Korporacje mogą stracić biznes z powodu awarii sieci lub mogą nie wywiązać się z umowy, powodując straty finansowe. Według raportu Veeam 2019 dotyczącego zarządzania danymi w chmurze organizacje napotykają na nieplanowane przestoje średnio 5–10 razy w roku, a średni koszt jednej godziny przestoju wynosi 102 450 USD.

Osoby lub organizacje dotknięte przestojem mogą być bardziej wrażliwe na poszczególne aspekty:

  • niektóre są bardziej dotknięte długością przerwy w dostawie – ma dla nich znaczenie, ile czasu zajmuje powrót do zdrowia po problemie
  • inni są wrażliwi na czas przestoju – awarie w godzinach szczytu mają na nich największy wpływ

Najbardziej wymagający użytkownicy to ci, którzy wymagają wysokiej dostępności .

Znane awarie

W Dzień Matki , niedziela, 8 maja 1988 roku, w głównej rozdzielni Hinsdale Central Office firmy telefonicznej Illinois Bell wybuchł pożar . Jeden z największych systemów przełączających w stanie, obiekt przetwarzał ponad 3,5 miliona połączeń dziennie, obsługując 38 000 klientów, w tym liczne firmy, szpitale oraz lotniska Chicago O'Hare i Midway.

Praktycznie cała sieć AT&T tandemowych przełączników opłat drogowych 4ESS raz po raz włączała się i wyłączała 15 stycznia 1990 r., zakłócając usługi dalekobieżne w całych Stanach Zjednoczonych. Problem zniknął samoistnie, gdy ruch uliczny zwolnił. Znaleziono błąd oprogramowania.

AT&T utraciło swoją sieć Frame Relay na 26 godzin 13 kwietnia 1998 roku. Dotknęło to wiele tysięcy klientów, a jedną ofiarą były transakcje bankowe. AT&T nie wywiązało się z umowy o poziomie usług w swoich umowach z klientami i musiało zwrócić 6600 kont klientów , co kosztowało miliony dolarów.

Usługa Xbox Live miała sporadyczne przestoje w okresie świątecznym 2007-2008, który trwał trzynaście dni. Jako przyczynę przestoju podano zwiększony popyt ze strony nabywców Xbox 360 (największa liczba rejestracji nowych użytkowników w historii Xbox Live); w celu naprawienia problemów z usługą Microsoft zaoferował swoim użytkownikom możliwość otrzymania darmowej gry.

Sony „s PlayStation Network kwietnia 2011 przerwa , rozpoczęła się 20 kwietnia 2011 roku i został przywrócony stopniowo w dniu 14 maja 2011 roku począwszy od Stanów Zjednoczonych . Ta awaria to najdłuższy czas, przez jaki PSN był offline od momentu jego powstania w 2006 roku. Sony stwierdziło, że problem został spowodowany przez wtargnięcie z zewnątrz, które spowodowało konfiskatę danych osobowych. Sony poinformowało 26 kwietnia 2011 r., że w wyniku tego samego włamania, które spowodowało przestój, pozyskano dużą ilość danych użytkowników.

Przełącznik Ryde firmy Telstra uległ awarii pod koniec 2011 r. po tym, jak woda przedostała się do elektrycznej tablicy rozdzielczej z powodu utrzymującej się deszczowej pogody. Przełącznik Ryde jest jednym z największych przełączników obszaru w Australii i dotyczy ponad 720 000 usług.

Centrum danych ServerAxis w Miami zostało wyłączone bez zapowiedzi 29 lutego 2016 r. i nigdy nie zostało przywrócone. Wpłynęło to na wielu dostawców i setki stron internetowych. Awaria wpłynęła na zasięg turnieju koszykówki kobiet NCAA Division I 2016, ponieważ WBBState, jedna z zaatakowanych stron, była zdecydowanie najbardziej wszechstronnym dostawcą statystyk dotyczących koszykówki kobiet.

Poziomy usług

W umowach o gwarantowanym poziomie usług często podaje się wartość procentową (na miesiąc lub rok), która jest obliczana poprzez podzielenie sumy wszystkich okresów przestojów przez całkowity czas okresu odniesienia (np. miesiąca). 0% przestoju oznacza, że ​​serwer był cały czas dostępny.

W przypadku serwerów internetowych przestoje powyżej 1% rocznie lub gorsze można uznać za niedopuszczalne, ponieważ oznacza to przestoje dłuższe niż 3 dni w roku. W przypadku handlu elektronicznego i innych zastosowań przemysłowych każda wartość powyżej 0,1% jest zwykle uważana za niedopuszczalną.

Reakcja i redukcja wpływu

Obowiązkiem projektanta sieci jest upewnienie się, że nie nastąpi awaria sieci. Kiedy tak się stanie, dobrze zaprojektowany system jeszcze bardziej ograniczy skutki awarii dzięki zlokalizowaniu awarii, które można wykryć i naprawić tak szybko, jak to możliwe.

Musi istnieć proces wykrywania awarii – monitorowanie sieci – i przywracania sieci do stanu roboczego – zazwyczaj obejmuje to zespół pomocy technicznej , który może rozwiązać problem, złożony z przeszkolonych inżynierów; osobny zespół pomocy technicznej jest zwykle niezbędny w celu zebrania danych od użytkownika, co może być szczególnie wymagające podczas przestojów.

System zarządzania siecią może służyć do wykrywania wadliwych lub pogarszających się komponentów przed złożeniem reklamacji przez klienta, z proaktywnym usuwaniem usterek.

Techniki zarządzania ryzykiem mogą być wykorzystane do określenia wpływu awarii sieci na organizację i jakie działania mogą być wymagane w celu zminimalizowania ryzyka. Ryzyko można zminimalizować, stosując niezawodne komponenty, przeprowadzając konserwację, taką jak modernizacje, stosując systemy nadmiarowe lub mając plan awaryjny lub plan ciągłości działania . Środki techniczne mogą zredukować błędy za pomocą kodów korekcji błędów , retransmisji , sum kontrolnych lub schematu dywersyfikacji .

Jedną z największych przyczyn przestojów jest błędna konfiguracja, w której zaplanowana zmiana kończy się niepowodzeniem. Zazwyczaj organizacje polegają na ręcznym zarządzaniu procesem tworzenia kopii zapasowych konfiguracji, ale wymaga to wysoko wykwalifikowanych inżynierów z czasem na zarządzanie procesem w sieci wielu dostawców. Dostępne są narzędzia do automatyzacji do zarządzania kopiami zapasowymi, ale istnieje bardzo niewiele rozwiązań obsługujących odzyskiwanie konfiguracji, które jest potrzebne do zminimalizowania ogólnego wpływu przestoju.

Planowanie

Przestój planowany jest wynikiem zaplanowanego działania właściciela systemu i/lub usługodawcy . Te awarie, często zaplanowane w okresie konserwacji , mogą być wykorzystywane do wykonywania zadań, w tym:

  • Odroczona konserwacja, np. odroczona naprawa sprzętu lub odroczony restart w celu oczyszczenia zniekształconej pamięci
  • Diagnostyka w celu wyizolowania wykrytej usterki
  • Naprawa usterek sprzętowych
  • Naprawienie błędu lub pominięcia w bazie danych konfiguracji lub pominięcie w ostatniej zmianie bazy danych konfiguracji
  • Naprawienie błędu w bazie danych aplikacji lub błędu w ostatniej zmianie bazy danych aplikacji
  • Łatanie oprogramowania/aktualizacja oprogramowania w celu naprawienia usterki oprogramowania.

Przestoje można również planować w wyniku przewidywalnego zdarzenia naturalnego, takiego jak awaria słońca .

Przestoje konserwacyjne muszą być starannie zaplanowane w branżach, które opierają się na systemach komputerowych. W wielu przypadkach przestojom całego systemu można zapobiec, stosując tzw. „uaktualnianie kroczące” — proces stopniowego wyłączania części systemu do aktualizacji bez wpływu na ogólną funkcjonalność.

Unikanie

Dla większości stron internetowych dostępny jest monitoring strony . Monitoring strony (syntetyczny lub pasywny) to usługa, która „monitoruje” przestoje i użytkowników na stronie.

Inne zastosowanie

Przestój może również odnosić się do czasu, w którym spada kapitał ludzki lub inne aktywa. Na przykład, jeśli pracownicy są na spotkaniach lub nie mogą wykonywać swojej pracy z powodu innego ograniczenia, są niespokojni. Może to być równie kosztowne i może być wynikiem awarii innego zasobu (np. komputera/systemów). Jest to również powszechnie znane jako „ czas martwy ”.

Przestój jest również uogólniany w sensie osobistym i odnosi się do okresu snu lub wypoczynku .

Termin ten jest używany również w fabrykach lub zastosowaniach przemysłowych. Zobacz kompleksową konserwację produktywną (TPM).

Pomiar czasu przestoju

Istnieje wiele usług zewnętrznych, które można wykorzystać do monitorowania dostępności i przestojów, a także dostępności usługi lub hosta.

Zobacz też

Bibliografia

Wprowadzenie i porady dotyczące przestojów w witrynie

Dlaczego śledzenie przestojów maszyn ma znaczenie?