Chciałbym podzielić się pewnym pomysłem który wdrożyliśmy jakiś czas temu w Divante. Wyzwaniem było dla nas wtedy zachowanie bardzo wysokich wartości umów SLA przy wdrożeniach które wykonywaliśmy. Zachowanie czasów reakcji 0.5h i czasów obejścia 1-2h – w godzinach nocnych w weekendy – nie jest sprawą łatwą. Nawet trzy-zmianowy system administratorów i specjalne centrum obsługi maintenance – metody z jakich korzystają korporacje – nie zawsze się sprawdza.

Wyzwaniem było wymyślenie metody która pozwoli zespołowi wsparcia wzajemnie się motywować, doceni jego pracę i przede wszystkim – będzie działała w długim okresie czasu i zapewni bezpieczeństwo naszym klientom. Wpadłem na pomysł Grupy Uderzeniowej.

POMYSŁ

Utworzenie grupy szybkiego reagowania „Divante GROM” (grupa typu http://pl.wikipedia.org/wiki/SWAT).

Zrzut ekranu 2014-02-02 o 21.08.38

Grupa liczy 3-4 osoby i udział w niej jest dobrowolny. Na ochotnika. Osoby takie maja za zadanie zachowanie SLA na utrzymanie serwisów które obsługuje Divante. Za wszelką cenę i wszystkimi dostępnymi i legalnymi sposobami.Osoby takie przechodzą specjalne szkolenie:

  • warsztaty z zewnętrzną firmą specjalizującą się w adminsitrowaniu serwerami (wybraliśmy IMAGIN)
  • kurs basha,
  • testy na środowisku testowym (symulowane awarie – nie wiadomo co się stało i trzeba sobie poradzić).

Udział w grupie wymaga zdania egzaminu. Tak jak do jednostek specjalnych.

  1. Osoby otrzymują dodatek do wypłaty – jest to całkiem odczuwalna kwota. Dodatkowo członkowi zespołu otrzymują specjalne emblematy i wyposażenie – scyzork, plakietka itd.
  2. Wyznaczamy SLA do zachowania przy serwisach. SLA powinno być wysokie (wyższe niż to, które oferujemy klientom).
  3. Członkowie jednostki SWAT mają za zadanie zachowanie SLA wszystkimi dostępnymi sposobami. Mogą organizować sobie dyżury na zmianę, dzielić się które serwisy są przez kogo obsługiwane, żądać i wdrażać systemy monitoringu, pisać dokumentację, korumpować ;), zachęcać do współpracy programistów. Powinni sami sobie zorganizować pracę w sposób który będzie dla nich najefektywniejszy – w oparciu o procedury które razem uzupełnimy.
  4. Przez pierwsze 2 miesiące dodatek jest wypłacany niezależnie od tego czy udaje się zachować SLA – jest to okres treningowy w którym zespół ma za zadanie ustanowić swoje procedury działania.
  5. W kolejnych miesiącach, w sytuacji gdy nie dowozimy SLA do któregokolwiek z obsługiwanych serwisów – cały zespół nie dostaje dodatku. Nikt go nie dostaje. Chodzi o odpowiedzialność zespołową. Analogia jak w jednostce wojskowej – jeden się spóźnia, wszyscy robią pompki :-)

SLA powinno być mierzone i feedbackowane co tydzień (raporty + rozliczenia) aby była stała aktualizacja statusów. W widocznym miejscu tablica z wykresem SLA w danym tygodniu i danym dniu oraz czasami nie działania serwisów (tablica punktowa).

WDROŻENIE

Dla kandydatów do Grupy przeprowadziliśmy miesięczne szkolenie w czasie którego omawialiśmy infrastrukturę, architekturę rozwiązań i tematyki związane z administracja serwerami. Po kursie był egzamin – ustny – ponad 60 minut. Był bardzo trudny.

1378185_10151854211583847_584679619_n

Pierwszy skład Grupy Uderzeniowej – Michał, Maciek, Marcin – z dyplomami świeżo zdanego egzaminu :)

Grupa ma dostęp do administratorów systemowych oraz zewn. firmy konsultingowej. Stanowi jednak pierwszą linię obsługi błędów – reaguje, wykonuje co może a gdy kończą się pomysł udaje się po pomoc, w tym może też budzić administratorów, programistów itd :)

Grupa zorganizowała się sama. Powstał specjalny mail na którym – jak na CB Radiu prowadzone są relacje z interwencji. Po każdej interwencji tworzony jest raport oraz w systemie Redmine zapisywane są wnioski na przyszłość.

Chłopaki zmotywowali też wszystkich programistów w Divante do spisania dokumentów TroubleShootings gdzie opisane są procedury postępowania w razie problemów z konkretnymi aplikacjami. Grupa zapewnia utrzymanie wszystkich naszych serwisów – dlatego kluczowa jest wymiana wiedzy o szczegółach ich działania.

Zrzut ekranu 2014-02-02 o 21.03.26

Przykład interwencji podjętej po zgłoszeniu z monitoringu. Okazało się, że fałszywy alarm i rozwiązaniem była zmiana ustawienia monitoringu :) Screen trochę zamazany, ze względów bezpieczeństwa.

Grupa dostaje też informacje – z wyprzedzeniem – o planowanym pracach na serwerach i deployach aby być w pogotowiu. Chłopaki wyznaczyli sobie dyżuru nocne i weekendowe oraz skonfigurowali monitoring serwerów w taki sposób aby na pewno ich obudził :)

Do tego założyliśmy specjalną infolinię a każdy z pracowników Divante dostał plastikową plakietkę do portfela z danymi Grupy.

CZY TO DZIAŁA?

Od czasu wprowadzenia Grupy zdarzyło nam się tylko 1 raz nie dochować czasu reakcji zapisanego w SLA i to w niewielkim stopniu (zdarzyło się to przez błąd w konfiguracji monitoringu który nie wykrył awarii).

Cały czas prowadzimy nabór i szkolenia do Grupy Uderzeniowej. Jeśli myślisz o poprawie czasów reakcji i obsługi błędów – wariacja na temat tego pomysłu może być dobrym rozwiązaniem.