Chciałbym podzielić się pewnym pomysłem który wdrożyliśmy jakiś czas temu w Divante. Wyzwaniem było dla nas wtedy zachowanie bardzo wysokich wartości umów SLA przy wdrożeniach które wykonywaliśmy. Zachowanie czasów reakcji 0.5h i czasów obejścia 1-2h – w godzinach nocnych w weekendy – nie jest sprawą łatwą. Nawet trzy-zmianowy system administratorów i specjalne centrum obsługi maintenance – metody z jakich korzystają korporacje – nie zawsze się sprawdza.
Wyzwaniem było wymyślenie metody która pozwoli zespołowi wsparcia wzajemnie się motywować, doceni jego pracę i przede wszystkim – będzie działała w długim okresie czasu i zapewni bezpieczeństwo naszym klientom. Wpadłem na pomysł Grupy Uderzeniowej.
POMYSŁ
Utworzenie grupy szybkiego reagowania „Divante GROM” (grupa typu http://pl.wikipedia.org/
Grupa liczy 3-4 osoby i udział w niej jest dobrowolny. Na ochotnika. Osoby takie maja za zadanie zachowanie SLA na utrzymanie serwisów które obsługuje Divante. Za wszelką cenę i wszystkimi dostępnymi i legalnymi sposobami.Osoby takie przechodzą specjalne szkolenie:
- warsztaty z zewnętrzną firmą specjalizującą się w adminsitrowaniu serwerami (wybraliśmy IMAGIN)
- kurs basha,
- testy na środowisku testowym (symulowane awarie – nie wiadomo co się stało i trzeba sobie poradzić).
Udział w grupie wymaga zdania egzaminu. Tak jak do jednostek specjalnych.
- Osoby otrzymują dodatek do wypłaty – jest to całkiem odczuwalna kwota. Dodatkowo członkowi zespołu otrzymują specjalne emblematy i wyposażenie – scyzork, plakietka itd.
- Wyznaczamy SLA do zachowania przy serwisach. SLA powinno być wysokie (wyższe niż to, które oferujemy klientom).
- Członkowie jednostki SWAT mają za zadanie zachowanie SLA wszystkimi dostępnymi sposobami. Mogą organizować sobie dyżury na zmianę, dzielić się które serwisy są przez kogo obsługiwane, żądać i wdrażać systemy monitoringu, pisać dokumentację, korumpować ;), zachęcać do współpracy programistów. Powinni sami sobie zorganizować pracę w sposób który będzie dla nich najefektywniejszy – w oparciu o procedury które razem uzupełnimy.
- Przez pierwsze 2 miesiące dodatek jest wypłacany niezależnie od tego czy udaje się zachować SLA – jest to okres treningowy w którym zespół ma za zadanie ustanowić swoje procedury działania.
- W kolejnych miesiącach, w sytuacji gdy nie dowozimy SLA do któregokolwiek z obsługiwanych serwisów – cały zespół nie dostaje dodatku. Nikt go nie dostaje. Chodzi o odpowiedzialność zespołową. Analogia jak w jednostce wojskowej – jeden się spóźnia, wszyscy robią pompki
SLA powinno być mierzone i feedbackowane co tydzień (raporty + rozliczenia) aby była stała aktualizacja statusów. W widocznym miejscu tablica z wykresem SLA w danym tygodniu i danym dniu oraz czasami nie działania serwisów (tablica punktowa).
WDROŻENIE
Dla kandydatów do Grupy przeprowadziliśmy miesięczne szkolenie w czasie którego omawialiśmy infrastrukturę, architekturę rozwiązań i tematyki związane z administracja serwerami. Po kursie był egzamin – ustny – ponad 60 minut. Był bardzo trudny.
Pierwszy skład Grupy Uderzeniowej – Michał, Maciek, Marcin – z dyplomami świeżo zdanego egzaminu
Grupa ma dostęp do administratorów systemowych oraz zewn. firmy konsultingowej. Stanowi jednak pierwszą linię obsługi błędów – reaguje, wykonuje co może a gdy kończą się pomysł udaje się po pomoc, w tym może też budzić administratorów, programistów itd
Grupa zorganizowała się sama. Powstał specjalny mail na którym – jak na CB Radiu prowadzone są relacje z interwencji. Po każdej interwencji tworzony jest raport oraz w systemie Redmine zapisywane są wnioski na przyszłość.
Chłopaki zmotywowali też wszystkich programistów w Divante do spisania dokumentów TroubleShootings gdzie opisane są procedury postępowania w razie problemów z konkretnymi aplikacjami. Grupa zapewnia utrzymanie wszystkich naszych serwisów – dlatego kluczowa jest wymiana wiedzy o szczegółach ich działania.
Przykład interwencji podjętej po zgłoszeniu z monitoringu. Okazało się, że fałszywy alarm i rozwiązaniem była zmiana ustawienia monitoringu Screen trochę zamazany, ze względów bezpieczeństwa.
Grupa dostaje też informacje – z wyprzedzeniem – o planowanym pracach na serwerach i deployach aby być w pogotowiu. Chłopaki wyznaczyli sobie dyżuru nocne i weekendowe oraz skonfigurowali monitoring serwerów w taki sposób aby na pewno ich obudził
Do tego założyliśmy specjalną infolinię a każdy z pracowników Divante dostał plastikową plakietkę do portfela z danymi Grupy.
CZY TO DZIAŁA?
Od czasu wprowadzenia Grupy zdarzyło nam się tylko 1 raz nie dochować czasu reakcji zapisanego w SLA i to w niewielkim stopniu (zdarzyło się to przez błąd w konfiguracji monitoringu który nie wykrył awarii).
Cały czas prowadzimy nabór i szkolenia do Grupy Uderzeniowej. Jeśli myślisz o poprawie czasów reakcji i obsługi błędów – wariacja na temat tego pomysłu może być dobrym rozwiązaniem.