m.klasavičius - kelias diegiant monitoringo sistemą - nuo 0 iki verslo metrikų
TRANSCRIPT
Adform infrastruktūra
2 duomenų centrai
200 fizinių serverių
35k tranzakcijų per sekundę
~65 aplikacijos
Ir mes augame…
2
Infrastruktūra
Zabbix – monitorinimo aplikacija
2 serveriai
> 230 stebimų įrenginių
> 20 000 stebimų parametrų
~ 400 naujų reikšmių/sek
4
DEV, PM ir metrikos
Kiekviena SCRUM komanda prižiūri už savo
aplikacijas
Kas ir kaip bus stebima sprendžia ir įgyvendina
komanda
Produkto vadovai prižiūri verslo dalį
Jeigu reikia “keltis naktį”, informuojami IT
6
DEV komentarai
"be metriku mes dabar kaip akli”
“Labai norime zinoti kas darosi pasaulyje su musu
skriptais, kokie yra errorai ir kitokie ivykiai,
feature’su usage’a ir statusa po release’o. “
[2012.05.13 23:02:42] Ramunas Urbonas: va, gali
paziuret praktiskai galutini reikala...
13
SCOM – natūralus (ne)pasirinkimas
Pliusas
Idealus stebėti standartinius “counterius”
Minusai
Nelabai tinkamas nestandartiniams parametrams
Nėra WEB konsoles
SCOM nepasirinkome – Monitoringo projektas
įstrigo
16
Nuolatinis diegimas – nauja galimybė monitoringo sistemai
Nagios+cacti, Zenoss, Splunk, SCOM, Zabbix
Kodėl – ?
Šablonų sistema
Ekranai
Pasiekiamas per http
Atviro kodo – nemokamas
19
Nuolatinis diegimas – nauja galimybė monitoringo sistemai
Serveris automatiškai pradedamas monitorinti
Taip pat visos aplikacijos serveryje
Nuolatinis diegimas įstrigo
Monitorinimo idėjos liko
20
Monitorinimas - (ne)IT sfera
IT geriausiai žino serverių, tinklų infrastruktūrą
IT “nežino” aplikacijų
DEV turi “ilgą sarašą” parametrų
“mums niekas nesakė”
21
DEV pritraukimas: dublis 1
Bendras IT ir DEV serveris
DEV “tiekia” šablonus IT
IT peržiūri ir įdiegia
Viskas žlugo
DEV - “nereleasinsim kiekvienos smulkmenos”
IT – “DEV releasina per dažnai”
IT – “tai ne monitorinimas”
22
DEV pritraukimas: dublis 2Monitoringo Serveris Metrikų serveris
Tikslas Ar mūsų sistema veikia Kaip sistema veikia, lyginti ir analizuoti pokyčius
Stabilumas Kiek galima patikimesnis Patikimas, bet nebūtinai dubliuotas
Teisės Tik IT DEV nariai gali daryti pakeitimus
Pakeitimai Ne tiek daug pakeitimų Labai dinaminė aplinka, greitai pritaikoma prie pasikeitusių reikalavimų
Atsakingas IT DEV kartu su IT
24
Pataikėm!!! - Pirmieji pionieriai
Per mėnesį - nuo 50 reikšmių/s iki 350 r/s
“Stebime viską” ir “Stebime dažnai”
Reikalingos metrikos “atsisijoja”
25
Tai kodėl vis dėlto suveikė?
Parodėm realią naudą
Tinkami įrankiai
“Atrišom” rankas
Vadovų palaikymas irgi padeda
26
Tolimesni žingsniai
Atiderintos SLA metrikos
Įtraukti visas komandas
Pakeitimų logai
Viešai prieinami ekranai
29