Razno

Loše performanse su novi oblik nedostupnosti

Cloud-Native Challenges and the Need for Prevention

Na konferenciji AWS:reInvent 2022 imali smo mnogo odličnih razgovora sa učesnicima i saznali šta preduzeća trenutno rade sa cloud-native tehnologijom. Neki su koristili isključivo cloud-native tehnologiju, dok je velika većina navela da koristi cloud-native mikroservise za front-end aplikacije koje se povezuju sa mainframe infrastrukturom kao sistemima evidencije u hibridnoj cloud konfiguraciji. U svim slučajevima, pitali smo učesnike da li su ikada imali bilo kakve probleme ili prekide rada kada koriste cloud-native tehnologiju. Svi su priznali da jesu — bilo usmeno, klimanjem glave ili neprijatnim izrazom priznanja. Zapravo, jedan učesnik je otišao toliko daleko da nam je rekao da je „degradacija novo vreme nedostupnosti“.

Taj opis je potvrdio da nije problematično samo vreme nedostupnosti cloud aplikacija, već da je i degradacija performansi problem sa kojim se suočavaju preduzeća. To znači da brzo prosečno vreme popravke ubrzano postaje nedovoljno. Jasna posledica toga jeste da su, kako bi se ne samo smanjili incidenti već i degradacija, potrebne preventivne mere koje ublažavaju probleme pre nego što se pretvore u incidente.

Zašto su performanse važne?

Performanse su oduvek bile važne, ali su performanse veba i aplikacija došle u prvi plan 2009. godine. U to vreme, Google Research je objavio sledeće kako bi uspostavio merilo za to kakve bi performanse veba i aplikacija trebalo da budu.

UTORAK, 23. JUN 2009.
Objavio Jake Brutlag, Web Search Infrastructure

U Google-u smo prikupili konkretne podatke kako bismo potvrdili našu intuiciju da je „brzina važna“ na internetu. Google sprovodi eksperimente na stranici sa rezultatima pretrage kako bi razumeo i poboljšao iskustvo pretrage. Nedavno smo sproveli nekoliko eksperimenata kako bismo utvrdili kako korisnici reaguju kada veb pretraga traje duže. Brzinu smo oduvek posmatrali kao konkurentsku prednost, pa je ovo istraživanje važno za razumevanje kompromisa između brzine i drugih funkcija koje bismo mogli uvesti. Želeli smo da podelimo ove informacije sa javnošću jer se nadamo da će drugima pružiti bolji uvid u to koliko brzina može biti važna.

Uticaj Google efekta na performanse

Rezultati ovog istraživanja postali su šire poznati kao „Google efekat“. Njegov uticaj bio je u tome što je uspostavio vreme odziva veb-stranice od približno 200 milisekundi kao merilo za optimalno vreme odziva stranice. Takođe su ustanovili numeričke formule za određivanje negativnog uticaja sporijih performansi.Tehnologija je od tada značajno napredovala, posebno sa cloud i mikroservisnim tehnologijama, ali su osnovni principi performansi, otpornosti i dostupnosti ostali isti. Performanse, otpornost i dostupnost ključni su za stabilnost i efikasnost cloud-a u okviru preduzeća.Izvor: Google Research
Na konferenciji AWS:reInvent mogli smo da govorimo o tim faktorima objašnjavajući kako je Instana vodeća platforma za observability koja sprečava da problemi postanu ozbiljn

Šta je observability u realnom vremenu?

Ključne karakteristike observability-ja u realnom vremenu potrebne za preventivno otklanjanje problema kroz Mean Time To Prevention (MTTP) i značajno smanjeno Mean Time to Repair (MTTR) jesu:

Telemetrija u realnom vremenu od 1 sekunde
Potpuni end-to-end tragovi za sve aplikacione transakcije
Preventivne akcije zasnovane na AI/ML tehnologiji

Vreme i preciznost su ključni elementi koji čine osnovu dostupnosti, otpornosti i performansi aplikacija i sistema. „Dovoljno dobro“ ne važi kada je reč o ovim elementima, jer ne postoji prava mera koja određuje kada se „dovoljno dobro“ pretvara u zaista loše.

Cloud-centrične mikroservisne arhitekture razvile su se kako bi iskoristile potencijal performansi skalabilnih cloud implementacija. U teoriji, to je idealan koncept, ali se u praksi pokazalo da je prilično složen. Preduzećima je bilo teško da precizno odrede kako da dodele resurse kada su potrebni i kako da ih smanje kada više nisu potrebni. Ovo drugo dovelo je do problematičnog prekoračenja troškova cloud-a.

Zbog toga su se pojavile observability platforme kako bi upravljale složenim elastičnim cloud-native aplikacijama i rukovale cloud aplikacijama u velikom obimu. Da bi se to postiglo, postalo je jasno da se uslovi u cloud-u brzo menjaju i da su precizna merenja observability-ja neophodna ne samo za sprečavanje nedostupnosti, već i za predupređivanje degradacije. Google efekat ne samo da je opstao, već se proširio i na aplikacije svih vrsta. Korisnici imaju, i verovatno će nastaviti da imaju, nisku toleranciju na degradirane performanse.

Observabilnost u realnom vremenu kao ključ prevencije.

Instana je dizajnirala svoju platformu za observability u realnom vremenu tako da pruža precizne metrike u intervalima od jedne sekunde, potpune end-to-end tragove i kontekst vođen veštačkom inteligencijom, kako bi obezbedila najbrže otkrivanje problema i mogućnost pružanja rešenja pre nego što se oni pretvore u incidente.

Instana je jedina platforma za observability koja može omogućiti brzo otklanjanje problema tako što ih trenutno otkriva. Može se koristiti za sprečavanje eskalacije problema pomoću veštačke inteligencije i za AIOps radi preventivnih mera (MTTP). Takođe može omogućiti brže MTTR kada problemi zahtevaju ručno otklanjanje.
Čekanje od 5 minuta na metrike i uzorkovane tragove ne pruža i ne može pružiti brzo sprečavanje problema, već odlaže MTTR.

Opcije za otklanjanje problema u aplikacijama

Opcije navedene na slici „Application Remediation Options“ iznad određuju niz tipova otklanjanja problema — od potpuno automatizovanog upravljanja aplikacionim resursima (Application Resource Management — ARM), do poluautomatizovane i ručne popravke (MTTR). IBM Turbonomic ARM i AWS Compute and Cost Optimizer predstavljaju primere ARM alata za otklanjanje problema koji se takođe mogu koristiti za optimizaciju troškova cloud-a.Pošto je degradacija performansi novo vreme nedostupnosti, samo ručne metode popravke softvera nisu dovoljne za smanjenje degradacije. Samo observability u realnom vremenu u kombinaciji sa automatizovanim ARM-om može ne samo pomoći u otklanjanju degradacije, već i pomoći u sprečavanju da se problemi pretvore u incidente nedostupnosti.

Izvor