Cursul Developing a Google SRE Culture oferă o introducere solidă în principiile și practicile Site Reliability Engineering (SRE) utilizate în organizațiile Google. Participanții descoperă cum poate fi adoptat modelul SRE pentru a îmbunătăți fiabilitatea sistemelor, eficiența operațională și colaborarea între echipele de dezvoltare și operațiuni.
Trainingul analizează concepte fundamentale precum SLO/SLI, managementul erorilor, obiectivele de disponibilitate, reducerea toil-ului, automatizarea operațiunilor, precum și modul în care cultura SRE poate transforma modul în care echipele dezvoltă, livrează și susțin aplicații în producție.
Cursul combină prezentări, discuții, studii de caz și exerciții practice pentru a ajuta participanții să înțeleagă cum pot adopta și adapta practicile SRE în cadrul organizației lor.
Cursul este potrivit pentru:
- ingineri cloud și DevOps implicați în operațiuni, optimizare și fiabilitate
- site reliability engineers sau profesioniști care doresc să adopte roluri orientate spre SRE
- technical leads și arhitecți responsabili de disponibilitatea și performanța aplicațiilor
- echipe de operațiuni care migrează către modele moderne de lucru (DevOps + SRE)
- manageri tehnici interesați de îmbunătățirea culturii organizaționale și a proceselor operaționale
La finalul cursului, participanții vor putea:
• să înțeleagă principiile fundamentale ale culturii SRE
• să definească și să utilizeze SLO-uri, SLA-uri și SLI-uri în proiectele lor
• să gestioneze și să diminueze riscul prin error budgets
• să identifice și să reducă toil-ul prin automatizare
• să aplice tehnici de incident response bazate pe practici Google
• să proiecteze procese de operare scalabile, eficiente și măsurabile
• să dezvolte o cultură organizațională orientată spre fiabilitate și îmbunătățire continuă
- familiaritate cu concepte DevOps, operațiuni IT sau administrare de infrastructură
- experiență generală în lucrul cu aplicații distribuite sau medii cloud
- nu este necesară experiență directă cu Google Cloud
🔹 1. Introducere în cultura SRE
• Ce este SRE și de ce este important
• DevOps vs SRE – asemănări și diferențe
• Rolul SRE într-o organizație modernă
🔹 2. SLO, SLI și SLA în practică
• Indicatori de fiabilitate
• Definirea SLO-urilor eficiente
• Măsurarea și monitorizarea serviciilor
🔹 3. Error Budgets și managementul riscului
• Conceptul de error budget
• Echilibrul dintre inovație și fiabilitate
• Cum se folosesc error budgets pentru decizii operaționale și tehnice
🔹 4. Toil și automatizare
• Identificarea toil-ului în operațiuni
• Prioritizarea automatizării
• Instrumente și tehnici de reducere a sarcinilor repetitive
🔹 5. Engineering practices în cultura SRE
• Observabilitate și monitorizare
• Testing și rollout strategies (canary, blue/green, etc.)
• Reliability patterns
🔹 6. Incident Management și Post-Incident Reviews
• Răspuns la incidente în stilul Google
• Best practices pentru on-call
• Blameless postmortems
🔹 7. Adoptarea culturii SRE în organizație
• Obstacole comune și cum pot fi depășite
• Transformarea proceselor și a mentalității echipelor
• Studii de caz și exemple din industria cloud
🎯 Notă: Agenda poate suferi modificări în funcție de trainerul alocat și formatul sesiunii. Pentru versiunea oficială finală, vă rugăm să contactați echipa Bittnet Training.
Acest curs contribuie la dezvoltarea competențelor necesare în traseul pentru certificarea GCP Professional Cloud DevOps Engineer, oferind fundamentele culturii SRE care stau la baza examenului și a practicilor de operare moderne.

