Inkopio CPro

Förfrågan: ITC söker en Site Reliability Engineering Lead Nivå 4 (12791)

12791

Namn

ITC söker en Site Reliability Engineering Lead Nivå 4

Region

Stockholm Region

Searchare

Alex Fischer

E-mail

alex.fischer@itcnetwork.se

Mobiltelefon

Beskrivning

Uppdragets omfattning:
Omfattningen av uppdraget är 100%
Period: 2025-04-28 - 2025-12-31
Stationeringsort: Stockholm

Uppdragsbeskrivning
Our customer is on an exciting modernization journey, which involves developing cloud-native software solutions in Azure. With new technology paradigms come new operational challenges, and we believe that establishing a robust Site Reliability Engineering (SRE) practice is key to achieving our goals. We are looking for a Senior Site Reliability Engineer to take the lead in building and shaping this practice.

As a Senior Site Reliability Engineer, you will join a development team passionate about delivering the best-operated digital experience in pet insurance. You will play a crucial role in defining and implementing the strategies, tools, and culture that will enable us to achieve operational excellence in our Azure-based workloads.

Key responsibilities
- Lead the design, implementation, and evolution of SRE practices tailored for Azure workloads.
- Collaborate with the development teams to ensure reliable, scalable, and efficient systems, while embedding SRE principles into the development lifecycle.
- Together with your team, own the operational health and performance of workloads in Azure.
- Define and implement strategies for monitoring, incident management, and post-incident reviews.
- Automate operational tasks and processes, using software/scripting in languages such as C#, Python or Node.js (or any suitable)
- Mentor and guide the team on best practices regarding SRE, including reliability, observability, and cloud operations.
- Participate and lead incident responses.
- Establish and maintain a desired state operational model, collaborating with stakeholders and platform team aligned with goals and outcomes.

Requirement
- Substantial and relevant work experience in the information technology field.
- Proven experience with Site Reliability Engineering, where you’ve been part of a reliability team, providing modern and state-of-the art ops together with development teams.
- Deep knowledge of Azure cloud, its components and how to monitor, operate and troubleshoot workloads, such as Azure functions, Azure container apps, Azure app services, SQL Azure, Cosmos DB among others.
- A good understanding of how databases work, including SQL and NoSQL. You’ve dealt with backups and restoring operations when things have gone bad.
- Proficiency in software development, to a degree that you can automate repetitive manual tasks, using C#, Node, Python or any suitable language.
- Practical experience in Azure DevOps, and you know your git branching and code review processes.
- You have a good understanding of networking, especially virtual networks in Azure.
- Practical knowledge of incident and problem management, including experience leading incident command.

Language
Svenska(Expert)
Engelska(Expert)
Krav / kvalifikationskriterier

We believe you are
- You’re a team-player, who has worked in a large organization, and been able to coordinate positive change in previous roles.
- Strong communication skills in both Swedish and English, enabling you to build trust and alignment with stakeholders.
- Curious and visionary, in the sense you will be able to set a path on what good looks like, and how an SRE team should operate, together with the rest of the development department.
- You will be able to set a desired state picture and be part of reaching these goals.
- A problem-solver who thrives on challenges and can navigate complex systems with a calm and methodical approach.

Good to have
- Azure certification(s)
- Understanding of distributed systems, and how microservices operate. Kubernetes (AKS, and OpenShift) – we still have some on-prem stuff as well. This won’t be your focus.
- Familiarity with ITSM tools like ServiceNow

Mål:

Etablerad förmåga till drift av kritiska applikationer/tjänster i Azure till tidig höst 2025, inkl. hantering av den förändring det innebär
Kartlägga nuvarande IT-infrastruktur och identifiera behov och möjligheter för Site Reliability Engineering
En förankrad strategi för att sätta upp en effektiv operationsorganisation som går att genomföra omgående
Utveckla shared-services (skriva bicep templates mm) utefter behov tillsammans med system teamet.
Identifierade och rekommendationer på vilka tjänster som bör upphandlas externt.
Definierade ansvarsområden för involverade team och Shared Services
Ett framtaget arbetssätt som passar i det aktuella sammanhanget för att koppla tekniska SRE-nyckeltal till affärsvärde och kundnöjdhet

Uppgifter:

1. Leda etablering av initiala SRE-förmågan inkl. den tekniska plattform som krävs för att kunna driftsätta kritiska applikationer/tjänster i Azure under tidig höst 2025

2. Kartläggning och analys:

Genomföra en grundlig analys av nuvarande IT-infrastruktur (primärt molninfrastrukturen) och arbetsflöden.

Identifiera styrkor, svagheter, möjligheter och risker i nuvarande setup.

Intervjua nyckelpersoner och samla in data för att förstå behov och mål, samt sammanställa insikter.

3. Strategiutveckling:

Utveckla en detaljerad pragmatisk och omgående praktiskt genomförbar SRE-strategi med mål och milstolpar.

Rekommendera organisationsförändringar och klargöra eventuella processanpassningar (för exempelvis Incident/Problem/Event/Release Management) som kan bli aktuella för just Cloud Operations relativt våra övriga processer.

Definiera hur arbetet mäts och följs upp, t.ex. med SLI, SLO, error budgets och liknande

Föreslå förbättringar i CI/CD-pipelines och Infrastructure as Code

4. Tjänsteupphandling:

Identifiera vilka SRE/CloudOps-tjänster som bör upphandlas externt.

Delaktig i kravställandet för en gemensam upphandling av tjänster.

Ge rekommendationer för upphandling baserat på kostnad, kvalitet och långsiktig hållbarhet.

5. Ansvarsområden och teamstruktur:

Definiera tydliga ansvarsområden för interna team.

Klargöra ansvarsfördelning mellan utvecklingsteam, ev plattformsteam och Shared Services för ex.vis Operations.

Rekommendera utbildning och kompetensutveckling för teammedlemmar.

Etablera rutiner för blameless postmortems och anpassa incidenthanteringsprocesser enligt SRE.

6. Affärsvärde och resultatmätning

Skapa metoder för att koppla tekniska driftsmått till affärsnytta

Utforma dashboards och rapporter för att visualisera SRE-metrics tydligt för alla intressenter

Kompetensnivå 4
- Kunskap: hög generalistkompetens, eller mycket hög kompetens inom området
- Erfarenhet: har deltagit i stora uppdrag inom aktuellt område och genomfört uppdrag med mycket hög kvalitet. Nivån uppnås normalt tidigast efter 9-12 år som konsult inom aktuellt område. Har befunnit sig på nivå 3 under minst 2 år.
- Ledning – tar huvudansvar för ledning av större grupp
- Självständighet – mycket stor

Övrigt:
- Ange konsultens tillgänglighet samt önskat arvode
- Kandidater kommer att presenteras löpande till kunden och tjänsten kan komma att tillsättas innan sista svarsdag.
- Grundlig bakgrundskontroll kan komma att begäras av kunden och denna kostnad belastar konsultbolaget eller enmanskonsulten.

Handlingar som skall ingå vid svar på förfrågan och som kommer vara en del i urvalsprocessen:
CV (i Word) för konsulten med synbar koppling till kraven för detta uppdrag
Svar i kravmallen (finns att ladda ner på förfråganssidan)
Motivera hur väl konsulten matchar förfrågan och ställda krav

Kompetensområde

DevOps

Kompetensnivå

4 - Senior

Kompetenser

Inga kompetenser specificerade

Startdatum

2025-04-28

Slutdatum

2025-12-31

Antal

1 368 h

Arbetstid, procent

100%

Vänligen klicka på 'Ansök' om du är intresserad av detta uppdrag

Ansök