In un contesto di profonda trasformazione verso un modello organizzativo ispirato alle società di prodotto nel settore della tecnologia, il dipartimento Digital Operation & Technology Services di Generali Italia sta potenziando il proprio organico per garantire livelli di servizio di eccellenza. Il ruolo è far parte del team responsabile del monitoraggio end‑to‑end della Produzione e gestione degli eventi, con una visione trasversale su tutte le principali Legal Entity del Gruppo (Generali, Alleanza, Cattolica, Genertel). Il ruolo ha un impatto diretto sulla stabilità, disponibilità e performance dei servizi, contribuendo in modo determinante alla loro affidabilità complessiva. Responsabilità Definizione linee guida, framework operativi, standard e template SRE. Guidare l’eccellenza operativa: supporto ai team nella adozione di pratiche di monitoring, incident e problem management, reliability e automazione. Abilitatore al cambiamento: identificazione gap di performance e fornire strumenti, competenze e risorse per rientrare nei target. Definizione di modelli replicabili: best practice che diventano standard aziendali. Monitoraggio end‑to‑end della produzione (online e batch) e dei KPI di stabilità, disponibilità e performance. Gestione degli eventi di produzione: triage, coordinamento della risposta secondo protocolli, war room, comunicazioni stakeholder, presidio di Major Incident. Problem Management & Root Cause Analysis: analisi cause radice e tracking azioni correttive/preventive con team SRE e sviluppo. Miglioramento continuo di procedure e strumenti operativi; definizione/affinamento SLI/SLO; riduzione del toil tramite automazione. Service Health reporting verso il management IT e stakeholder aziendali. Abilitazione delle Product Area: coaching operativo su monitoring, incident e problem. Competenze e Qualifiche Almeno 2 anni di esperienza nel monitoraggio end‑to‑end di applicazioni. Sviluppo di automazioni operative (script, workflow, runbook digitali). Conoscenza di processi ITIL, in particolare Problem & Incident Management. Ottimizzazione dei processi operativi e monitoraggio, alerting, controllo. Esperienza con servizi cloud su AWS, Azure, Google o Oracle. Implementazione di soluzioni di telemetria e observability (OpenTelemetry, Prometheus, Grafana). Creazione di dashboard e report (KPI, SLI, trend). Capacità di lavorare in contesti ad alta complessità e con applicativi distribuiti. Facilitazione e diffusione di standard operativi, runbook e cultura data‑driven. Attitudine alla collaborazione cross team e alla comunicazione con stakeholder. Benefici Cultura aziendale aperta e innovativa. Ambiente di lavoro inclusivo. Opportunità di crescita professionale. Work place: Milan, Turin, Mogliano Veneto #J-18808-Ljbffr
It Operations & Service Reliability Specialist
GENERALI ITALIA
turbigo, turbigo
Pubblicato 19 giorni fa
Segnala lavoro