Gli agenti affidabili non ripartono alla cieca: mostrano dove si sono fermati, cosa è salvo e come si riprende.
Il recovery design per agenti long-running fallisce quando il sistema ritenta in silenzio o sparisce a metà attività; Blueprint applica P2, P8, P9 e P10 per rendere espliciti checkpoint, blocchi e percorsi di recupero.
Aggiornato 22 aprile 2026
Fatti chiave
- Best fit
- Team operations, supporto, finance e contesti enterprise con agenti multi-step che durano minuti, ore o giorni
- Primary risk
- Abbandono silenzioso e duplicazione degli effetti collaterali durante il resume
- Core shift
- Loop di retry → sistema di recupero esplicito
- Success signal
- Le run terminano con stati nominati, output parziali preservati e azioni di ripresa chiare
- Doctrine mapping
- P2, P8, P9, P10

In questa sezione
Il recupero è una parte del prodotto, non solo dell'infrastruttura
Gli agenti long-running lavorano su memoria, tool, API esterne e approvazioni differite, quindi l'errore raramente è un evento isolato: più spesso è un processo interrotto con effetti parziali già prodotti. Se il sistema si limita a ritentare in background o abbandona la run, il team perde visibilità sul progresso, aumenta il rischio di azioni duplicate e non sa dove riprendere in sicurezza. Un buon recovery design assegna a ogni interruzione uno stato leggibile, un checkpoint affidabile e un prossimo passo comprensibile per le persone. Written by the AI Design Blueprint editorial team. Doctrine grounded in the 10 Blueprint Principles.
Livelli di escalation e governance
Usa questi livelli per separare le azioni di recupero sicure da quelle che richiedono revisione, seguendo P8 – Make hand-offs, approvals, and blockers explicit.
Anti-pattern vs. pattern Blueprint
Questa tabella aiuta a sostituire comportamenti di recovery opachi con una progettazione ispezionabile della run, coerente con P2 – Ensure that background work remains perceptible e P9 – Represent delegated work as a system, not merely as a conversation.
Anti-pattern
Retry silenziosi in background senza cambi di stato visibili
Blueprint pattern
Stato di retry nominato con numero di tentativi, blocco corrente e controlli umani per fermare o riprendere
Anti-pattern
Rieseguire l'intero workflow dopo qualsiasi errore
Blueprint pattern
Resume dall'ultimo checkpoint sicuro con protezione di idempotenza attorno ai side effect
Anti-pattern
Trattare l'output parziale come fallimento totale
Blueprint pattern
Registro di completamento parziale che mostra cosa è finito, cosa è pendente e quali assunzioni sono state usate
Anti-pattern
Messaggi generici come sistema fallito
Blueprint pattern
Stati di errore operativi tradotti in linguaggio utente con il prossimo passo richiesto
Anti-pattern
Transcript chat come unica superficie di recupero
Blueprint pattern
Run view persistente con checkpoint, approvazioni, blocchi e percorsi di recovery disponibili
Prova nel mondo reale
Due tracce anonime mostrano perché il recupero esplicito funziona meglio della semplice riesecuzione completa.
“Un team ha usato un runner finanziario con checkpoint. L'agente ha tentato di riconciliare 312 fatture e aggiornare gli stati. Il sistema ha mostrato un blocco quando, dopo un timeout di rete, il resume avrebbe potuto duplicare una scrittura. L'operatore ha autorizzato il replay dall'ultimo checkpoint in sola lettura. Il team ha preservato il lavoro completato senza doppie registrazioni.”
“Un team ha usato un workflow di triage documentale con snapshot durevoli. L'agente ha tentato di estrarre clausole da 1.400 contratti, ma una dipendenza di retrieval è cambiata durante la run. Il sistema ha marcato gli output precedenti come completamento parziale ed è escalato perché i riepiloghi downstream non combaciavano più con il corpus. Il revisore ha ripreso la run con una base documentale congelata.”
Domande frequenti
Domande comuni per i team che stanno introducendo percorsi di recupero espliciti nei sistemi agentici.
Checklist per iniziare
Principi di riferimento