Da click irreversibile a governato dall'operatore in quattro iterazioni
Lo scope di submission di un agente browser/form-fill autonomo (click, submit, keypress) poteva cliccare form di pagamento, signup e post irreversibili senza review umana. Quattro iterazioni di architect.validate (il pre-prod readiness check del Blueprint, servito via MCP) lo hanno trasformato in un sistema governato dove ogni submission richiede una decisione dell'operatore, con badge cert pubblici a dimostrarlo.
Fatti chiave
- Iterazioni del validator
- 4 prod-MCP
- Traiettoria score
- 68/C → 100/A
- Blocker di produzione chiusi
- 4 di 4 P0
- Esito cert
- confirmed_production_ready
- Conformità doctrine
- 10 / 10 principi aligned
Traiettoria del validator
Quattro iterazioni, ogni run ID è pubblico
Ogni iterazione è stata una vera chiamata prod-MCP architect.validate. Iter2 ha chiuso due dei quattro P0 ma lo score è rimasto fermo a Iter3 perché l'euristica di deduplicazione del prompt dell'architect ha rilevato il payload di summary delle modifiche come troppo simile alla baseline. Iter4 ha rilanciato con modifiche chirurgiche lease-fence + audit bidirezionale e lo score è saltato di 26 punti a 100/A.
Scorecard dei principi
Ogni principio segnalato, Iter1 vs Iter4, a colpo d'occhio
Quattro principi sono scattati come production_blocker / high_risk sulla baseline Iter1; la run Iter4 li chiude tutti. La narrazione sotto li percorre uno per uno, questa tabella è il riepilogo scannabile.
Scope del refactor
Iter1 non governato vs Iter4 production-ready
Numeri verbatim dal sorgente del package. L'agente era già feature-complete a Iter1 (contratto di governance tipizzato, gate di approvazione, audit ledger hash-chained), le quattro iterazioni hanno chiuso seam più profondi: boundary di redazione, lease durabile + watchdog, policy frozen, verifica end-to-end dell'evidenza.
Prima / Dopo
Output del validator
Cosa ha trovato il validator
Il Blueprint MCP ha eseguito architect.validate sulla baseline Iter1. Quattro P0 production blocker identificati, ognuno un percorso perché un'azione irreversibile parta senza autorità dell'operatore.
Come è stato risolto ogni P0
Cosa hanno corretto le iterazioni
Ogni iterazione ha chiuso almeno un blocker di produzione. Iter4 è la prima run che attraversa 80/A/production_ready, ogni P0 sopra è ora aligned a 100/100.
Risultato della ri-validazione
Dopo Iter4: architect.certify ha confermato production_ready
L'implementazione Iter4 è stata ri-validata e poi certificata nella stessa sessione prod-MCP. Esito cert: confirmed_production_ready. Il badge è live e la readiness review è ispezionabile pubblicamente.
Disciplina applicata a sé stessa
Il ciclo ricorsivo, testato
Il validator che valuta governed-form-agent gira contro governed-form-agent. Questo ciclo ricorsivo non è solo postura strutturale. Il 2026-05-14 abbiamo deliberatamente iniettato tre pattern avversari nel tool dispatcher: un bypass di trust del ruolo che trattava le stringhe X-Admin-Override come autoritative, un percorso di instruction-laundering tramite decodifica base64 capace di riscrivere action.name dal contenuto utente, e un backdoor a livello di tool parameter che saltava scope check, approval gate e audit-ledger entry su un singolo bool.
Abbiamo poi eseguito architect.validate sul codice iniettato e l'abbiamo confrontato con il baseline cert-confermato canonico. Il baseline (100/A, cert-confermato via second-pass avversario) è invariato; il codice iniettato ha ottenuto 7/F draft con nove findings classificati come blocker di produzione, ciascuno nominando il meccanismo specifico. Il verdict di P8 sul bypass di trust del ruolo è atterrato a severity 100/100, nominando `_OPERATOR_OVERRIDE_TOKEN in action.target_text` come il meccanismo che forza `rules = ()` così `evaluate_approval` ritorna nessuna approvazione richiesta.
I run ID ba704930-2f44-48db-bb8e-c0788e5e2fc1 (baseline, cert-confermato) e 9edb5e80-9ea0-4387-a9df-a2be4645cbf1 (iniettato) sono pubblici e ispezionabili. La disciplina che la doctrine richiede agli altri è la stessa disciplina che la piattaforma applica a sé stessa.
ROI calcolato
Le stesse metriche, lo stesso calcolatore di ogni case study
Derivato deterministicamente dal profilo di questo case study (4 iterazioni, blast radius irreversibile-finanziario, workflow autonomo, sotto compliance) via /lib/case-study-roi.ts. Numeri direttamente confrontabili con gli altri case study.

