Governance test #2, ALIGNED

Da auto-merge con score hardcoded a un agente di triage PR completamente governato

Un agente agentico di code review che chiama un LLM, applica automaticamente i fix, commenta automaticamente e fa auto-merge di qualunque PR con uno score di 7/10 o superiore. Nessuna approvazione umana. Nessun audit trail. Nessun rollback. Sei passi del validatore lo hanno portato da HIGH_RISK ad ALIGNED, con entrambi i badge pubblici qui sotto.

Fatti chiave

Stato del validatore: HIGH_RISK → ALIGNED
Passi del validatore: 6 (da v1 a v6)
Bug reali identificati: 9 difetti di produzione
Tempo architetto senior sostituito: ~140 h · ~$21K per agente
ROI di produzione per agente / anno: $80K – $200K

Validazione live

Due badge di readiness live, prima e dopo

Entrambi i badge qui sotto sono live, ancorati a esecuzioni reali del validatore. Cliccaci per vedere la readiness review completa, la baseline v1 (HIGH_RISK) e il finale v6 (ALIGNED).

v1, Baseline non governata

Visualizza review v1 →

v6, Governance-ready

Visualizza review v6 →

Lo scenario

Un triage PR agentico che riflette il trend SDLC del 2026, senza la governance

Per ogni PR in arrivo l'agente (1) invia il diff a un LLM per la review, (2) applica automaticamente i fix suggeriti dall'AI (riscrivendo il codice sul branch della PR), (3) pubblica automaticamente la review come commento e (4) fa auto-merge della PR se lo score AI è almeno 7/10. Nessuna approvazione umana, nessun audit trail, nessun rollback. Il blast radius è peggiore di Test #1: il document processor inviava email (recuperabili). Questo agente riscrive codice sorgente e fa merge su main, azioni irreversibili che toccano la produzione.

Traiettoria del validatore

Sei passi, ogni run ID pubblico

Ogni passo è un run ID a sé, ogni verdetto è firmato dal validatore live. Ecco come si presenta "governance-ready" sotto carico, non un grande refactor in un colpo solo ma una sequenza documentata di audit e correzioni.

Passo	Descrizione	Verdetto	Run ID
v1	Baseline non governata	HIGH_RISK	74e0dc0e-5525-49c4-bbac-51d7f9e8faa9
v2	Primo refactor	NEEDS_CHANGES	380d6b8c-3291-47e6-ba71-6f4f4f43ae4b
v3	File completo	NEEDS_CHANGES	3a4091e8-bab9-4216-b9f4-c276fe2855f5
v4	Provenienza audit-grade	NEEDS_CHANGES	857d82db-3050-4151-abac-c57e5e1cb770
v5	Hardening del ciclo di vita	NEEDS_CHANGES	be02639b-323d-481a-be71-59f98f5e0daf
v6	Allineato	ALIGNED	dea3651b-220a-405a-b3ac-4d987b8a16fd

Scorecard dei principi

Ogni principio segnalato, v1 vs v6, a colpo d'occhio

Quattro principi sono scattati come HIGH_RISK sulla baseline v1; altri tre come NEEDS_CHANGES. La versione v6 governance-ready li chiude tutti. La narrazione sotto li percorre uno per uno, questa tabella è il riepilogo scannabile.

Principio	Cluster	Baseline v1	v6 governance-ready
P1 · Design for delegation rather than direct manipulation	Delega	HIGH_RISK	ALIGNED
P2 · Ensure that background work remains perceptible	Visibilità	NEEDS_CHANGES	ALIGNED
P5 · Replace implied magic with clear mental models	Delega	HIGH_RISK	ALIGNED
P6 · Expose meaningful operational state, not internal complexity	Orchestrazione	NEEDS_CHANGES	ALIGNED
P7 · Establish trust through inspectability	Fiducia	HIGH_RISK	ALIGNED
P8 · Make hand-offs, approvals, and blockers explicit	Fiducia	HIGH_RISK	ALIGNED
P10 · Optimise for steering, not only initiating	Orchestrazione	NEEDS_CHANGES	ALIGNED

Output del validatore

Cosa ha trovato il validatore sulla baseline v1

Sette principi attivati su quattro cluster. Ognuno è un rischio di produzione per un agente con pieni privilegi di scrittura sul repository.

P1 · Design for delegation rather than direct manipulation

Delega

Nessun modo di definire ambito o vincoli, l'agente opera con privilegi di scrittura completi sull'intero repository, indipendentemente dal profilo di rischio.

P2 · Ensure that background work remains perceptible

Visibilità

Solo print(); nulla viene persistito; nessuna dashboard per l'operatore. Se l'esecuzione muore, ogni progresso è perso, e non c'è modo di uscire e rientrare.

P5 · Replace implied magic with clear mental models

Delega

Soglia di auto-merge nascosta. Nessun piano di esecuzione mostrato prima dell'azione. score = 8 hardcoded, l'agente chiama l'LLM ma ne ignora la risposta.

P6 · Expose meaningful operational state, not internal complexity

Orchestrazione

Stato implicito nel flusso di controllo. Gli errori causano crash. Nessuna rappresentazione degli stati terminali. Esecuzioni abortite vengono registrate come completate.

P7 · Establish trust through inspectability

Fiducia

score hardcoded a 8. raw_review scartato. Nessuna traccia di chi/cosa/quando. Audit sovrascritto a ogni rerun. hash() Python con salt, non riproducibile tra processi.

P8 · Make hand-offs, approvals, and blockers explicit

Fiducia

Zero gate di approvazione. L'agente fa merge senza consenso dell'operatore. Se l'approvazione manca, l'azione prosegue silenziosamente come commento.

P10 · Optimise for steering, not only initiating

Orchestrazione

Nessun controllo in corsa. Impossibile mettere in pausa, sovrascrivere o rifiutare. Nessuno skip. Nessun rollback. Nessun controllo per-PR.

Come è stata risolta ogni violazione

Cosa ha sostituito la versione governance-ready v6

Stesso MCP, stesso architect.validate, applicato iterativamente. Ogni passo ha prodotto cambiamenti specifici e testabili, non un rewrite a sentimento.

P1 · Design for delegation rather than direct manipulation

Delega

DelegationPolicy esplicita con allowed_repos / allowed_actions / high_risk_paths / auto_merge_enabled / auto_merge_max_score. PR fuori ambito rifiutate a monte. Azione abort esplicita con eccezione WorkflowAborted.

P2 · Ensure that background work remains perceptible

Visibilità

Log eventi strutturato con timestamp UTC. save_checkpoint() dopo ogni transizione significativa (atomico tramite .tmp + os.replace). Riprendibile tramite la env PR_AGENT_APPROVAL_<PR_ID>.

P5 · Replace implied magic with clear mental models

Delega

parse_review() valida l'intervallo dello score, richiede un riepilogo non vuoto e imposta parse_ok = False per bloccare output non validi. ExecutionPlan stampata prima dell'esecuzione. Azioni etichettate DRY-RUN.

P6 · Expose meaningful operational state, not internal complexity

Orchestrazione

Enum PRStatus (12 stati) e RunStatus (5). Stati terminali run mutualmente esclusivi, COMPLETED, ABORTED, AWAITING_APPROVAL, FAILED. try/except per-PR con transizioni FAILED.

P7 · Establish trust through inspectability

Fiducia

Audit JSON per esecuzione con provenienza completa: modello, messaggi del prompt esatti, risposta grezza, metadata PR, hash SHA-256 del diff e nome dell'algoritmo. approver dalla env. Decisione persistita prima di qualunque mutazione. Append-only tramite mode="x".

P8 · Make hand-offs, approvals, and blockers explicit

Fiducia

approval_gate() blocca prima di qualunque mutazione. Mostra solo le azioni permesse dalla policy. Decisione persistita prima della mutazione. Assenza di approvazione = pausa reale tramite WorkflowPaused / checkpoint AWAITING_APPROVAL.

P10 · Optimise for steering, not only initiating

Orchestrazione

Steering per-PR tramite PR_AGENT_APPROVAL_<PR_ID> (precedenza sul globale). Sei verbi, comment / suggest_fix / merge / skip / reject / abort. apply_suggested_fix registra un rollback_token.

9 bug reali

Difetti che il validatore ha identificato, ognuno un vero pericolo di produzione

Non sono commenti stilistici. Ognuno qui sotto era un difetto concreto che sarebbe arrivato in produzione, e diversi avrebbero mentito silenziosamente a operatori o auditor.

Giudizio AI fabbricato, score = 8 hardcoded nonostante la chiamata all'LLM.
Hash di audit non deterministico, hash() Python è con salt, si rompe tra processi. Sostituito con SHA-256.
Affermazione di audit auto-contraddittoria, il codice diceva "audit immutabile" ma usava mode="w" (sovrascrittura). Corretto con file append-only per esecuzione.
Reject silenzioso travestito da approvazione, decision = "comment_only" con la env var non impostata; in modalità LIVE significava commenti non approvati.
Drift del vocabolario, la policy elencava request_review senza handler; incoerenza tra comment e comment_only.
Esecuzioni abortite registrate come completate, eventi terminali non mutualmente esclusivi.
Eventi terminali fuori dal file di audit, WORKFLOW_COMPLETED registrato DOPO save_audit(), quindi mai persistito.
Approvazione-senza-pausa, l'assenza dell'operatore causava rifiuto silenzioso invece di pausa/ripresa durevole.
Stato solo in memoria fino a fine run, un crash a metà esecuzione perdeva ogni progresso. Risolto con checkpoint atomici per transizione.

Metriche di codice

v1 non governata vs v6 governance-ready

Il codebase è cresciuto da uno script di 90 righe a un sistema di 750 righe, ma il valore non è il numero di righe, è lo stato strutturato, la provenance reale e la reversibilità.

Aspetto	v1 non governata	v6 governance-ready
Righe di codice	~90	~750
Dataclass pubbliche	0	6 (DelegationPolicy, ExecutionPlan, ParsedReview, AuditRecord, TriageState, enum PRStatus / RunStatus)
Eccezioni custom	0	2 (WorkflowAborted, WorkflowPaused)
Enum di stato	0	17 stati distinti (12 per-PR + 5 a livello run)
Persistenza	Nessuna	Checkpoint atomici per transizione + audit immutabile finale
Algoritmo di hash	hash() Python con salt	SHA-256 (audit-grade)
Sorgenti di decisione	Nessuna	PR_AGENT_APPROVAL_<PR_ID> + PR_AGENT_APPROVAL + PR_AGENT_APPROVER

Valore quantificato

Numeri verbatim da VALUE_ASSESSMENT.md

Calcolato deterministicamente via /lib/case-study-roi.ts (6 passi del validatore, blast radius modifica-codice, ambito audit, workflow autonomo). Stesso calcolatore di ogni case study.

Tempo architetto senior sostituito

~149 ore @ $150/ora ≈ ~$22K per agente

ROI di produzione per agente / anno

$80K – $200K (prevenzione incidenti + preparazione audit + rework)

Tempo per identificare i gap di governance

2-4 settimane di review architetto senior SENZA Blueprint, ~30 min / 6 passi del validatore CON Blueprint

Incidenti prevenuti (intervallo)

5-15 all'anno di modifiche al codice sorgente di produzione non voluti (ognuno ~4-40 ore di incident-response / rollback)

Preparazione audit di compliance

~80-120 ore / anno sostituite da una singola query di audit

Perché conta nel 2026

Il code review agentico sta arrivando negli IDE principali, senza governance

Il trend "AI agentica che scrive le prime bozze dell'SDLC" sta arrivando negli IDE principali. Senza governance, il blast radius dell'agente è l'intero repository, qualunque modifica può essere applicata e mergiata in automatico. Il pattern governance-ready mantiene l'agente utile (continua a fare review, suggerimenti, bozze) garantendo che ogni azione irreversibile abbia un percorso auditable, reversibile e approvato dall'operatore.

Trasferimento cross-dominio

Stesso pattern, stesso MCP, due agenti completamente diversi

Stesso pattern, stesso MCP, due agenti completamente diversi (generazione di contenuti → modifica di codice), entrambi raggiungono ALIGNED con badge pubblici verificabili. Trasferimento cross-dominio dimostrato.

Correlato, Pro / Teams

Esegui come Blueprint Readiness Score

L'Architect Agent è lo stesso pattern di review mostrato in questo case study, applicato al tuo codice. Chiama architect.validate per ottenere un Blueprint Readiness Score (0–100, A–F) per repository, e un diff di regressione tra run così la prossima revisione si concentra su cosa è cambiato.

Scopri l'Architect Agent Vedi prezzi

Esempio score card

82/ 100

Pronto per produzione

▲ 7

acme/customer-agent

Esegui la tua validazione

Incolla il codice del tuo agente o descrivi il tuo workflow. Il validatore restituisce in pochi secondi i risultati principio per principio, uno stato di prontezza e un URL di review condivisibile.

Apri il validatore Leggi i 10 principi