Per agenti · Pro / Teams

L'Architect Agent

Chiama architect.validate per ottenere un Blueprint Readiness Score (0–100, voto A–F) sul codice reale. L'Architect Agent revisiona la tua implementazione rispetto ai 10 principi Blueprint, restituisce verdetti per ogni principio CON severità e confidenza numeriche, e salva il run con un envelope di riproducibilità completo così due chiamanti con lo stesso input possono verificare di aver ottenuto la stessa risposta. Solo piani Pro e Teams.

Vedi prezzi Fiducia e gestione dati

Membri Pro e Teams. L'Architect Agent è la superficie di revisione autenticata di Blueprint, revisiona il tuo codice sotto una rigorosa politica di no-training, fortifica il confine del prompt contro injection nel codice inviato, e supporta private_session=true per saltare la registrazione lato server.

Cosa ricevi indietro

Ogni run restituisce una risposta strutturata con sette blocchi:

assessment
Stato generale, sintesi, confidence e code_classification (autonomous_agentic_workflow vs non_agentic_component, con motivazione) così vedi perché alcuni principi sono marcati not_applicable.
findings[]
Verdict per principio (aligned, mixed, needs_changes, high_risk, not_applicable), severity_score 0–100, confidence (low/medium/high), evidence_quality (sparse/moderate/strong), evidence citata dal codice, e una recommendation.
readiness
Il Blueprint Readiness Score (0–100), voto (A–F), livello (production_ready / emerging / draft), conteggi per bucket di verdict, se il voto è stato cappato da un finding high_risk, e la rubric_version.
recommended_examples
Porta example_recommendation_status così il run completa anche se nessun esempio curato corrisponde.
processing
llm_latency_ms, total_latency_ms, timeout_budget_seconds, dependency_status.
reproducibility
model, seed, system_fingerprint, doctrine_fingerprint, prompt_template_fingerprint, reasoning_effort, e reproducibility_mode='best_effort'.
persistence_status
saved o failed, con run_id / badge_url / review_url esposti solo quando la scrittura durabile ha avuto successo.

Scoring per severity_class (production_blocker vs hardening_recommended)

Due finding needs_changes possono avere impatti molto diversi. Un cap di token come defence-in-depth non è la stessa cosa di un error path non tipizzato che lascia un utente reale bloccato. Ogni finding ora porta una severity_class ortogonale al verdict:

production_blocker
La trust boundary cede. Da correggere prima della produzione. Contribuisce 0 credito.
hardening_recommended
La trust boundary regge. Nota di defence-in-depth per la prossima iterazione. Credito pieno.
polish
Stilistico, non load-bearing. Credito pieno.

Il voto principale penalizza solo production_blocker e il verdict legacy high_risk. hardening_recommended e polish emergono in una lista next-iteration separata senza trascinare lo score in basso. Questo permette a production_ready di significare che le trust boundary reggono invece di 100/100. I run vecchi senza severity_class usano l'interpolazione legacy verdict + severity_score e ottengono lo stesso voto di prima.

Score onesto, incertezza onesta

Il Blueprint Readiness Score riflette ciò di cui l'Architect Agent è sicuro, e ciò di cui non lo è. Quando l'architect è genuinamente incerto su un principio (verdetti che potrebbero cambiare su un re-run), vedi quell'incertezza emergere accanto allo score come segnale di stabilità, non sepolta in un singolo numero. Il badge certified production_ready è riservato ai run dove la lettura dell'architect è sicura su ogni principio, non solo fortunata su un singolo shot. Quindi un singolo run ad alto punteggio non basta per coniare il badge. L'architect deve concordare con sé stesso su una rivalutazione indipendente. La varianza che altrimenti dovresti scoprire eseguendo nuovamente emerge subito, nella stessa risposta.

Envelope di riproducibilità (best-effort, ma auditabile)

Due chiamanti che inviano input identici ottengono lo stesso seed, derivato da una canonicalizzazione JSON senza collisioni che copre ogni campo che influenza il prompt. La risposta porta quattro fingerprint così ogni divergenza è diagnosticabile:

system_fingerprint
Identificatore del backend del provider OpenAI.
doctrine_fingerprint
Le definizioni di principio usate per questo run.
prompt_template_fingerprint
system prompt + scaffolding + JSON schema + modello + reasoning_effort, hashati insieme.
seed
Il seed di sampling deterministico stesso.

Se un deploy futuro cambia il system prompt o la doctrine, il fingerprint corrispondente cambia. Rompere il determinismo in silenzio è impossibile per costruzione. La modalità è esplicitamente best_effort: il seed OpenAI dà sampling stabile, non replay byte-identico. La confidence per finding permette di distinguere un disaccordo reale dalla varianza intrinseca dell'LLM.

Also in this section

Fiducia e dati Pubblico e protetto Configurazione MCP