Diagnostico

RicercaCitazioniIspezionabile

Run by agents. Governed by humans.

Il divario tra demo e produzione nell'AI agentic.

Le demo sono ottimizzate per il percorso felice. La produzione richiede state, resumability, approvazioni, monitoring e recovery. Il record pubblico dei practitioner converge sulla stessa diagnosi.

Ispeziona un run del validator →Leggi i principi →

Readiness review live

Score reale, ispezionabile dal vivo

100/ 100

Pronto per produzione

Verdetti per principio

10 / 10 principi allineati0 blocker di produzione4 iterazioni · cert confermata

Run validator live · run-id pubblico ffcc637e…Ispeziona la review

Fatti chiave

Pilot AI senza ritorno P&L: 95%
Sistemi agentic in produzione: 23%
Progetti cancellati entro 2027: >40%
Failure mode mappati ai principi: 10

La diagnosi

Il pattern è ripetuto nel record pubblico. Le demo riescono ottimizzando un solo percorso: un prompt curato, una singola chiamata tool, un input pulito. La produzione fallisce perché il percorso non è più singolo. Utenti reali inviano input malformati, la rete cade, il modello riprova, la coda si accumula, il gate di approvazione scatta, l'operatore mette in pausa il run, la sessione va in timeout, la scrittura su database fallisce. Ognuna di queste è una concern di runtime, e ognuna è ciò per cui la demo non era progettata. Il lavoro che chiude il divario non è un prompt migliore. È state, resumability, approvazioni, monitoring e recovery: le primitive architetturali che gli operatori costruiscono nei sistemi da decenni, applicate a un nuovo substrato. I principi qui sotto definiscono cosa significano queste primitive per l'AI agentic.

Se il tuo agente spedisce uno di questi, la doctrine ha un nome per dirlo

Quattro pattern di failure ricorrenti su sistemi agentici in produzione. Ognuno è collegato al principio che lo affronta.

Failure mode

La conversazione come unico modello di coordinamento

L'agente risponde, ma non c'è una superficie di stato del run, una coda di approvazione, una pausa o ripresa. La chat È il coordinamento. Si rompe nel momento in cui il lavoro deve durare oltre un singolo messaggio.

Vedi il principio

Failure mode

Failure silenziosa in background

Il lavoro gira in background, l'utente non vede mai progresso, un crash lo lascia con una UI obsoleta e nessun modo di recuperare. Un pulsante disabilitato non è stato.

Vedi il principio

Failure mode

Boundary di approvazione assente

L'agente esegue azioni irreversibili (pagamenti, post, invii, deploy) sulla sola base dell'output del modello. Il gate di approvazione è decorativo, non load-bearing.

Vedi il principio

Failure mode

Perdita di stato al refresh

L'utente ricarica, l'agente dimentica. Nessun record durabile del run, nessuna sessione riprendibile, nessun audit trail. Ogni interazione operatore è un fresh start senza continuità. Non c'è un run, solo una cronologia di chat.

Vedi il principio

I numeri che nominano il divario

Ogni numero qui sotto linka al suo publisher. Nessuno è riassunto da AI. Gli item che la ricerca non ha potuto verificare pienamente sono segnalati come tali, non riempiti con folklore di vendor.

Metrica	Valore	Cosa significa	Fonte
Organizzazioni che sperimentano con AI agentic	62%	Alta curiosità, bassa maturità	McKinsey Global Survey · 2025
Organizzazioni che scalano un sistema agentic in produzione	23%	Il divario quantificato, il salto da prototipo a deployment	McKinsey Global Survey · 2025
Organizzazioni che abbandonano la maggior parte delle iniziative AI prima della produzione	42%	Drop-off da pilot a produzione in peggioramento, salito da 17%	S&P Global Market Intelligence · 2025-10-15
Tasso medio di scarto POC prima della produzione	46%	Attrition media sul campione S&P	S&P Global Market Intelligence · 2025-10-15
Previsione Gartner di cancellazione progetti agentic AI entro fine 2027	>40%	Legata a costi in aumento, valore poco chiaro, controlli di rischio inadeguati	Gartner press release · 2025-06-25
Top blocker di produzione, survey LangChain 2026	32%	La qualità supera il costo come blocker principale	State of Agent Engineering 2026 · 2026
Figura MIT NANDA 'zero ritorno misurabile'	95%	Misura pubblica più netta dello shortfall di valore su GenAI enterprise	MIT NANDA · State of AI in Business · 2025

Tre numeri comunemente richiesti non hanno una figura pubblica ad alta confidence: tempo medio di abbandono per progetti agent in stallo, tasso di overrun dei costi vs stima iniziale, e un tasso universale di regressione eval-to-produzione. Il beta del validator è aperto a team i cui case study aiuterebbero a chiudere questi gap.

Cosa dicono i practitioner, on the record

Ogni citazione qui sotto è verbatim dallo scritto o dal talk del practitioner. Ognuna linka alla fonte primaria. Nessuna è parafrasata; nessuna proviene da marketing di vendor.

We focused on control and durability.

Nuno Campos · Author / Engineer, LangGraph
Building LangGraph: Designing an Agent Runtime from first principles · 4 set 2025

Most 'agents' today are essentially stateless workflows.

Charles Packer · Co-founder, Letta
Stateful Agents: The Missing Link in LLM Intelligence · 6 feb 2025

They do the context engineering.

Andrej Karpathy · Researcher / Engineer
2025 LLM Year in Review · 19 dic 2025

What to build and how to evaluate it is still hard.

Andrew Ng · Founder, DeepLearning.AI
Andrew Ng on Building with AI: Speed, Smarts, and Scale · 28 gen 2026

Agents are inherently dangerous.

Simon Willison · Researcher e developer indipendente
Designing agentic loops · 30 set 2025

We've spent 60-80% of development time on error analysis and evaluation.

Hamel Husain & Shreya Shankar · Practitioner di AI evaluation
LLM Evals: Everything You Need to Know · 15 gen 2026

Cosa dice di risolvere l'ecosistema runtime

Questo landscape riporta la public claim di ogni progetto accanto a ciò che il record pubblico verifica per quella claim. L'inclusione di un vendor non implica né endorsement né confronto competitivo. Gli item segnalati nella ricerca come non verificati sono esclusi; questa lista si espanderà mentre altri vendor vengono verificati indipendentemente.

Progetto	Public claim	Cosa risolve	Gap che resta
LangChain / LangGraph / LangSmith Building LangGraph (2025-09) + State of Agent Engineering 2026	Deployment in produzione per agent long-running e stateful; observability; evaluation	Il runtime story più verificato: task queue, checkpointing, tracing, HITL interrupt, deployment surface	La governance è in gran parte app-owned. Policy di business e approvazioni di azioni irreversibili non sono risolte dal framework.
OpenAI Agents SDK OpenAI Cookbook (Building Reliable Agents, 2026-05)	Agent code-first con tool, handoff, approvazioni, tracing, sandbox	SDK building-block quando l'applicazione possiede orchestrazione, esecuzione tool, approvazioni e state. Pattern di memory compaction documentati.	Il peso resta sul team di shipping nel definire correttamente approvazioni, persistenza e state policy.
Anthropic Measuring AI agent autonomy + Trustworthy agents in practice (2026)	Agent trustworthy, ecosistema MCP, guidance di monitoring post-deployment	Misurazione di autonomy reale, monitoring post-deployment, posizione human-in-the-loop sulla safety	I materiali di Anthropic stessi avvertono che prompt injection e autonomy non presidiata restano aperte. Design di approvazione e least-privilege restano task di engineering esterno.
Letta Stateful Agents: The Missing Link in LLM Intelligence (2025-02)	Agent stateful con memoria persistente e apprendimento nel tempo	Solido su memoria persistente, architettura dello state e gestione del context	Un'architettura memory-first aiuta con la continuità, ma da sola non è un runtime governato completo con approvazioni enterprise e controllo di policy.

Cinque mosse sbagliate che il record pratico nomina

Questi sono i pattern nominati dalla source research come errori ricorrenti nel chiudere il divario demo-to-produzione. Ogni card porta una controprova dal practitioner che ha nominato il limite pubblicamente.

Se il prompt migliora, il sistema è pronto per la produzione.

La letteratura degli operator dice che il lavoro vero è orchestration, memoria, tool, trace, approvazioni e state, non prompt craft.

Controprova

Instead, we focused on control and durability.

Nuno Campos

Una volta aggiunti abbastanza eval dashboard, il problema è risolto.

I practitioner pubblici dicono che le eval restano immature, facili da gamificare, incomplete senza trace di produzione.

Controprova

Be wary of optimizing for high eval pass rates.

Hamel Husain & Shreya Shankar

Un pulsante 'approva' visibile è governance sufficiente.

Un human-in-the-loop decorativo senza semantiche di blocking, visibilità sui tool e controllo dei permessi non vincola il sistema in modo significativo.

Controprova

I suggest treating those SHOULDs as if they were MUSTs.

Simon Willison

La capability di frontiera cancellerà il divario di produzione.

Modelli più forti hanno comunque bisogno di harness, flusso dati, controlli di runtime e gestione della memoria.

Controprova

The next major advancement in AI won't come from larger models.

Charles Packer

Il percorso da pilot a produzione si chiude tunando i pesi del modello.

L'evidenza pratica dice che la maggior parte dei team non fa fine-tuning, e i problemi più duri sono evaluation, policy, state e integrazione.

Controprova

Master prompting first, then fine-tuning, and only then look at RL.

Andrew Ng

La doctrine risponde a ogni failure mode

Dieci failure mode che la source research ha fatto emergere come ricorrenti sui sistemi agentic in produzione. Per ognuno, i principi AI Design Blueprint che lo affrontano.

La conversazione come unico modello di coordinamento
Lavoro multi-step guidato solo dalla chat, senza un layer di orchestrazione sottostante per recovery, retry o hand-off pulito.
PrincipiP4
Failure silenziosa in background
Lavoro long-running che fallisce senza esporre progresso o errore all'operatore che ha avviato il run.
PrincipiP2 P3
Approval boundary assente
Gli agent compiono azioni consequenziali (write, send, payment) senza un gate umano esplicito al confine.
PrincipiP7 P8
Perdita di state al refresh
Un reload di pagina, chiusura tab o timeout di sessione cancella la working memory dell'agent a metà task.
PrincipiP6
Drift da eval a produzione
Le valutazioni pre-launch sembrano pulite; il traffico di produzione espone una classe di input mai coperta dall'eval set.
PrincipiP9
Hallucination a cascata sul tool-use
Un agent inventa argomenti del tool o forme di risposta; lo step successivo si fida della fabbricazione e agisce su di essa.
PrincipiP4 P7
Collasso della context window
Conversazioni lunghe eccedono la context window del modello; il context più vecchio scompare in silenzio e il comportamento degrada senza warning.
PrincipiP6
Approval gate decorativo
Un prompt di approval esiste, ma l'operatore può solo cliccare 'approve': nessun inspect, nessun edit, nessun path di rejection con un motivo.
PrincipiP7 P8
Solo percorso felice da demo
Il sistema funziona sul percorso felice della demo; il secondo branch non è mai costruito né nominato.
PrincipiP9 P10
Failure nella loop detection
Un agent ripete la stessa azione fallita all'infinito, bruciando token e tempo senza escalation a un umano.
PrincipiP3 P10

Il validator esegue la diagnosi qui sopra contro la tua architettura. Produce una readiness review con un run-id pubblico, una riga di allineamento per principio, e una traiettoria di iterazione che il prossimo reviewer può auditare.

Se stai spedendo in uno qualsiasi dei failure mode nominati in questa pagina, la closed beta è aperta. La tua readiness review sarà pubblica; il tuo case study chiuderebbe uno degli open research item qui sopra. La disciplina che la doctrine chiede agli altri, la piattaforma la applica prima a sé stessa, ogni score su questo sito linka a un run reale del validator, incluso quello per l'architettura della piattaforma stessa.

Candidati alla closed beta →Leggi i principi →

Fatti chiave

Se il tuo agente spedisce uno di questi, la doctrine ha un nome per dirlo

I numeri che nominano il divario

Cosa dicono i practitioner, on the record

Cosa dice di risolvere l'ecosistema runtime

Cinque mosse sbagliate che il record pratico nomina

La doctrine risponde a ogni failure mode

La conversazione come unico modello di coordinamento

Failure silenziosa in background

Approval boundary assente

Perdita di state al refresh

Drift da eval a produzione

Hallucination a cascata sul tool-use

Collasso della context window

Approval gate decorativo

Solo percorso felice da demo

Failure nella loop detection