Vai al contenuto principaleVai al footer
Diagnostico
RicercaCitazioniIspezionabile

Run by agents. Governed by humans.

Il divario tra demo e produzione nell'AI agentic.

Le demo sono ottimizzate per il percorso felice. La produzione richiede state, resumability, approvazioni, monitoring e recovery. Il record pubblico dei practitioner converge sulla stessa diagnosi.

Fatti chiave

Pilot AI senza ritorno P&L
95%
Sistemi agentic in produzione
23%
Progetti cancellati entro 2027
>40%
Failure mode mappati ai principi
10

La diagnosi

Il pattern è ripetuto nel record pubblico. Le demo riescono ottimizzando un solo percorso: un prompt curato, una singola chiamata tool, un input pulito. La produzione fallisce perché il percorso non è più singolo. Utenti reali inviano input malformati, la rete cade, il modello riprova, la coda si accumula, il gate di approvazione scatta, l'operatore mette in pausa il run, la sessione va in timeout, la scrittura su database fallisce. Ognuna di queste è una concern di runtime, e ognuna è ciò per cui la demo non era progettata. Il lavoro che chiude il divario non è un prompt migliore. È state, resumability, approvazioni, monitoring e recovery: le primitive architetturali che gli operatori costruiscono nei sistemi da decenni, applicate a un nuovo substrato. I principi qui sotto definiscono cosa significano queste primitive per l'AI agentic.

Se il tuo agente spedisce uno di questi, la doctrine ha un nome per dirlo

Quattro pattern di failure ricorrenti su sistemi agentici in produzione. Ognuno è collegato al principio che lo affronta.

I numeri che nominano il divario

Ogni numero qui sotto linka al suo publisher. Nessuno è riassunto da AI. Gli item che la ricerca non ha potuto verificare pienamente sono segnalati come tali, non riempiti con folklore di vendor.

MetricaValoreCosa significaFonte
Organizzazioni che sperimentano con AI agentic62%Alta curiosità, bassa maturitàMcKinsey Global Survey · 2025
Organizzazioni che scalano un sistema agentic in produzione23%Il divario quantificato, il salto da prototipo a deploymentMcKinsey Global Survey · 2025
Organizzazioni che abbandonano la maggior parte delle iniziative AI prima della produzione42%Drop-off da pilot a produzione in peggioramento, salito da 17%S&P Global Market Intelligence · 2025-10-15
Tasso medio di scarto POC prima della produzione46%Attrition media sul campione S&PS&P Global Market Intelligence · 2025-10-15
Previsione Gartner di cancellazione progetti agentic AI entro fine 2027>40%Legata a costi in aumento, valore poco chiaro, controlli di rischio inadeguatiGartner press release · 2025-06-25
Top blocker di produzione, survey LangChain 202632%La qualità supera il costo come blocker principaleState of Agent Engineering 2026 · 2026
Figura MIT NANDA 'zero ritorno misurabile'95%Misura pubblica più netta dello shortfall di valore su GenAI enterpriseMIT NANDA · State of AI in Business · 2025

Tre numeri comunemente richiesti non hanno una figura pubblica ad alta confidence: tempo medio di abbandono per progetti agent in stallo, tasso di overrun dei costi vs stima iniziale, e un tasso universale di regressione eval-to-produzione. Il beta del validator è aperto a team i cui case study aiuterebbero a chiudere questi gap.

Cosa dicono i practitioner, on the record

Ogni citazione qui sotto è verbatim dallo scritto o dal talk del practitioner. Ognuna linka alla fonte primaria. Nessuna è parafrasata; nessuna proviene da marketing di vendor.

We focused on control and durability.
Nuno Campos · Author / Engineer, LangGraph
Building LangGraph: Designing an Agent Runtime from first principles · 4 set 2025
Most 'agents' today are essentially stateless workflows.
Charles Packer · Co-founder, Letta
Stateful Agents: The Missing Link in LLM Intelligence · 6 feb 2025
They do the context engineering.
Andrej Karpathy · Researcher / Engineer
2025 LLM Year in Review · 19 dic 2025
What to build and how to evaluate it is still hard.
Andrew Ng · Founder, DeepLearning.AI
Andrew Ng on Building with AI: Speed, Smarts, and Scale · 28 gen 2026
Agents are inherently dangerous.
Simon Willison · Researcher e developer indipendente
Designing agentic loops · 30 set 2025
We've spent 60-80% of development time on error analysis and evaluation.
Hamel Husain & Shreya Shankar · Practitioner di AI evaluation
LLM Evals: Everything You Need to Know · 15 gen 2026

Cosa dice di risolvere l'ecosistema runtime

Questo landscape riporta la public claim di ogni progetto accanto a ciò che il record pubblico verifica per quella claim. L'inclusione di un vendor non implica né endorsement né confronto competitivo. Gli item segnalati nella ricerca come non verificati sono esclusi; questa lista si espanderà mentre altri vendor vengono verificati indipendentemente.

ProgettoPublic claimCosa risolveGap che resta
LangChain / LangGraph / LangSmith

Building LangGraph (2025-09) + State of Agent Engineering 2026

Deployment in produzione per agent long-running e stateful; observability; evaluationIl runtime story più verificato: task queue, checkpointing, tracing, HITL interrupt, deployment surfaceLa governance è in gran parte app-owned. Policy di business e approvazioni di azioni irreversibili non sono risolte dal framework.
OpenAI Agents SDK

OpenAI Cookbook (Building Reliable Agents, 2026-05)

Agent code-first con tool, handoff, approvazioni, tracing, sandboxSDK building-block quando l'applicazione possiede orchestrazione, esecuzione tool, approvazioni e state. Pattern di memory compaction documentati.Il peso resta sul team di shipping nel definire correttamente approvazioni, persistenza e state policy.
Anthropic

Measuring AI agent autonomy + Trustworthy agents in practice (2026)

Agent trustworthy, ecosistema MCP, guidance di monitoring post-deploymentMisurazione di autonomy reale, monitoring post-deployment, posizione human-in-the-loop sulla safetyI materiali di Anthropic stessi avvertono che prompt injection e autonomy non presidiata restano aperte. Design di approvazione e least-privilege restano task di engineering esterno.
Letta

Stateful Agents: The Missing Link in LLM Intelligence (2025-02)

Agent stateful con memoria persistente e apprendimento nel tempoSolido su memoria persistente, architettura dello state e gestione del contextUn'architettura memory-first aiuta con la continuità, ma da sola non è un runtime governato completo con approvazioni enterprise e controllo di policy.

Cinque mosse sbagliate che il record pratico nomina

Questi sono i pattern nominati dalla source research come errori ricorrenti nel chiudere il divario demo-to-produzione. Ogni card porta una controprova dal practitioner che ha nominato il limite pubblicamente.

Se il prompt migliora, il sistema è pronto per la produzione.

La letteratura degli operator dice che il lavoro vero è orchestration, memoria, tool, trace, approvazioni e state, non prompt craft.

Controprova

Instead, we focused on control and durability.

Nuno Campos

Una volta aggiunti abbastanza eval dashboard, il problema è risolto.

I practitioner pubblici dicono che le eval restano immature, facili da gamificare, incomplete senza trace di produzione.

Controprova

Be wary of optimizing for high eval pass rates.

Hamel Husain & Shreya Shankar

Un pulsante 'approva' visibile è governance sufficiente.

Un human-in-the-loop decorativo senza semantiche di blocking, visibilità sui tool e controllo dei permessi non vincola il sistema in modo significativo.

Controprova

I suggest treating those SHOULDs as if they were MUSTs.

Simon Willison

La capability di frontiera cancellerà il divario di produzione.

Modelli più forti hanno comunque bisogno di harness, flusso dati, controlli di runtime e gestione della memoria.

Controprova

The next major advancement in AI won't come from larger models.

Charles Packer

Il percorso da pilot a produzione si chiude tunando i pesi del modello.

L'evidenza pratica dice che la maggior parte dei team non fa fine-tuning, e i problemi più duri sono evaluation, policy, state e integrazione.

Controprova

Master prompting first, then fine-tuning, and only then look at RL.

Andrew Ng

La doctrine risponde a ogni failure mode

Dieci failure mode che la source research ha fatto emergere come ricorrenti sui sistemi agentic in produzione. Per ognuno, i principi AI Design Blueprint che lo affrontano.

  1. La conversazione come unico modello di coordinamento

    Lavoro multi-step guidato solo dalla chat, senza un layer di orchestrazione sottostante per recovery, retry o hand-off pulito.

    PrincipiP4
  2. Failure silenziosa in background

    Lavoro long-running che fallisce senza esporre progresso o errore all'operatore che ha avviato il run.

    PrincipiP2P3
  3. Approval boundary assente

    Gli agent compiono azioni consequenziali (write, send, payment) senza un gate umano esplicito al confine.

    PrincipiP7P8
  4. Perdita di state al refresh

    Un reload di pagina, chiusura tab o timeout di sessione cancella la working memory dell'agent a metà task.

    PrincipiP6
  5. Drift da eval a produzione

    Le valutazioni pre-launch sembrano pulite; il traffico di produzione espone una classe di input mai coperta dall'eval set.

    PrincipiP9
  6. Hallucination a cascata sul tool-use

    Un agent inventa argomenti del tool o forme di risposta; lo step successivo si fida della fabbricazione e agisce su di essa.

    PrincipiP4P7
  7. Collasso della context window

    Conversazioni lunghe eccedono la context window del modello; il context più vecchio scompare in silenzio e il comportamento degrada senza warning.

    PrincipiP6
  8. Approval gate decorativo

    Un prompt di approval esiste, ma l'operatore può solo cliccare 'approve': nessun inspect, nessun edit, nessun path di rejection con un motivo.

    PrincipiP7P8
  9. Solo percorso felice da demo

    Il sistema funziona sul percorso felice della demo; il secondo branch non è mai costruito né nominato.

    PrincipiP9P10
  10. Failure nella loop detection

    Un agent ripete la stessa azione fallita all'infinito, bruciando token e tempo senza escalation a un umano.

    PrincipiP3P10

Il validator esegue la diagnosi qui sopra contro la tua architettura. Produce una readiness review con un run-id pubblico, una riga di allineamento per principio, e una traiettoria di iterazione che il prossimo reviewer può auditare.

Se stai spedendo in uno qualsiasi dei failure mode nominati in questa pagina, la closed beta è aperta. La tua readiness review sarà pubblica; il tuo case study chiuderebbe uno degli open research item qui sopra. La disciplina che la doctrine chiede agli altri, la piattaforma la applica prima a sé stessa, ogni score su questo sito linka a un run reale del validator, incluso quello per l'architettura della piattaforma stessa.