Skip to main contentSkip to footer
Guida applicativaApplicazione della sicurezza

Rendere la fiducia strutturalmente resistente alla pressione avversariale

I principi del blueprint di disclosure progressiva, ispezionabilità e approvazioni esplicite definiscono le condizioni in cui i sistemi agentici possono essere considerati affidabili. L'applicazione della sicurezza significa rendere quelle condizioni strutturalmente vincolanti — non semplicemente auspicabili per utenti collaborativi, ma applicate contro pressioni avversariali attive.

Fatti chiave

Vettori di attacco attivi
Memory injection · Backdoor poisoning · Experience grafting
Intuizione chiave
Nessun controllo singolo è sufficiente — difesa a strati su quattro confini
Principi fondamentali
Principi 4, 7 e 8
Confine critico
Confine d'azione — gating di conferma a livello di tool-call, non di avvio del task

Il modello di minaccia attivo

La ricerca ha documentato tre vettori di attacco concreti con tassi di successo misurati. La memory injection raggiunge oltre il 95% di successo di iniezione attraverso normali query utente. Il backdoor poisoning corrompe i retrieval store usando token trigger ottimizzati. L'experience grafting pianta precedenti fabricati che gli agenti recuperano e replicano. Non sono teorici — operano contro sistemi che trattano i dati esterni come attendibili.

Cos'è la memory injection?

Gli attaccanti avvelenano la memoria persistente attraverso normali query utente — senza accesso speciale. La memoria iniettata viene poi recuperata e utilizzata dall'agente come se fosse contesto legittimo. I sistemi che memorizzano il contenuto recuperato direttamente senza validazione sono i più esposti.

Valida gli input esterni rispetto a schemi definiti prima di memorizzarli
Applica la scadenza TTL alle voci di memoria a lungo termine
Applica l'isolamento della memoria per utente a livello di storage
Segnala i contenuti con pattern simili a istruzioni prima di agire
Cos'è l'experience grafting?

Esperienze 'di successo' fabbricate vengono piantate nei memory store e recuperate dall'agente come precedente legittimo. L'agente ripete poi il comportamento fabbricato, credendo sia un pattern consolidato. Questo vettore sfrutta i sistemi RAG che privilegiano l'esperienza storica.

Usa controlli di integrità crittografici sul contesto persistito
Applica un punteggio di fiducia alle esperienze recuperate prima di agire
Controlla periodicamente i memory store per voci anomale
Preferisci record strutturati rispetto a narrativi liberi nella memoria
Cosa richiede una difesa a strati?

Quattro confini devono essere applicati indipendentemente. Confine di input: valida tutti i dati esterni prima che raggiungano il layer di ragionamento. Confine di storage: isola, scade e verifica l'integrità del contesto persistito. Confine di accesso: applica il minimo footprint di permessi acquisiti al momento del task. Confine d'azione: blocca le azioni irreversibili a livello di tool-call, non solo all'avvio del task.

Nessun confine da solo è sufficiente — tutti e quattro devono essere attivi
Le istruzioni iniettate non devono poter bypassare i gate di conferma
I permessi devono essere acquisiti al momento del task e scaduti dopo l'uso
Tratta le risposte dei tool come dati esterni — valida lo schema prima del ragionamento
Cosa richiede l'auditabilità?

Il Principio 7 (ispezionabilità) e il Principio 4 (disclosure progressiva) insieme richiedono che il set di permessi attivo, le invocazioni di tool e gli input di ragionamento siano registrati in un formato interrogabile al momento del task. Un agente che non può essere ricostruito dopo un incidente non può essere governato.

Registra il set di permessi attivo all'inizio di ogni task
Emetti eventi di audit strutturati per ogni tool call con contesto completo
Conserva i log per un periodo coerente con il tuo ambiente normativo
Progetta i log per essere interrogabili e riproducibili, non solo stream di testo append-only
Esplora esempi di ispezionabilitàLeggi il Principio 8 — approvazioni esplicite