Rendere la fiducia strutturalmente resistente alla pressione avversariale
I principi del blueprint di disclosure progressiva, ispezionabilità e approvazioni esplicite definiscono le condizioni in cui i sistemi agentici possono essere considerati affidabili. L'applicazione della sicurezza significa rendere quelle condizioni strutturalmente vincolanti — non semplicemente auspicabili per utenti collaborativi, ma applicate contro pressioni avversariali attive.
Fatti chiave
- Vettori di attacco attivi
- Memory injection · Backdoor poisoning · Experience grafting
- Intuizione chiave
- Nessun controllo singolo è sufficiente — difesa a strati su quattro confini
- Principi fondamentali
- Principi 4, 7 e 8
- Confine critico
- Confine d'azione — gating di conferma a livello di tool-call, non di avvio del task
Il modello di minaccia attivo
La ricerca ha documentato tre vettori di attacco concreti con tassi di successo misurati. La memory injection raggiunge oltre il 95% di successo di iniezione attraverso normali query utente. Il backdoor poisoning corrompe i retrieval store usando token trigger ottimizzati. L'experience grafting pianta precedenti fabricati che gli agenti recuperano e replicano. Non sono teorici — operano contro sistemi che trattano i dati esterni come attendibili.