L’evoluzione dei workflow Human+AI. Dall’ibrido alla collaborazione continua.

Dall’assistenza all’integrazione: verso l’AI sempre attiva nei processi

The Shift in Focus

Un cambiamento fondamentale è in atto nei flussi di lavoro che coinvolgono umano e AI: si passa da modelli ibridi in cui l’AI veniva invocata occasionalmente per task specifici, a modelli continui in cui l’AI rimane sempre attiva nel ciclo operativo quotidiano. In altre parole, l’AI non è più un semplice strumento on-demand, ma un collaboratore costante che apprende dal contesto, fornisce suggerimenti in tempo reale, monitora processi e prende decisioni insieme all’uomo in un loop di interazione continuo. Questa evoluzione è resa possibile dai recenti progressi nelle AI generative e agenti intelligenti, capaci di gestire compiti vari e mantenere il contesto conversazionale lungo periodi prolungati.

Nel modello tradizionale, un professionista poteva ad esempio chiamare un assistente AI (come un modello di linguaggio) per generare un riassunto o un’analisi su richiesta. Nel nuovo paradigma, invece, l’AI è integrata persistentemente nei tool e nei processi: pensa a un sistema di supporto clienti in cui un agente AI smista automaticamente le richieste e suggerisce risposte ogni istante, oppure a un software CRM con un assistente intelligente che guida il team di vendita in tempo reale fornendo raccomandazioni contestuali durante tutta la giornata lavorativa . In sostanza, l’AI sta passando dall’essere un “attrezzo nella cassetta” a diventare un membro attivo del team, trasformando sia i flussi di lavoro operativi sia i ruoli professionali coinvolti.

Questo shift è tecnico (agenti dotati di memoria persistente e capacità di apprendere/adattarsi sul campo), strategico (ridefinizione dei processi aziendali attorno a un contributo AI costante) e culturale (accettazione di una collaborazione uomo-macchina più stretta e continua). Significa che le organizzazioni dovranno progettare il lavoro prevedendo un’AI sempre sul pezzo, con tutte le opportunità di efficienza che ne derivano ma anche le sfide di coordinamento e fiducia che comporta.

Tecnologie, framework e segnali dell’evoluzione verso workflow continui

Understanding the Shift

Sebbene il potenziale della collaborazione continua Human+AI sia enorme, siamo ancora nelle fasi iniziali della sua adozione diffusa. Pochissime aziende oggi possono dire di avere l’AI pienamente integrata nei workflow operativi: solo circa l’1% dei leader dichiara di aver raggiunto una maturità tale per cui l’AI è completamente incorporata nei processi e genera risultati di business significativi . Una ricerca BCG simile evidenzia che appena un 4% delle imprese ha sviluppato capacità AI all’avanguardia su tutte le funzioni, mentre un ulteriore 22% sta iniziando a ottenere benefici consistenti – lasciando quindi la maggioranza ancora ferma a sperimentazioni localizzate o progetti pilota senza scala . Il dato positivo è che l’interesse è altissimo: oltre il 90% delle aziende pianifica di aumentare gli investimenti in AI nei prossimi anni , segno che la transizione verso workflow potenziati dall’AI è riconosciuta come prioritaria, pur richiedendo tempo e leadership coraggiosa.

Dal punto di vista tecnologico, l’abilitatore di questa evoluzione è la recente generazione di modelli AI avanzati (in particolare i modelli linguistici di grandi dimensioni, o LLM) uniti a nuove architetture di memoria e orchestrazione. I modelli generativi moderni sono in grado non solo di rispondere a singoli prompt, ma di sostenere dialoghi prolungati, adattarsi a input dinamici e perfino iniziare autonomamente alcune azioni. Un ingrediente chiave qui è la memoria a lungo termine: dotare l’AI di un contesto persistente rende l’agente stateful, capace di ricordare interazioni passate, tracciare processi multi-step, richiamare decisioni già prese e coordinarsi con altri agenti, senza ripetere ciclicamente le stesse domande o rifare lavoro già fatto . Questa capacità di mantenere lo stato e l’esperienza è la fondazione di qualsiasi workflow automatizzato di lunga durata o multi-agente . Come nota un recente approfondimento, “man mano che i sistemi AI passano da assistenti reattivi ad agenti autonomi, la memoria diventa non solo utile – ma essenziale” per avere coerenza e contestualità nel tempo.

Oltre ai modelli in sé, stanno emergendo framework e tool specializzati per costruire questi workflow continui. Grandi player tech hanno rilasciato piattaforme come il Semantic Kernel di Microsoft (per integrare l’AI nelle applicazioni con funzioni decisionali dinamiche) , mentre la comunità open-source ha sviluppato librerie come LangChain e LlamaIndex per orchestrare chiamate a LLM e strumenti esterni in catene complesse . Esistono inoltre soluzioni mirate: ad esempio, Rasa per flussi conversazionali avanzati, oppure framework di multi-agent system come AutoGen (Microsoft) e CrewAI che semplificano la creazione di più agenti cooperativi. In generale, un robusto ecosistema di strumenti sta rendendo più facile implementare agenti AI persistenti dotati di pipeline di esecuzione flessibili e integrazione con sistemi esterni. Un recente confronto elenca framework eterogenei: da quelli general-purpose per LLM (es. LangChain, AutoGen) a quelli per agenti collaborativi (CrewAI) fino a piattaforme low-code/no-code (come Langflow o Lyzr) che promettono di automatizzare workflow complessi con agenti senza richiedere coding avanzato . Questa varietà riflette la necessità di componenti diversi – memoria, tool API, gestione del dialogo, ecc. – per supportare use case di collaborazione continua in contesti differenti.

Dal punto di vista metodologico, i workflow continui Human+AI adottano pattern nuovi rispetto alla semplice richiesta singola. Si parla di prompting continuo e interazioni iterative: l’AI viene alimentata costantemente con aggiornamenti di contesto e feedback dell’utente, in modo da raffinare le risposte e le azioni in un ciclo attivo. Allo stesso tempo, l’human-in-the-loop costante diventa un principio di progettazione: invece di coinvolgere l’umano solo a inizio o fine processo, lo si tiene “nel loop” in ogni fase critica, con punti di intervento chiari. Ad esempio, il workflow può prevedere che l’agente AI si fermi e chieda conferma prima di eseguire azioni ad alto impatto, oppure che certi risultati vengano automaticamente sottoposti a revisione umana. Un caso concreto viene dal risk management: qui un sistema AI può analizzare in tempo reale enormi flussi di dati e segnalare potenziali anomalie o rischi appena emergono (cosa impossibile manualmente), ma è il giudizio umano che interviene a valutare le implicazioni strategiche ed etiche di quegli alert prima di agire. In tandem, questo duo AI+umano rende la gestione del rischio proattiva invece che reattiva, unendo l’efficienza dell’AI nel monitoraggio continuo con la supervisione esperta umana che valida le decisioni .

Infine, strategie di orchestrazione efficaci sono cruciali per definire i nuovi ruoli tra uomo e agente. I migliori risultati si ottengono distribuendo compiti e responsabilità in base ai punti di forza: l’AI esegue calcoli, analisi e azioni rapide su larga scala, mentre l’umano fornisce direzione, contesto e controllo qualità. Questo richiede spesso un “coordinatore” centrale del workflow. In alcuni casi è un metà-agente supervisore che smista il lavoro ai vari agenti specializzati e richiama l’attenzione umana quando necessario; in altri è una vera e propria piattaforma di regia che gestisce la flotta di agenti (ad es. soluzioni emergenti di “Agent Operations System” enterprise) . In tutti i casi, un principio guida è mantenere l’umano al timone (“human-at-the-helm”) delle operazioni critiche: anche PwC sottolinea che man mano che cresce l’autonomia degli agenti, diventa vitale avere meccanismi di intervento umano robusti e governance attenta per mantenere fiducia e sicurezza . Vedremo più avanti come questo impatta ruoli e cultura organizzativa.

Architetture, pattern e strumenti per progettare flussi Human+AI persistenti

The Core

Cuore di questa evoluzione è la costruzione di workflow AI persistenti – sistemi in cui agenti artificiali possono operare in modo continuativo, interagendo sia con sistemi digitali sia con operatori umani senza soluzione di continuità. Ma come si progetta in pratica un workflow Human+AI always-on? Si tratta di mettere insieme i giusti modelli, architetture e pattern.

Dal punto di vista architetturale, un framework per agenti continui deve includere diversi componenti chiave. In primis un’Agent Architecture robusta: un “cervello” decisionale per l’agente, dotato di meccanismi di ragionamento sofisticati e soprattutto di memoria persistente per ricordare fatti e stati nel tempo . Senza memoria a lungo termine, un’AI non può veramente essere continua, perché dimenticherebbe il contesto a ogni iterazione. Serve poi uno strato di integrazione ambientale: API verso i sistemi aziendali (database, CRM/ERP, servizi esterni) in modo che l’agente possa sia leggere dati aggiornati che compiere azioni (es. creare un ticket, spedire un’email). Inoltre, un robusto framework di orchestrazione dei task è necessario per gestire flussi di lavoro prolungati: l’agente deve saper prioritizzare compiti, allocare risorse, gestire errori e recuperi senza interrompersi ad ogni eccezione . Infine, servono infrastrutture di comunicazione (per interagire con gli umani in linguaggio naturale e con altri agenti via protocolli) e di ottimizzazione continua (log delle decisioni, metriche di performance, feedback loop di miglioramento) . In sintesi, un agente continuo è molto più complesso di una singola chiamata ad un modello: è un sistema a circuito chiuso che osserva, decide, agisce e apprende iterativamente.

Le moderne librerie di agenti incorporano proprio questi elementi. Ad esempio, LangChain (open source) fornisce moduli per collegare LLM a memorie conversazionali, a tool esterni e per definire catene logiche multi-step . Semantic Kernel (Microsoft) consente agli sviluppatori di integrare facilmente “abilità” AI nelle app, con supporto enterprise in termini di sicurezza, orchestrazione e compatibilità multi-linguaggio . Framework come AutoGen semplificano la generazione di codice e agenti personalizzati con minima codifica manuale, sfruttando LLM per automatizzare la creazione di nuovi agent intelligenti . Altri strumenti focalizzati includono Rasa (per dialoghi conversazionali complessi con NLP avanzato) o Hugging Face Transformers Agents (che orchestrano modelli Transformer e tool per task NLP complessi) . Per chi invece non ha competenze di sviluppo avanzate, esistono ormai piattaforme low-code/no-code: ad esempio Langflow offre un’interfaccia visiva per comporre pipeline di agenti e flussi di Retrieval-Augmented Generation, mentre soluzioni come Lyzr offrono decine di agenti pre-addestrati per settori specifici – dal banking al marketing – pronti da inserire nei propri processi . Questa toolbox in rapida espansione significa che implementare un workflow AI continuo è sempre più alla portata: non serve reinventare la ruota, ma si possono combinare componenti esistenti (memoria, planner, connettori) configurandoli sul proprio dominio.

Un elemento tecnico essenziale per workflow persistenti è la capacità di gestire flussi non lineari e stati dinamici. A differenza di uno script fisso, un agente che lavora 24/7 deve poter affrontare situazioni impreviste, ripetere cicli, attendere input umani e coordinarsi con altri agenti. Questo implica che l’esecuzione non è più sequenziale e statica, ma richiede pipeline flessibili con loop, branch logici, interruzioni e riprese. Ad esempio, un agente potrebbe dover iterare più volte su un problema (proponendo una soluzione, vedendo che non funziona completamente, quindi raffinando l’approccio) prima di arrivare al risultato finale. Le architetture agentiche perciò integrano spesso un loop di interazione: interpretano l’input o lo stato corrente, eseguono ragionamenti/decisioni, compiono un’azione, poi leggono il feedback dell’ambiente (o dell’utente) e regolano di conseguenza il passo successivo . Tutto ciò richiede anche meccanismi di persistenza dello stato: mentre nelle applicazioni LLM semplici ogni chiamata è indipendente, qui abbiamo bisogno di memorie condivise (database di contesto, lavagne digitali, o vector store di embedding) dove l’agente possa “ricordare” risultati precedenti e conoscenze acquisite man mano . Come evidenzia Dataiku, “le architetture agentiche spesso richiedono memorie persistenti o ambienti stateful per gestire l’evoluzione dei goal nel tempo, cosa non necessaria nelle semplici applicazioni LLM” . Inoltre, in scenari multi-agente, va considerata anche la comunicazione e la condivisione dello stato tra agenti: serve un livello dove agenti diversi possano scambiarsi messaggi, delegarsi sotto-task e magari accedere a una memoria comune sincronizzata, evitando conflitti quando agiscono in parallelo.

Un pattern architetturale emergente per garantire l’interazione uomo-AI costante è il cosiddetto “supervisor-agent pattern”. In questo schema, esiste un agente principale (orchestratore) che funge da intermediario tra l’utente umano e un insieme di agenti specializzati. Il supervisor riceve le richieste o gli obiettivi dall’umano, li suddivide e li instrada al giusto agente esperto (es. un agente “esperto di ricette” per domande culinarie, un agente “matematico” per calcoli, ecc.), raccoglie i risultati e li ricompone . Crucialmente, il supervisor è in grado di interrompere il flusso in punti designati e notificare l’umano per un suo intervento. Ad esempio, un workflow multi-agente potrebbe avere uno step in cui, dopo che un agente ha generato un progetto di report, il sistema si ferma e chiede al responsabile umano: “Vuoi revisionare/approvare questo draft prima di procedere a formattarlo e inviarlo?”. Solo dopo l’ok (o le indicazioni) umane, il supervisor fa partire un altro agente che finalizza e distribuisce il report . Questo approccio garantisce che l’umano possa validare e guidare l’AI nei punti nevralgici, invece di scoprire errori o scelte sbagliate solo a posteriori. In altri termini, il workflow diventa orchestrato: l’AI fa da pilota automatico per molte attività, ma con un umano sempre nei panni di copilota pronto a prendere il controllo in caso di necessità.

Un altro pattern pratico sono i trigger di controllo basati su soglie o regole di business. Invece di attendere sempre input umano, l’agente può procedere autonomamente ma con l’obbligo di fermarsi e chiedere conferma quando incontra determinate condizioni. PwC porta l’esempio di un agente che gestisce rimborsi: si può stabilire che “per importi sopra 200$, l’AI deve passare la palla a un operatore umano per l’approvazione” . Allo stesso modo, un agente potrebbe automaticamente segnalare all’esperto umano decisioni che esulano dai pattern noti o che presentano un livello di incertezza elevato (ad esempio, un’anomalia che l’AI non sa classificare). Queste regole di ingaggio assicurano che l’AI non esca dal perimetro e che il fattore umano intervenga dove conta di più, instaurando fiducia nel sistema.

In termini di strumenti concreti, il toolbox per implementare tutto questo tipicamente include:

  • Memorie conversazionali integrate nei LLM (buffer di chat, riepiloghi, memorie vettoriali) per mantenere lo storico del dialogo e della decisione .

  • Planner o manager di task: moduli (spesso basati essi stessi su LLM) che decidono quale passo compiere dopo, quale tool usare, o come decomporre un obiettivo complesso in sub-task.

  • Tool integrati e API: l’agente continuo deve potersi interfacciare con database aziendali, motori di ricerca, servizi esterni e anche strumenti di produttività (email, calendari, fogli di calcolo). Librerie come LangChain offrono già decine di integrazioni predefinite (ad es. con Google Search, WolframAlpha, CRM Salesforce, ecc.) che l’agente può invocare all’occorrenza.

  • Monitoraggio e logging: per ogni azione dell’agente si raccolgono log dettagliati, sia a scopo di audit (far trasparire all’umano cosa ha fatto l’AI e perché) sia per analisi e miglioramento offline. Ad esempio, un sistema potrebbe registrare che l’agente X ha proposto 100 risposte, di cui l’operatore umano ne ha scartate 30: questi dati servono poi al team per affinare le policy o ricondurre i modelli dove tendono a sbagliare.

  • Guardrail e sicurezza: quando l’AI opera continuamente su dati sensibili o esegue azioni critiche, è fondamentale implementare controlli. Si va da filtri sui contenuti generati (per evitare output tossici o indesiderati) a sistemi DLP (Data Loss Prevention) che bloccano l’agente se sta per esporre dati riservati all’esterno . In alcuni casi si inserisce nel loop un agente “sentinella” specializzato in sicurezza, che supervisiona le mosse degli altri agenti e alza bandiere rosse se violano policy .

In sintesi, il core tecnologico dei workflow Human+AI continui consiste nel combinare modelli avanzati, infrastrutture di memoria e integrazione, e pattern di orchestrazione che bilanciano autonomia dell’AI e controllo umano. Ciò consente di avere sistemi agentivi adattivi e resilienti, capaci di evolvere col contesto e collaborare con gli umani in maniera fluida e affidabile, anziché limitarsi ad eseguire un singolo compito per poi spegnersi.

Cultura, ruoli e governance nell’era della collaborazione continua

The Broader Shift

Oltre alle sfide tecniche, la transizione verso workflow AI continui porta con sé importanti implicazioni organizzative, professionali e culturali. Quando l’AI diventa un “collega” onnipresente sul lavoro, come cambiano i ruoli umani? Come assicurare fiducia e accettazione? E che impatto ha sul modo in cui aziende e team sono strutturati?

Ridefinizione dei ruoli professionali: In un modello ibrido tradizionale, l’AI svolgeva compiti ben delimitati e l’essere umano manteneva la presa su tutto il resto. Nel modello continuo, molte delle attività ripetitive, routinarie o analitiche vengono assorbite dall’AI in tempo reale, liberando gli umani per mansioni a maggior valore aggiunto. Questo sposta l’enfasi dei ruoli umani verso compiti di sorveglianza, decisione e creatività. Ad esempio, un content manager con un assistente AI continuo non perderà più ore a schedulare post sui social o ad analizzare metriche basiche (lo farà l’AI), ma dovrà concentrarsi su cosa fare di quelle analisi, quale strategia creativa adottare e su come supervisionare i contenuti proposti dall’AI. In generale, si va verso team “centauri” in cui l’unione di AI e intelligenza umana supera le capacità di ciascuno separatamente. Come ben riassunto in un rapporto recente, “l’integrazione di AI e intelligenza umana non è competizione, ma collaborazione. L’AI amplifica i punti di forza umani – velocità, precisione, scalabilità – mentre gli esseri umani apportano creatività, empatia e giudizio etico” . Questa complementarità sarà il fulcro dei ruoli futuri.

Naturalmente, ciò comporta anche la nascita di nuove competenze e posizioni. Stiamo già vedendo emergere figure come il prompt engineer (specialista nel dialogare efficacemente con i modelli AI), il data curator (curatore dei dati e delle conoscenze che alimentano l’AI), o l’AI ethicist (esperto di etica e compliance dell’AI in azienda). In prospettiva, molti lavori tradizionali incorporeranno un “pezzo” di AI: ad esempio l’analista finanziario diventerà un analista aumentato dall’AI, che saprà utilizzare agenti per scandagliare bilanci e pattern di mercato, mantenendo però il compito di interpretare quei risultati e prendere decisioni d’investimento. Le aziende leader si stanno muovendo per formare i dipendenti a queste convivenze uomo-macchina: dai programmi di upskilling sul prompt design per team non tecnici, a veri e propri bootcamp per diffondere competenze di utilizzo di librerie AI e strumenti di automazione nelle varie funzioni aziendali . In altre parole, l’alfabetizzazione AI diventerà una parte standard di molti lavori, così come l’uso del computer o di Internet lo è diventato in passato.

Impatto sulla fiducia e la cultura: Un ostacolo cruciale da gestire è la fiducia. Lasciare un’AI “sempre accesa” a fianco a noi nelle operazioni richiede che i team si fidino delle sue capacità – ma non ciecamente. La ricerca mostra che utenti e clienti vogliono beneficiare dell’AI (vedono possibilità di maggiore efficienza, coerenza e perfino ispirazione nel lavoro creativo), ma allo stato attuale non sono pronti ad affidarsi completamente a sistemi autonomi senza supervisione umana . In un sondaggio Salesforce su oltre 1000 use case di AI generativa, tutti hanno espresso la necessità di avere un umano al comando nelle applicazioni critiche, anche quando l’AI è potente. Questo implica che le organizzazioni devono costruire un contesto dove l’AI è percepita come affidabile ma sempre verificabile.

Alcune pratiche per alimentare la fiducia includono: trasparenza (rendere visibile quando un contenuto o decisione è generata dall’AI, e su quali basi), controllabilità (dare agli utenti la possibilità di accettare/modificare/rifiutare le azioni proposte dall’AI facilmente) e coerenza (l’AI deve comportarsi in modo prevedibile entro certi confini, senza sorprendere gli utenti con output inappropriati). Tenere l’umano in the loop non è solo un requisito tecnico, ma un elemento di fiducia psicologica: le persone sapendo di poter intervenire restano più serene nell’adottare l’AI quotidianamente . Una conseguenza importante è che nelle aziende servirà promuovere una cultura del feedback continuo: gli operatori dovranno sentirsi responsabili di segnalare errori dell’AI, di addestrarla ulteriormente con esempi corretti, e non semplicemente delegare tutto passivamente. In fondo, la collaborazione continua implica una sorta di coevoluzione: l’AI impara dall’umano e viceversa l’umano si adatta allo stile di lavoro dell’AI. Le organizzazioni che riusciranno a instaurare questa partnership simbiotica, dove l’errore dell’AI è occasione di apprendimento e non di scaricabarile, vedranno crescere sia la fiducia sia l’efficacia dei sistemi persistenti nel tempo.

Nuovi modelli organizzativi e di governance: Quando l’AI pervade costantemente le operazioni, l’azienda deve evolvere nei suoi processi e nelle sue policies. Un punto chiave è l’AI governance: molte aziende hanno sviluppato linee guida etiche e controlli sull’AI, ma spesso tarati su un mondo di modelli statici (es. un algoritmo di scoring creditizio) o di use case isolati. Ora bisogna adattare la governance a un “mondo agentico” , dove potenzialmente decine di agenti AI agiscono ogni giorno in vari dipartimenti. Questo significa implementare sistemi di monitoraggio centralizzato delle AI in produzione, definire chi ha la responsabilità di “allenare” e aggiornare gli agenti, e come gestire rischi specifici (es. un agente che accede a dati personali deve essere conforme a GDPR e alle politiche interne). PwC sottolinea che i programmi di AI responsabile esistenti vanno estesi per coprire sia il breve termine (stabilire soglie, controlli e auditing immediati sugli agenti) sia il lungo termine (valutare l’impatto strategico di avere sempre più agenti autonomi e assicurare allineamento con gli obiettivi aziendali) .

A livello organizzativo, vedremo probabilmente la creazione di AI Center of Excellence o task force dedicate a orchestrare questi agenti. Inoltre, i team diventeranno sempre più interfunzionali: perché l’AI continua rompe i silos, con agenti che magari interagiscono trasversalmente tra reparto IT, operativo e customer care. Le aziende leader stanno già favorendo questo approccio multi-disciplinare, dove esperti di dominio lavorano con data scientist e ingegneri prompt per configurare al meglio gli assistenti AI sulle proprie esigenze. Un esempio pratico è l’adozione di “AI champions” all’interno di ogni dipartimento – dipendenti che fanno da punto di riferimento per l’integrazione dell’AI nel loro settore, curandone sia l’implementazione che la formazione dei colleghi.

Non vanno nemmeno trascurate le potenziali resistenze e impatti umani. Alcuni lavoratori potrebbero temere che avere un agente AI sempre alle calcagna sia intrusivo o preluda a un controllo aumentato delle performance. Altri potrebbero mostrare iper-affidamento, ovvero fidarsi troppo e smettere di svolgere quel ruolo critico di supervisione (ci sono evidenze che in ambienti ad alta pressione, se l’AI automatizza molto, gli umani tendono col tempo a abbassare la guardia e saltare anche le semplici verifiche di routine ). È quindi fondamentale gestire il cambiamento con empatia e formazione: spiegare chiaramente ai team che l’AI continua è lì per supportarli e non per valutarli; incentivare l’uso dell’AI come strumento per ridurre lo stress (delegando le incombenze noiose) e migliorare i risultati, anziché come “grande fratello”. Allo stesso modo, mantenere incentivi corretti: se un’azienda premia solo la velocità e output prodotti con l’AI, rischia che i dipendenti non la controllino a sufficienza; vanno invece incoraggiati a prendersi il tempo di rivedere gli output e intervenire dove serve, magari riconoscendo esplicitamente il valore di un errore evitato grazie all’intervento umano. In sintesi, la fiducia deve essere bilaterale: i lavoratori devono poter fidarsi dell’AI (che sia robusta, trasparente, migliorabile) ma anche l’azienda deve continuare a fidarsi dei lavoratori nel loro ruolo di guardiani e decisori finali.

In conclusione, il passaggio a workflow human+AI continui non è solo un aggiornamento tecnologico, ma uno shift organizzativo profondo. Chi riuscirà a combinarne tutti gli aspetti – tecnologia giusta, ruoli ben definiti, cultura collaborativa e governance solida – potrà liberare enormi potenzialità. Le aziende diventeranno più agili e resilienti, capaci di affrontare complessità crescenti grazie a squadre miste umani+AI. Allo stesso tempo, emergeranno nuovi equilibri nel mondo del lavoro, dove creatività, giudizio e valori umani saranno ancora più importanti per guidare le macchine intelligenti lungo la rotta desiderata.

Scenari futuri: agenti autonomi, decisioni proattive e organizzazioni aumentate

What’s Next

Cosa ci riserva il futuro prossimo in questo ambito? Gli esperti concordano: l’integrazione continua di AI nei workflow è destinata ad accelerare e ad ampliarsi a quasi ogni funzione e settore. Già entro il 2026 vedremo un’ampia diffusione di quelli che vengono definiti “agenti agentici” – sistemi AI in grado di fissare obiettivi, pianificare attività ed eseguire decisioni con minima supervisione umana, passando da un ruolo reattivo a uno proattivo nel delegare lavoro alle macchine . I trend tecnologici indicano che questi agenti diventeranno sempre più autonomi e adattivi, grazie a progressi nei modelli di ragionamento e nelle memorie: in pratica, l’AI sarà capace di iniziare azioni da sola, aggiustare il tiro se cambiano le condizioni e imparare dagli esiti per migliorare continuamente . Di pari passo, aumenteranno gli usi reali di agenti persistenti: si profilano scenari come assistenti virtuali sanitari che gestiscono l’agenda dei pazienti, analizzano esami clinici e allertano proattivamente i medici su situazioni critiche; agenti finanziari che 24/7 monitorano transazioni per individuare frodi, eseguono controlli di compliance normativo e ottimizzano strategie di portafoglio; oppure agenti nel customer service capaci di risolvere autonomamente i ticket comuni, avviare follow-up con i clienti e analizzare in tempo reale il sentiment delle conversazioni per adattare il tono del servizio . Tutto questo in molti casi esiste già in forma embrionale e nei prossimi anni passerà dalla fase di pionieristica a mainstream.

Un’altra tendenza sarà la convergenza tra AI continue e AI multimodali. Oggi gran parte degli assistenti lavora su testi o numeri, ma entro pochi anni avremo agenti integrati che potranno vedere e ascoltare: ad esempio sistemi nell’industria manifatturiera che combinano visione artificiale (per ispezionare la linea di produzione) con analisi testuale e sensoristica IoT, il tutto coordinato da un cervello AI centrale che collabora con gli operatori in fabbrica. Nel settore creativo, immaginate un design assistant che rimane attivo per tutto un progetto di design: dall’ideazione (proponendo schizzi generati da prompt descrittivi) alla prototipazione (magari interagendo anche con stampanti 3D o software CAD), fino ai test con utenti (analizzando in diretta le reazioni sui volti via video e suggerendo iterazioni di miglioramento). La continuous collaboration abilitata dall’AI si estenderà anche alla dimensione fisica, con robot e cobot intelligenti fianco a fianco dei lavoratori: macchine capaci di apprendere dalle abitudini dei colleghi umani e di adattare i propri movimenti e compiti di conseguenza, in un balletto coordinato uomo-robot sulla linea produttiva o nel magazzino .

Sul fronte strategico e decisionale, vedremo le AI entrare nelle stanze dei bottoni. Le evoluzioni in NLP permetteranno agli agenti di partecipare alle riunioni di leadership aziendale, fornendo analisi predittive e simulazioni di scenario come supporto alle decisioni . Un agente continuo potrà incrociare in tempo reale dati di mercato, indicatori finanziari e trend emergenti e dire la sua durante un meeting direzionale: ad esempio “attenzione, se aumentiamo i prezzi di questo prodotto, i modelli prevedono un calo del 5% nella soddisfazione clienti e un impatto X sul churn rate”. Queste AI partner fungeranno da sparring partner per i leader, consentendo di testare virtualmente decisioni prima di attuarle e di affinare continuamente la strategia man mano che arrivano nuovi dati . È chiaro che questo richiederà grande fiducia e comprensione del funzionamento dell’AI da parte dei decisori, ma i vantaggi in termini di velocità e profondità di analisi strategica possono essere enormi.

Guardando oltre, uno scenario affascinante è quello di organizzazioni realmente aumentate: aziende dove ogni dipartimento ha una serie di agenti AI specializzati sempre in funzione, e questi agenti comunicano anche tra di loro. Si potrebbe arrivare a qualcosa di simile a un “digital twin” dell’organizzazione fatto di agenti: uno per la logistica, uno per le vendite, uno per le risorse umane ecc., che interagiscono costantemente scambiandosi informazioni (proprio come i responsabili umani fanno nei meeting interfunzionali) e anticipando problemi o opportunità. Ad esempio, l’agente delle vendite potrebbe avvisare l’agente di produzione di un picco di richieste su un prodotto, e quest’ultimo potrebbe autonomamente ricalibrare la catena di fornitura (o chiedere al manager umano di autorizzare lo straordinario di un turno in più). Sembra fantascienza, ma i mattoni tecnologici ci sono già: API-driven AI e microservizi intelligenti permetteranno di innestare funzionalità AI avanzate in tutti i sistemi aziendali in modo modulare , e con un’adeguata orchestrazione centrale questi moduli potranno comunicare efficacemente.

Non va dimenticato che, insieme a questi sviluppi, arriveranno anche nuove sfide. L’aumento di autonomia degli agenti imporrà probabilmente regole e standard più stringenti (pensiamo alle normative come l’EU AI Act in arrivo) per assicurare che gli “AI co-worker” rispettino la privacy, l’equità e la sicurezza. Le aziende dovranno implementare meccanismi di auto-spegnimento o limitazione di autonomia in caso l’AI vada fuori controllo, un po’ come i freni d’emergenza nei macchinari industriali. Ci sarà da gestire l’etica delle decisioni delegate: se un agente AI licenzia un candidato o decide di non concedere un prestito, di chi è la responsabilità? Idealmente, rimarrà umana, quindi serviranno tracciabilità e possibilità di intervento ex-post sulle decisioni prese dall’AI in continuo.

Sul piano delle competenze, il valore del fattore umano potrebbe addirittura crescere paradossalmente: quanto più l’AI fa da spalla su cose hard-skill (analisi, calcolo, ottimizzazione), tanto più soft skills come leadership, pensiero critico, empatia nel gestire i cambiamenti diventeranno discriminanti per il successo. In un certo senso, liberati da compiti alienanti, gli esseri umani potranno concentrarsi su ciò che li rende unici. Le organizzazioni dovranno incentivare questa crescita umana parallela a quella tecnologica, per evitare di avere super algoritmi ma personale demotivato o sprovvisto del giusto mindset.

In definitiva, nei prossimi 3-5 anni assisteremo a un progressivo consolidamento dei workflow AI continui come nuovo standard operativo. Le aziende passeranno dalla fase dell’entusiasmo per le demo di GPT alla fase dell’implementazione diffusa di agenti su misura, integrati nei loro processi end-to-end. Molte sperimentazioni falliranno o insegneranno lezioni – come è naturale in ogni trasformazione – ma chi riuscirà a mettere in produzione agenti affidabili e a farli collaborare efficacemente con il proprio capitale umano, getterà le basi per un vantaggio competitivo enorme. Stiamo entrando, per citare Reid Hoffman, nell’era delle “superintelligenze collettive” composte da persone e AI insieme. Come ha detto Demis Hassabis di DeepMind, “è nella collaborazione fra persone e algoritmi che si celano incredibili progressi scientifici nei prossimi decenni” . Il compito che ci attende è fare in modo che questi progressi avvengano in modo controllato, inclusivo e al servizio dell’umanità. Il viaggio dai workflow ibridi a quelli continui è iniziato – e trasformerà per sempre il modo in cui pensiamo il lavoro e la creatività.

Takeaways

5 principi chiave per costruire workflow Human+AI continui e affidabili

  • Da AI strumento a AI collega: Stiamo passando da un utilizzo dell’AI occasionale e isolato (tool invocato all’occorrenza) a un’integrazione continua dell’AI nei flussi di lavoro. In questo nuovo modello l’AI rimane attiva costantemente, interagendo con umani e sistemi in tempo reale e fungendo da vero partner operativo e non solo da assistente episodico.

  • Framework e tecnologie abilitanti: La collaborazione continua Human+AI è resa possibile dai progressi nei modelli generativi (LLM più versatili) uniti a memorie persistenti e nuove architetture agentive. Strumenti come LangChain, Semantic Kernel, AutoGen, ecc. forniscono componenti pronti per costruire agenti con loop di ragionamento, integrazione di tool esterni, gestione dello stato e orchestrazione di compiti multipli . In pratica disponiamo di un toolbox per implementare workflow AI prolungati e adattivi senza dover partire da zero.

  • Nuovi pattern di workflow: Nei processi AI continui, il prompting diventa iterativo e contestuale, e l’human-in-the-loop si distribuisce lungo tutto il ciclo. Si adottano strategie come supervisor agent (un agente orchestratore che coinvolge l’umano nei punti giusti) , o regole di ingaggio per cui l’AI alza bandiera e chiede conferma umana su decisioni oltre certe soglie . Questi pattern assicurano sia efficienza (l’AI automa molti step) sia controllo (l’umano interviene dove conta), aumentando fiducia e qualità dei risultati.

  • Impatto su persone e organizzazioni: L’adozione di agenti persistenti sta cambiando i ruoli: gli esseri umani delegano attività ripetitive all’AI e si concentrano su creatività, strategia e supervisione. Ciò richiede nuove competenze (es. saper collaborare con un’AI, interpretare i suoi output, fornire feedback) e porta alla nascita di figure inedite come specialisti del prompt o dell’etica AI. La fiducia è fondamentale: studi confermano che sia lavoratori sia clienti esigono una presenza umana al timone per fidarsi pienamente dell’AI continua . Le aziende devono quindi evolvere la loro cultura e governance – aggiornando policy di AI responsabile , formando il personale e incentivando un approccio di controllo attivo – per sfruttare i benefici dell’AI senza perdere il fattore umano.

  • Verso il futuro prossimo: Nei prossimi anni assisteremo a una espansione massiccia della collaborazione continua Human+AI. Agent autonomi sempre più avanzati diventeranno comuni in settori come sanità, finanza, operation, design, con AI proattive che gestiscono processi end-to-end e interagiscono tra loro. L’AI aumenterà la forza lavoro anziché rimpiazzarla, creando team ibridi uomo-macchina ultra-performanti . Si profilano agenti AI coinvolti anche nelle decisioni strategiche (es. supporto ai dirigenti tramite simulazioni e consigli data-driven) . Questa evoluzione porterà grandi opportunità di efficienza e innovazione, ma richiederà attenzione a etica, regolamentazione e gestione del cambiamento per essere implementata con successo.

Recommended Resources

Libri, articoli e strumenti per approfondire la progettazione dei flussi AI sempre attivi

  • Understanding AI Agents & Agentic Workflows – Dataiku (2023): Una panoramica completa sugli agenti AI e i workflow “agentici”. Descrive tipologie di agenti (back-end vs front-end), differenze tra sistemi single-agent e multi-agent, e dettaglia i componenti chiave per sviluppare agenti autonomi (memoria, tool, loop di interazione, ecc.) . Utile per afferrare le basi tecniche della collaborazione continua.

  • Top 9 AI Agent Frameworks (May 2025) – Shakudo: Rassegna dei principali framework open-source ed enterprise per costruire agenti AI avanzati. Da LangChain a Microsoft Semantic Kernel, fino a tool low-code come Langflow, il articolo confronta caratteristiche e casi d’uso di ciascuno . Ottimo per orientarsi nella toolbox di librerie e piattaforme disponibili.

  • Superagency in the workplace: Empowering people to unlock AI’s full potential – McKinsey (2025): Report approfondito sullo stato di adozione dell’AI sul lavoro e su come amplificare l’agency umana con l’AI. Include dati (es. solo 1% aziende “AI mature”) e analisi su perché molti sono fermi ai pilot . Propone strategie per scalare l’AI in azienda mettendo le persone al centro, con focus su upskilling, fiducia e leadership visionaria.

  • Unlocking the power of human-AI collaboration for smarter risk management – Carsten Krause (2024): Articolo su Medium che illustra il framework AI + HI = ECI (Elevated Collaborative Intelligence) applicato al risk management. Mostra in pratica come un workflow continuo AI+umano può anticipare i rischi invece di subirli, mappando i ruoli di AI e human nelle varie fasi (governance, mappatura, mitigazione) . Un caso concreto di sinergia continua.

  • AI agents e approccio “human-at-the-helm” – PwC (2023): Linee guida di PwC per implementare agenti AI in modo responsabile. Discute le sfide (esposizione dati, overreliance) e le misure mitigative: dal design con interventi umani obbligati in certe decisioni all’uso di agenti “sentinella” per sicurezza . Ottima risorsa sui temi di trust, governance e orchestrazione di più agenti in contesto enterprise.

  • Top 5 AI Trends to Watch in 2026 – Techkors (2025): Articolo orientato al futuro prossimo. Il trend #1 “Rise of Agentic AI” descrive l’arrivo di agenti sempre più autonomi e proattivi, con esempi di use case in healthcare, fintech, customer service . Copre anche workforce aumentata e AI multimodale. Fornisce un’idea chiara di cosa aspettarsi dai workflow Human+AI nei prossimi anni, in termini di applicazioni e impatti business.

Manus vs Perplexity : AI che lavora per te e l’evoluzione del fare

Negli ultimi mesi, attraverso un percorso fatto di test, implementazioni e tante domande operative da risolvere, mi sono immerso in una sperimentazione continua di strumenti AI orientati a migliorare il modo in cui lavoro, faccio ricerca, sviluppo e costruisco soluzioni.

In questo viaggio, ho esplorato diverse tecnologie e framework, oltre che soluzioni. Alcuni sono rimasti marginali, altri sono diventati parte integrante della mia cassetta degli attrezzi quotidiana. Tra questi, ChatGPT Pro e Claude Pro sono ormai strumenti imprescindibili, ciascuno con caratteristiche ben distinte che si adattano a contesti diversi.

Ultimamente però la mia attenzione si è concentrata su due piattaforme in particolare: Manus e Perplexity Pro (che già utilizzavo, ma le ultime implementazioni hanno ridato nuova luce), quest’ultimo soprattutto dopo il rilascio, ieri, della nuova funzione Labs.

Manus rappresenta un salto concettuale verso l’agente AI autonomo, capace di orchestrare task articolati con una logica multi-step. Perplexity, dal suo punto di vista, continua a rafforzarsi come motore di risposta e ricerca evoluta, e con Labs compie un salto di qualità trasformandosi in un vero e proprio strumento operativo di produzione.

Non si tratta di scegliere uno o l’altro.

Ogni sistema ha la sua identità e forza. Per questo ho ritenuto utile mettere nero su bianco un confronto tecnico e funzionale tra Manus e Perplexity Pro Labs: per orientarsi meglio e capire quando e come usarli in modo complementare, dentro un workflow più ampio e consapevole.

Perplexity Pro e Manus a confronto

Per rendere il confronto utile, ho scelto di non limitarmi a una valutazione superficiale delle funzionalità, ma di analizzare entrambi i tool secondo una griglia che riflette le mie esigenze quotidiane: ricerca approfondita, gestione e organizzazione della conoscenza, supporto allo sviluppo e automazione, e capacità di analisi e produzione di report strutturati.

Ho integrato anche una lettura tecnica più profonda, osservando architetture, modelli AI utilizzati, modalità di esecuzione, interfacce, API e logiche di integrazione, per comprendere non solo cosa fanno, ma come lo fanno e quali trade-off implicano.

L’obiettivo non è stilare una classifica, ma visto che in molti mi chiedono spesso quale usare e come, ho provato a mettere a fuoco le specificità di ciascuno strumento: capire dove eccelle, dove è ancora acerbo, e soprattutto quale ruolo può avere all’interno di un sistema di lavoro ibrido e potenziato dall’AI.

Ricerca e generazione di conoscenza

Perplexity Pro Labs: Perplexity nasce come motore di risposta AI integrato con il web, in grado di fornire risposte accurate e citate da fonti affidabili in tempo reale . La nuova funzione Labs (lanciata il 29 maggio 2025) estende questa capacità: invece di limitarsi a rispondere a una singola domanda, un Lab svolge ricerche approfondite in autonomia (tipicamente per 10 minuti o più) utilizzando strumenti avanzati come la navigazione web profonda e l’esecuzione di codice . Durante un Lab, Perplexity esplora molteplici fonti online, ad esempio articoli di news, paper accademici o database,  sintetizza le informazioni trovate in una risposta dettagliata, inclusiva di riferimenti per verificare ogni affermazione importante .

Il risultato è simile a un report redatto da un ricercatore: l’utente ottiene analisi ricche di contenuto, supportate da fonti autorevoli, con la possibilità di approfondire tramite i link citati. Perplexity Pro Labs si aggiorna dinamicamente: grazie al browsing web integrato, le sue risposte includono informazioni aggiornate all’istante (superando così il limite di cutoff dei classici LLM) .

Manus: Manus è progettato come un agente AI generale completamente autonomo, in grado di pianificare ed eseguire ricerche multi-step senza intervento umano . A differenza di un chatbot tradizionale, che risponde a prompt singoli, Manus può orchestrare processi di ricerca complessi: ad esempio, può scansionare siti di notizie, forum e banche dati, estrarre i dati rilevanti e sintetizzare il tutto in un rapporto strutturato, il tutto mentre l’utente svolge altro . Una volta definito un obiettivo (“goal”), l’agente opera in background: naviga sul web in autonomia, apre schede, compila form e legge contenuti molto più velocemente di un umano .

Manus non presenta esplicitamente citazioni bibliografiche nelle sue risposte finali, focalizzandosi sul deliverable finale; offre trasparenza sul processo: nella sua interfaccia mostra un pannello (“Manus’s computer”) con la cronologia passo-passo delle azioni compiute e le pagine visitate . Ciò significa che l’utente può seguire quali fonti sono state consultate e come sono state utilizzate. Sul fronte dell’aggiornamento delle informazioni, Manus sfrutta direttamente internet e anche API esterne per ottenere dati in tempo reale (es. può chiamare l’API Yahoo Finance per scaricare quotazioni aggiornate) . In sintesi, Perplexity Labs privilegia un approccio “ricerca + risposta verificabile”, mentre Manus agisce come un agente esecutivo che trova e compone conoscenza da più fonti, offrendo all’utente il risultato finale senza richiedere prompt successivi .

Knowledge management (Gestione della conoscenza)

Perplexity Pro Labs: L’ecosistema Perplexity include funzionalità avanzate per organizzare e riutilizzare il sapere generato. In particolare, introduce le Spaces, spazi di lavoro dove l’utente può salvare e raggruppare le conversazioni (thread) e i contenuti per progetto o argomento . Ogni Space funge da hub di conoscenza personalizzato: gli utenti Pro possono anche caricare documenti propri (PDF, CSV, testi, ecc.) all’interno dello spazio, creando un piccolo repository persistente di informazioni . Quando si fa una domanda in una Space, Perplexity eseguirà una ricerca sia sul web che tra i file caricati, fornendo risposte su misura che combinano fonti pubbliche e conoscenza privata rilevante .

Questa integrazione (detta Internal Knowledge Search) permette, ad esempio, di fare domande su un manuale aziendale caricato o su dati interni, ottenendo risposte contestualizzate. Le Spaces supportano anche la collaborazione: l’utente può invitare colleghi con permessi di sola lettura o scrittura, così un team può condurre ricerche congiunte e condividere risultati . Tutte le sessioni (thread) restano salvate nello spazio finché l’utente non le rimuove, costituendo di fatto una documentazione persistente a cui tornare in seguito. Inoltre, Perplexity offre opzioni di esportazione dei risultati (ad esempio in PDF, Markdown o altri formati) , facilitando la creazione di report riutilizzabili o archiviabili localmente.

Manus: La filosofia di Manus è più focalizzata sul completamento di singoli task autonomi che sull’organizzazione manuale della conoscenza da parte dell’utente. Ogni esecuzione di Manus genera un “progetto” autonomo con i suoi risultati, e il sistema fornisce strumenti per rivedere e conservare quanto fatto. In particolare, Manus include una funzione di Replay delle sessioni: ogni sessione può essere registrata e rigiocata passo-passo, mostrando esattamente come l’agente ha svolto il compito . Questa feature è preziosa sia per analizzare o correggere il comportamento dell’AI (debug/review) sia come documentazione: l’utente può condividere il replay con altri o rivederlo in futuro per replicare il processo .

Al di fuori dei replay, Manus attualmente non offre spazi collaborativi permanenti né una memoria a lungo termine multi-sessione accessibile all’utente (nel 2025 è ancora in beta privata, orientato a esecuzioni stand-alone). Detto ciò, Manus dimostra una forma di adattamento interno della conoscenza: all’interno di un singolo progetto, l’agente costruisce e aggiorna una sorta di knowledge base temporanea. Ad esempio, se durante un’attività di recruiting l’utente indica preferenze specifiche (es. competenze o esperienze desiderate), Manus aggiorna la propria base di conoscenza interna e adatta di conseguenza le raccomandazioni che fornisce . Allo stesso modo, l’utente può fornire a Manus file in input per il singolo task, ad esempio caricando un dataset CSV, un elenco di curriculum o altri dati, e l’agente li utilizzerà nel proprio processo di analisi . Questi file però non vengono conservati in una libreria permanente oltre la sessione corrente. In sintesi, Perplexity offre strumenti espliciti per organizzare, preservare e condividere la conoscenza su più sessioni (utile per costruire una base di conoscenza cumulativa), mentre Manus privilegia la traccia del processo (replay) e l’adattabilità on-the-fly durante l’esecuzione di un compito, senza ancora un modulo di archiviazione permanente multi-progetto.

Sviluppo (Supporto alla programmazione)

Perplexity Pro Labs: Perplexity Labs integra la scrittura ed esecuzione di codice come mezzo per raggiungere gli obiettivi dell’utente . In pratica, durante una sessione Labs l’AI può decidere di generare codice (tipicamente in Python, ma anche HTML/JavaScript per il web) per svolgere subtasks: ad esempio può scrivere uno script Python per riorganizzare e analizzare un dataset, applicare formule o generare un grafico . La caratteristica distintiva è che il codice generato viene eseguito automaticamente nell’ambiente sandbox di Perplexity, e i risultati (output) ritornano nel flusso di lavoro del Lab. Ciò consente di automatizzare analisi complesse: Perplexity può creare tabelle pivot da dati forniti, calcolare statistiche o produrre visualizzazioni senza che l’utente debba programmare manualmente. Inoltre, Labs può sviluppare mini-applicazioni web interattive direttamente all’interno dell’interfaccia Perplexity: ad esempio, può realizzare un semplice dashboard o una piccola web app con HTML/CSS/JS, visibile in una scheda “App” del progetto . Tutti i file generati (codice sorgente, immagini, CSV, ecc.) durante un Lab vengono salvati nella scheda Assets, dove l’utente può visionarli o scaricarli .

Sul piano tecnico, Perplexity sfrutta modelli AI specializzati per il coding: oltre a modelli GPT avanzati (es. GPT-4 per capacità di linguaggio) , utilizza modelli addestrati sul codice come Code Llama o un ensemble proprietario (Mixtral 8x7B, un mixture-of-experts di otto modelli 7B) per generare codice in modo efficiente . Questo mix di modelli permette a Labs di produrre codice funzionante rapidamente, come riportato da utenti soddisfatti della velocità con cui Perplexity Labs risolve compiti di programmazione . Va notato che l’utente mantiene un certo controllo durante il processo: l’interfaccia Labs mostra i progressi step-by-step e consente di intervenire, ad esempio saltando uno step o aggiungendo istruzioni aggiuntive se qualcosa deviasse dall’obiettivo . In caso di errori di codice, l’utente può guidare la correzione, anche se spesso Labs tenterà da sé di debug/revisioni per portare a termine il task nei 10+ minuti di esecuzione.

Manus: Manus è stato progettato sin dall’inizio con una forte enfasi sulla capacità di programmazione autonoma. Adotta una sub-agente dedicato al code generation all’interno della sua architettura multi-agente , il che gli consente di affrontare compiti di sviluppo software anche complessi. In pratica, Manus può scrivere, testare e correggere codice in vari linguaggi di programmazione e framework, secondo le necessità del progetto . Ad esempio, se il compito richiede di costruire un sito web interattivo, Manus genererà il codice HTML/CSS/JavaScript necessario, lo eseguirà nel suo ambiente e itererà fino a ottenere un sito funzionante .

Un caso concreto: richiesto di analizzare a fondo le azioni Tesla e creare un sito web con i risultati, Manus ha effettivamente prodotto un sito web dinamico con grafici e analisi finanziarie, gestendo in autonomia sia la parte di raccolta dati che di codifica front-end . Per compiti di data analysis, Manus scrive script (tipicamente in Python) per effettuare calcoli o chiamare API: nel test sull’S&P 500, l’agente ha creato uno script Python che interroga l’API YahooFinance per ottenere i dati di mercato aggiornati e calcolare gli indicatori chiave . In seguito ha generato altri script Python per eseguire simulazioni Monte Carlo (10.000 iterazioni) e modellare scenari di evoluzione del mercato, integrando infine questi risultati nel report .

Tutto questo avviene senza che l’utente debba richiedere esplicitamente ogni passo: Manus decide da solo quali moduli sviluppare in codice per raggiungere l’obiettivo finale. La capacità di debug fa parte del ciclo: i sub-agenti di Manus comunicano tra loro, quindi se il codice inizialmente non funziona o necessita di modifiche, l’agente può ricalibrare e correggere errori prima di procedere, il tutto visibile poi nella replay. La trasparenza infatti è un plus: grazie al replay, uno sviluppatore può vedere ogni riga di codice che Manus ha scritto e come l’ha eventualmente modificata dopo i test , facilitando il refactoring o l’apprendimento di soluzioni. In sintesi, Perplexity Labs offre un solido aiuto assistivo alla programmazione (scrive codice su richiesta e lascia all’utente supervisione), mentre Manus si comporta più da sviluppatore autonomo, in grado di prendere in carico un progetto software end-to-end (nel limite della complessità supportata) e restituire direttamente il prodotto finito.

Analisi e reportistica

Perplexity Pro Labs: La natura stessa di Labs è di produrre deliverable completi a partire da una richiesta complessa. Perplexity Labs può infatti generare report dettagliati, documenti di analisi, tabelle comparative, grafici e persino dashboard interattivi, a seconda di cosa viene richiesto . Ad esempio, in ambito business, Labs può analizzare le finanze di un’azienda e restituire un rapporto con grafici e osservazioni; in ambito personale, può confrontare decine di proprietà immobiliari e presentare una tabella comparativa con punteggi e criteri, il tutto contornato da spiegazioni testuali. Un punto di forza è che ogni output è sostenuto da ricerca accurata: Perplexity include nelle sue risposte riferimenti alle fonti, garantendo che ogni dato o affermazione chiave sia verificabile .

Durante i 10+ minuti di esecuzione, Labs potrebbe ad esempio trovare statistiche su siti governativi, articoli di settore e recensioni, e amalgamare queste informazioni in un resoconto coerente. I risultati possono assumere vari formati: oltre al testo in prosa (es. un documento stile relazione), Labs può incorporare visualizzazioni (grafici generati dal codice, mappe, immagini create dall’AI) direttamente nell’output . Può anche generare fogli di calcolo o file CSV con i dati strutturati trovati, che l’utente può scaricare per ulteriore analisi . Una caratteristica notevole è la possibilità di creare mini-siti o app: ad esempio, se il progetto lo richiede, Perplexity può presentare i risultati sotto forma di una pagina web navigabile (ospitata nell’interfaccia Labs stessa) con grafici interattivi o una piccola web app dimostrativa . In ogni caso, l’utente può al termine esportare il risultato del Lab (in Markdown, PDF, etc.) per incorporarlo in presentazioni o documenti aziendali . Perplexity Labs, in sostanza, automatizza la creazione di report: consente di passare da una lista di domande o obiettivi a un documento finale pronto all’uso (es. un report di ricerca completo di dati e fonti, o un dashboard esplorabile), il tutto con una sola prompt iniziale.

Manus: Anche Manus è estremamente orientato al risultato finale e brilla nella generazione di analisi approfondite e report personalizzati. Grazie al suo approccio agentico, è in grado di restituire output articolati e pronti all’uso senza bisogno di ulteriori refining da parte dell’utente. Ad esempio, Manus può condurre ricerche di mercato in un dato settore e consegnare un documento finale con tutti i risultati: nel caso di studio sull’industria dell’abbigliamento, Manus ha prodotto un’analisi completa dei prodotti AI per il retail, includendo posizionamento competitivo e considerazioni strategiche . Un altro esempio è la comparazione di polizze assicurative: Manus ha generato una tabella comparativa chiara e strutturata con tutte le informazioni chiave delle varie opzioni, evidenziando raccomandazioni ottimali in base alle esigenze fornite . Questo non solo implica raccogliere i dati (massimali, premi, condizioni) ma anche presentarli in modo sintetico e visualmente pulito, cosa che l’agente fa autonomamente.

Manus eccelle anche nel data analysis su dati forniti dall’utente: caricando, ad esempio, i dati di vendita di un negozio online, Manus ha prodotto visualizzazioni dettagliate (grafici, trend) e strategie personalizzate per migliorare la performance, come un consulente umano farebbe . È in grado di fornire multi-formato: può contemporaneamente restituire un file CSV/Excel con i dati elaborati e un documento testuale con spiegazioni e conclusioni . In alcuni casi, Manus può addirittura generare presentazioni: proprio il 29 maggio 2025 (in concomitanza con l’uscita di Perplexity Labs) Manus ha lanciato uno strumento per creare slide deck automaticamente a partire da un prompt, segno che punta a coprire anche la sfera delle presentazioni oltre ai report testuali . Un aspetto distintivo è che Manus spesso consegna i risultati sotto forma di sito web interattivo ospitato sul suo cloud (con dominio manus.space): ad esempio, per l’analisi dell’S&P 500 di cui sopra, l’output era un sito con diverse sezioni (scenario “Mild”, “Extreme” ecc., ognuna con grafici e testi) navigabile dall’utente . Ciò rende molto fruibili le analisi complesse, perché l’utente può esplorarle come un mini-portale informativo. Manus fornisce reportistica e analisi “chiavi in mano”: l’utente definisce l’obiettivo e l’agente restituisce direttamente il prodotto finito (sia esso un documento, un sito, una tabella), coprendo tutto il processo intermedio di ricerca, calcolo e redazione. La qualità di queste produzioni è generalmente alta, anche se, come ammesso in alcune recensioni, a volte può non centrare al 100% tutte le richieste o contenere piccole imprecisioni, essendo tecnologia ai limiti dello stato dell’arte . Con iterazioni e miglioramenti continui (Manus è ancora in beta nel 2025), ci si aspetta che tali output diventino sempre più precisi e completi, posizionando Manus come uno strumento di reportistica automatizzata di livello professionale.

Architettura tecnica e integrazioni

Architettura e Modelli AI: Dal punto di vista tecnico, Perplexity Pro Labs e Manus seguono approcci architetturali differenti. Perplexity Labs si appoggia a un singolo grande modello linguistico per orchestrare le operazioni, integrando però una serie di strumenti esterni. In pratica, il “cervello” è un LLM avanzato (Perplexity utilizza modelli OpenAI: gli utenti Pro possono scegliere GPT-4 per la massima qualità di risposta , mentre per default o per compiti leggeri può impiegare modelli più economici). Questo LLM viene arricchito con funzioni di tool use: quando serve, il modello chiama un modulo di web search (per effettuare query online in tempo reale) e un modulo di esecuzione codice (per far girare script Python, generare grafici, ecc.).

Il flusso di un Labs quindi è orchestrato sequenzialmente da un unico agente AI che alterna “pensiero” e “azioni” (analogamente a come ChatGPT Plugins o la Code Interpreter di OpenAI eseguono passi su richiesta del modello). Per migliorare le prestazioni, Perplexity ha integrato diversi modelli specializzati nel suo stack: ad esempio, per generare codice di alta qualità utilizza modelli open-source come Code Llama e Mistral, oltre a propri mix (il citato Mixtral 8x7B è un ensemble di 8 modelli da 7 miliardi di parametri ciascuno) .

Questi modelli vengono usati dietro le quinte in base al task (es: uno specialista per il codice, uno per la visione come Llava per immagini, ecc., secondo quanto riportato nelle analisi tecniche) . Manus, invece, è costruito nativamente con un’architettura multi-agente distribuita . Significa che al suo interno esistono diversi agenti specializzati (ognuno probabilmente un LLM distinto o una istanza specializzata dello stesso core) con ruoli differenti: ad es. un agente Planner che suddivide il problema, uno Researcher che esegue ricerche web, uno Coder che scrive codice, ecc. . Questi sub-agent lavorano in parallelo e comunicano tra loro, coordinati da un orchestratore, per convergere sul risultato finale . Questo design parallelo spiega la velocità e capacità di Manus nel gestire compiti complessi: invece di un solo flusso lineare, può pensare a più aspetti contemporaneamente. Riguardo ai modelli linguistici impiegati, Manus ha adottato un approccio ibrido: originariamente i suoi creatori (un team di Shenzhen, Cina) hanno sfruttato modelli open-source cinesi come Qwen (di Alibaba) opportunamente raffinati, insieme ad altri modelli proprietari, creando un motore personalizzato . Successivamente, a marzo 2025, Manus ha annunciato l’upgrade del suo modello principale passando a Anthropic Claude (versione 3.7 “Sonnet”) come backbone delle capacità linguistiche . Claude è un LLM di fascia GPT-4, noto per la capacità di gestire contesti lunghi e ragionamenti complessi, il che ha probabilmente migliorato ulteriormente la comprensione e coerenza di Manus. In breve, Perplexity Labs poggia su un LLM centrale con strumenti, mentre Manus utilizza una swarm di agenti AI, con un core in evoluzione (ora Claude) coadiuvato da modelli secondari. Questo fa sì che Manus sia intrinsecamente più autonomo e “intelligente” nella pianificazione (può auto-assegnarsi subtasks tramite i sub-agents), laddove Perplexity mantiene un comportamento più guidato (segue le istruzioni in serie, lasciando comunque spazio all’interazione utente durante il processo) .

API, plugin ed estensioni: Perplexity e Manus differiscono anche nelle opportunità di integrazione in ecosistemi esterni. Perplexity mette a disposizione degli sviluppatori un’API (Sonar) che consente di sfruttare il suo motore di risposta AI in applicazioni e servizi di terze parti . Tramite l’API, è possibile inviare query a Perplexity (con ricerca web annessa) e ottenere risposte con citazioni, il che risulta utile per arricchire app con funzionalità di Q&A basate su conoscenza aggiornata. Inoltre, Perplexity offre estensioni e applicazioni per un utilizzo più fluido: esiste ad esempio un browser extension “Search Companion” per Chrome/Edge che permette di interrogare Perplexity direttamente mentre si naviga sul web, e la piattaforma sta sviluppando un proprio browser AI (nome in codice Comet) integrato con le capacità di answer engine .

Sul fronte aziendale, Perplexity Enterprise prevede connettori per app (Google Drive, SharePoint, Dropbox, ecc.) che sincronizzano file nell’ambito delle Spaces , cosicché l’AI possa consultarli, una sorta di plugin nativo per fonti dati private. Manus, essendo ancora in beta privata nel 2025, non offre pubblicamente un’API al di fuori della sua applicazione proprietaria. Dunque gli utenti devono usare l’interfaccia Manus (web o app) per interagire con l’agente. Recentemente Manus ha lanciato un’app mobile iOS , segno dell’interesse a fornire accesso ubiquo al servizio, ma al momento manca un SDK/API per integrazione diretta in altri software. Va detto però che Manus, per come è concepito, può esso stesso fungere da integratore: tramite il suo agente browser e la capacità di eseguire codice, può interfacciarsi con servizi esterni durante i task. Ad esempio, nulla vieta di istruire Manus a “usare l’API di un certo servizio X”, e lui lo farà scrivendo il codice appropriato in Python e chiamandolo .

In tal senso, Manus interagisce con l’ecosistema esterno in modo indiretto, attraverso le sue azioni, piuttosto che offrire un hook ufficiale agli sviluppatori. Dal punto di vista di plugin/estensioni ufficiali, al 2025 Manus non ne ha (è un sistema standalone), ma la community ha già iniziato a esplorare implementazioni open-source (“Open Manus”) e la società ha indicato l’intenzione di open-sourcare parti del progetto in futuro . Ciò potrebbe portare a integrazioni più strette o addirittura a versioni self-hosted di Manus. In definitiva, Perplexity è più aperto all’integrazione esterna fin da ora (API, estensioni, enterprise connectors), mentre Manus per il momento è più chiuso ma promette evoluzioni in tal senso man mano che maturerà e uscirà dalla beta.

Tabella comparativa

Aspetto

Perplexity Pro Labs

Manus

Approccio alla ricerca

Motore di ricerca AI con risposte fondate su fonti: l’LLM interroga il web e fornisce spiegazioni corredate di citazioni . Esegue “Deep Research” in pochi minuti per risposte approfondite, poi Labs investe ~10+ minuti per progetti completi .

Agente AI autonomo multi-step: prende un obiettivo e orchestra sub-agent per cercare info su news, database, forum, ecc., riassumendo in background senza bisogno di prompt successivi . Niente citazioni formali nell’output finale, ma log delle azioni visibile (browser, passi eseguiti) per trasparenza .

Fonti e aggiornamento

Usa fonti in tempo reale dal web (es. articoli accademici, siti autorevoli) e le combina nelle risposte . Aggiorna continuamente le informazioni grazie al browsing integrato, superando il limite del training data statico .

Naviga il web come un utente: può visitare siti, query su motori, leggere social e usare API (es. chiamate a servizi online) durante l’esecuzione . Ottiene quindi dati aggiornati all’ultimo minuto. L’output però è focalizzato sul risultato, senza elenco fonti, simulando un report redatto dall’agente stesso.

Profondità delle risposte

Labs fornisce analisi dettagliate su qualunque argomento: la modalità Research risponde in 3-5 min a domande complesse , Labs arriva a svolgere ricerche di ~30 min se necessario, producendo risposte di elevata completezza . Ogni risposta è supportata da spiegazioni e dati verificati.

Estremamente esaustivo: Manus scompone problemi complessi in sottocompiti e li risolve tutti (ricerca storica, analisi dati, confronti). Può dedicare decine di minuti (15-60+) a un singolo progetto , fornendo risultati articolati (es. scenari multipli, approfondimenti storici, statistiche simulate) spesso paragonabili al lavoro di un team umano .

Gestione dei contenuti

Spaces per organizzare e conservare conoscenze: è possibile raggruppare thread per progetto e caricare documenti personali (PDF, CSV, ecc.) come riferimento persistente . I thread rimangono salvati e ricercabili, ed esportabili in vari formati . Supporta collaborazione multi-utente nelle Spaces condivise .

Replay delle sessioni invece di spazi statici: ogni task svolto può essere rivisto passo-passo e condiviso . Non offre storage permanente multi-task né organizzazione in cartelle, essendo orientato a esecuzioni isolate (in beta). Accetta file in input per il singolo task (es. dataset da analizzare) e adatta la propria knowledge interna ai feedback durante l’esecuzione .

Supporto alla programmazione

LLM integrato con tool di coding: Labs può generare ed eseguire codice (tipicamente Python) per svolgere calcoli, trasformare dati o creare output come grafici e documenti . Può anche realizzare mini-siti web (HTML/CSS/JS) visibili nell’App tab . Tutto il codice prodotto e i file (CSV, immagini) vengono salvati nell’Assets tab per ispezione .

Sub-agente coder dedicato: Manus scrive, testa e debugga codice autonomamente in diversi linguaggi (Python, JS, ecc.) . Può costruire applicazioni complete (es. generare frontend + backend per un web tool) come parte del task . Utilizza codice per accedere a dati live (chiamando API, eseguendo simulazioni) e corregge gli errori iterativamente, senza intervento umano .

Output generabili

Report, fogli di calcolo, grafici, dashboard, siti web semplici: Labs produce deliverable completi pronti all’uso . Esempi: relazione testuale con citazioni, tabella comparativa di risultati, presentazione di dati con grafici generati dall’AI. Può outputtare file (PDF, CSV, immagini) e perfino app interattive di base integrate nell’interfaccia .

Report multi-sezione, tabelle strutturate, siti web interattivi, slide: Manus consegna il risultato nel formato più adatto al compito. Esempi: un sito web con pannelli interattivi per visualizzare scenari di analisi , un file Excel/CSV con dati elaborati e un documento con raccomandazioni , oppure una serie di slide informative. I risultati tendono ad essere altamente strutturati e personalizzati sulle richieste utente.

Architettura AI

Single-agent con strumenti: un unico LLM (OpenAI GPT-3.5/4 o modelli proprietari Perplexity) gestisce il dialogo e decide quando usare strumenti (ricerca web, esecuzione codice). Sfrutta modelli specializzati (es. Code Llama, Mixtral MoE) per migliorare le prestazioni su compiti specifici . Approccio guidato: esecuzione sequenziale con possibilità di intervento utente durante il Labs .

Multi-agent parallelo: architettura con più agenti LLM specializzati (planner, researcher, coder, ecc.) che cooperano in parallelo per portare a termine il task . Orchestrazione autonoma senza bisogno di supervisione esterna. Inizialmente basato su modelli open-source raffinati (es. Qwen di Alibaba) , poi aggiornato con Claude di Anthropic come modello principale (contesto esteso, alta capacità di ragionamento) .

API e integrazioni

Dispone di API pubblica (Sonar) per integrare le risposte di Perplexity in app di terze parti . Offre un browser plugin/estensione per query rapide e sta sviluppando un browser proprio (Comet) . In ambito enterprise, si integra con servizi cloud (Google Drive, Dropbox…) per knowledge base interne .

Nessuna API pubblica (beta privata): accesso solo via app web o iOS ufficiale . Nessun plugin esterno al 2025. Manus può interagire con servizi esterni durante i task usando browser e codice (es. login su siti, utilizzo di API) . Prevista apertura parziale del framework a community/open-source in futuro .

Disponibilità e prezzi

Disponibile per utenti Pro (a pagamento). Costo: 20 $/mese (Perplexity Pro) , che include Labs oltre a ricerche illimitate. Labs è limitato a 50 esecuzioni al mese per utente Pro (conteggiando anche i follow-up) . App fruibile via web, iOS, Android e presto desktop .

In beta ad invito fino a Q1-Q2 2025; ha introdotto piani a pagamento a fine marzo 2025. Starter: 39 $/mese per 3.900 crediti (circa 10 crediti per minuto di esecuzione) , Pro: 199 $/mese per 19.900 crediti, con più task in parallelo e priorità . Nessun limite “hard” di tempo per task (può durare fino a quasi 1 ora se necessario).

Quindi , c’è uno meglio dell’altro?

No. Secondo me, o almeno dipende. Dopo settimane di utilizzo intensivo e comparato, posso dire che sia Manus che Perplexity Labs stanno ridefinendo in modo concreto il concetto di assistenza AI. Manus è impressionante per la sua autonomia e capacità di orchestrare compiti complessi come un team strutturato; Perplexity Labs, invece, eccelle nella ricerca strutturata e nella costruzione di risposte documentate, affidabili e pronte all’uso.

Nessuno dei due sostituisce gli altri strumenti che utilizzo, come ChatGPT Pro e Claude, ma entrambi li affiancano con ruoli precisi all’interno del mio workflow. È questo, credo, il punto chiave: non cercare l’AI migliore in assoluto, ma costruire un ecosistema su misura in cui ogni strumento potenzia una specifica parte del lavoro.

Certo, costicchia questo ecosistema eh…

System Thinking nell’era del comportamento intelligente

The Shift in Focus

Dalla progettazione delle interfacce alla progettazione delle condizioni

Il design sta attraversando un cambiamento di paradigma profondo: ci stiamo spostando dalla creazione di interfacce rigidamente predeterminate alla progettazione di sistemi adattivi, capaci di apprendere, evolvere e mostrare comportamenti emergenti. In un mondo di prodotti digitali guidati dall’AI, i designer non possono più specificare ogni risultato in anticipo: “non possiamo progettare per risultati assoluti. Dobbiamo progettare per l’emergenza”. Questo spostamento è alimentato dalla crescita dell’intelligenza artificiale e del machine learning, che infondono nei prodotti un comportamento intelligente e imprevedibile. Sistemi generativi come ChatGPT, ad esempio, hanno raggiunto oltre 100 milioni di utenti nei primi due mesi dal lancio, portando l’interazione con l’AI nella quotidianità. Una diffusione così rapida segnala che progettare per sistemi intelligenti e non deterministici non è più un tema sperimentale o marginale.

La posta in gioco è alta: oggi è essenziale per designer e innovatori accettare l’incertezza e passare da un approccio orientato al controllo a uno orientato all’orchestrazione. Non si tratta più di disegnare ogni passaggio dell’esperienza, ma di creare le condizioni per esperienze adattive, personalizzate e in evoluzione.

Perché tutto questo è così rilevante proprio ora? Perché il comportamento intelligente è ovunque: nelle app che usiamo, nei servizi che ci supportano, perfino negli oggetti connessi delle nostre case. Secondo i dati del 2024, il 72% delle aziende dichiara di utilizzare l’AI in almeno una funzione. Gartner prevede che l’85% delle interazioni clienti entro il 2025 sarà gestito senza intervento umano. Ciò significa che le esperienze utente sono sempre più modellate da algoritmi che apprendono dai dati e rispondono in tempo reale. I prodotti iniziano a comportarsi non più come strumenti statici, ma come sistemi vivi, in grado di adattarsi continuamente al contesto. Il focus del design cambia di conseguenza: il compito diventa guidare questi sistemi viventi, definendo regole, vincoli e obiettivi capaci di orientare i comportamenti emergenti verso risultati desiderabili.

Questa evoluzione arriva in un momento chiave: il comportamento intelligente dei sistemi abilitati dall’AI apre nuove possibilità e sfide. I designer che ne comprendono il senso sono in grado di trasformare l’imprevedibilità in una risorsa: per stimolare creatività, personalizzazione, intelligenza contestuale. In sintesi, progettare per l’emergenza è oggi una competenza centrale per chi costruisce la nuova generazione di prodotti e servizi digitali.

 

Understanding the Shift

Capire il cambiamento: perché progettare per l’emergenza adesso

Il movimento verso un design emergente non è nato all’improvviso: è il frutto della convergenza di trend tecnologici e bisogni urgenti che designer e strategist non possono più ignorare.

Il primo elemento è la crescente complessità dei prodotti digitali. Le esperienze digitali moderne si estendono su ecosistemi vasti di dati, utenti e algoritmi, in cui “tutto è connesso a tutto il resto”. Una modifica in una parte del sistema può produrre effetti imprevisti altrove. Gli approcci lineari tradizionali faticano a gestire questa rete di interdipendenze. Al loro posto si sta diffondendo una mentalità system thinking: i designer imparano a considerare il sistema nella sua totalità, non solo schermate isolate o feature singole. Come ha affermato un design lead, pensare in modo sistemico significa riconoscere che ogni elemento che progettiamo è connesso a un altro: modificandone uno, influenziamo tutto il sistema. Questo richiede capacità di anticipare relazioni, retroazioni e conseguenze: una competenza cruciale quando si lavora con l’AI, il cui comportamento è emergente e modellato da logiche complesse, non da regole fisse.

In secondo luogo, è la natura stessa dell’AI a richiedere un nuovo approccio. L’AI è intrinsecamente non deterministica: può generare output diversi anche a parità di input, a causa di processi probabilistici e meccanismi di apprendimento. Come ha scritto Cheryl Platz, “l’AI è per sua natura imprevedibile, e le tecniche di product design che abbiamo sviluppato in passato presupponevano esiti controllabili e prevedibili”. Questo mismatch ha già prodotto casi problematici, da chatbot incontrollabili a bias algoritmici dannosi. In alcuni casi, la mancata anticipazione di comportamenti atipici dell’AI ha persino contribuito a conseguenze tragiche (come nei casi di fallimento di sistemi autonomi in ambiti critici). Questi episodi sottolineano che i manuali di design tradizionali non bastano più.

Progettare per l’emergenza è, prima di tutto, una risposta concreta a queste sfide. Significa accettare che non possiamo prevedere ogni scenario, e quindi dobbiamo progettare cornici flessibili e meccanismi di sicurezza che consentano ai sistemi AI di esplorare lo spazio delle soluzioni, restando nei limiti desiderabili. I dati confermano l’urgenza: l’uso dell’AI generativa cresce a ritmi vertiginosi, con molte aziende che integrano queste tecnologie nei prodotti. Ma le preoccupazioni restano: conseguenze inattese, errori, distorsioni e problemi di sicurezza richiedono una progettazione più attenta, responsabile e reattiva.

Infine, c’è un fattore umano. Le aspettative degli utenti sono in evoluzione: vogliono esperienze personalizzate, contestuali e intelligenti – esattamente ciò che solo i sistemi adattivi e AI-driven possono offrire. Ormai ci aspettiamo feed che si adattano a noi, assistenti vocali che apprendono preferenze, suggerimenti sempre più su misura. Ma quando queste esperienze falliscono, la frustrazione cresce. La fiducia diventa un elemento centrale: dobbiamo fidarci di sistemi che si comportano in modo leggermente diverso ogni volta.

Per questo, i designer stanno spostando il focus su trasparenza, feedback e segnali di affidabilità nell’interfaccia: ad esempio, mostrare quando l’AI è incerta, offrire spiegazioni sulle decisioni. Questo insieme di nuove priorità progettuali – pensiero sistemico, apertura all’incertezza, focus sulla fiducia – è la risposta concreta del design alla scossa sismica provocata dall’intelligenza artificiale.

Come ha dichiarato un report recente: “Quella dell’AI non è solo un’ondata di innovazione, è una vera rivoluzione. E non se ne andrà più”. Capire questo shift significa leggere con lucidità i segnali del contesto: o il design si adatta a un mondo guidato da comportamenti emergenti, o rischia di diventare irrilevante davanti a prodotti che, letteralmente, iniziano ad avere una mente propria.

 

The Core

Architetture, ruoli e impatto sulla progettazione

Al cuore di “Designing for Emergence” c’è un cambiamento radicale nel modo in cui concepiamo la progettazione delle esperienze. Invece di specificare soluzioni definitive, oggi i designer progettano le condizioni affinché le soluzioni possano emergere. In pratica, significa concentrarsi su regole, vincoli e contesto piuttosto che su esiti fissi.

Un classico esempio arriva dalla natura: uno stormo di uccelli in volo non ha un leader, eppure si muove in modo sorprendentemente coordinato. Ogni individuo segue poche semplici regole (mantenere la distanza, allinearsi ai vicini), e da queste interazioni nasce un comportamento collettivo emergente. I designer stanno traendo ispirazione proprio da sistemi come questi. In un esperimento, un gruppo di studenti di design ha scritto regole base di interazione per un esercizio collettivo: quando i partecipanti hanno seguito quelle istruzioni, il comportamento risultante non è stato quello previsto dai progettisti. Una scoperta illuminante: il design dell’interazione non riguarda solo lo schermo, ma anche il modo in cui le persone interagiscono tra loro e con l’ambiente. Piccole modifiche nelle regole iniziali generavano risultati completamente diversi – proprio come piccoli cambi in un algoritmo AI o nel dataset possono alterare significativamente il comportamento di un prodotto.

Il messaggio è chiaro: i designer devono sentirsi a proprio agio con l’iterazione, l’adattamento e la sorpresa. Progettare per l’emergenza significa “creare spazio per molteplici possibilità, anche imprevedibili o apparentemente impossibili”. Il nostro ruolo cambia: non stiamo più cercando di imporre un’esperienza fissa, ma di orchestrare un insieme di esperienze possibili, guidando il sistema con principi progettuali capaci di mantenere i risultati entro limiti desiderabili.

Uno dei framework teorici che supporta questo approccio è il pensiero sistemico, arricchito dalle lezioni provenienti dalla scienza della complessità. Pensatori come Donella Meadows e Russell Ackoff hanno spiegato già decenni fa che nei sistemi complessi, non influenziamo i risultati controllandoli direttamente, ma modificando leve e vincoli del sistema. I team di prodotto più avanzati stanno applicando questo concetto: stabiliscono vincoli abilitanti (enabling constraints) che fungono da guida, permettendo al contempo libertà e creatività entro limiti sicuri. Come ha scritto il teorico del design Jabe Bloom, “i principi di design possono agire come vincoli abilitanti fondamentali, che modellano e raffinano l’interazione tra elementi di un sistema dinamico”.

Tradotto in termini pratici: impostiamo regole (ad esempio, un filtro AI che blocca output estremi, o un framework di tono che mantiene coerente la personalità di un chatbot) e lasciamo che il sistema operi liberamente entro quei confini. Questo approccio è molto diverso dal design prescrittivo tradizionale, dove si cerca di prevedere ogni possibile azione dell’utente. Nei sistemi AI-driven, scrivere ogni passo è impossibile: il sistema impara e cambia nel tempo. Per questo, oggi progettiamo l’impalcatura del comportamento, non il comportamento stesso.

Ad esempio, una piattaforma con AI può includere funzioni di rinforzo o loop di feedback che spingono l’intelligenza verso comportamenti desiderabili. Anche qui, si progetta l’incentivo piuttosto che l’esito. A questo si aggiungono meccanismi di supervisione, come i checkpoint human-in-the-loop (dove un umano può intervenire) o modelli di autonomia vincolata, che consentono all’AI di decidere solo entro certi limiti di rischio. Le ricerche confermano che trovare il punto d’equilibrio tra autonomia e controllo è cruciale: “gli agenti troppo rigidi faticano con input inediti; quelli troppo liberi rischiano comportamenti imprevedibili”. Le soluzioni ibride – regole rigide per le decisioni critiche, AI flessibile per il resto – stanno emergendo come best practice.

Un altro aspetto centrale è il design degli agenti AI – sistemi dotati di una certa autonomia e proattività. Quando si progettano agenti intelligenti, non consideriamo solo le interazioni con l’utente, ma anche il modo in cui l’AI prende decisioni. Serve una mentalità simile all’insegnamento o all’allenamento: definiamo gli obiettivi, i limiti etici, le azioni possibili – proprio come si stabilirebbero le regole di un gioco.

Il nodo critico è l’alignment problem: l’AI potrebbe trovare scorciatoie impreviste per raggiungere un obiettivo. Per evitarlo, designer e data scientist simulano scenari, testano comportamenti potenziali, progettano safeguard. Ad esempio, in un generatore di immagini AI, si possono inserire filtri sui contenuti (vincoli statici) e feedback dagli utenti (loop dinamico), in modo che il sistema apprenda anche norme sociali.

Così facendo, il design si estende oltre l’interfaccia: include la progettazione del comportamento del modello, la selezione dei dati, il tuning continuo. Come ha detto la ricercatrice Claudia Canales, “il futuro del design non riguarda solo gli schermi, ma la progettazione dell’intelligenza che alimenta le nostre esperienze digitali”. I designer collaborano con ingegneri AI per regolare i parametri, scrivere template di prompt, progettare fallback quando l’AI è incerta. Emergono nuovi strumenti e metodi: pattern di design AI, checklist contro hallucination o bias, framework per agenti affidabili e comprensibili. Un recente lavoro propone persino un “linguaggio dei pattern per l’AI agentica”: un set di modelli riutilizzabili che aiutano a garantire coerenza e robustezza nei sistemi emergenti.

Tutto ciò sottolinea il vero cambio di mindset: progettare per l’emergenza significa progettare un sistema che, in parte, si progetta da solo. Non costruiamo più soluzioni fisse, ma strutture che generano molte soluzioni, e contesti che guidano il sistema verso risultati coerenti con i bisogni umani.

 

The Broader Shift

Implicazioni culturali e strategiche del design emergente

Questo nuovo paradigma progettuale ha implicazioni che vanno ben oltre il singolo prodotto. Sia dal punto di vista culturale che operativo, sta ridefinendo che cosa significa essere designer, innovatori o strategist nell’era digitale.

Un primo grande cambiamento riguarda il ruolo stesso del designer: ci stiamo spostando dall’essere “creatori” di artefatti al diventare facilitatori e curatori di risultati. Andy Budd lo ha espresso bene: “l’AI sta trasformando il design, spostando i designer da creatori operativi a curatori strategici”. Le attività ripetitive (mockup pixel perfect, varianti illimitate di layout) sono sempre più automatizzate da strumenti intelligenti, liberando i designer per decisioni di livello più alto: definire regole, vincoli e qualità desiderate dell’esperienza. In pratica, il designer assume il ruolo di orchestratore del sistema. Imposta le condizioni iniziali e osserva come il sistema evolve nel tempo, intervenendo per raffinarlo.

Questa trasformazione richiede nuove competenze: capacità di analizzare i dati per comprendere come interagiscono utenti e AI, padronanza della sperimentazione rapida, e abilità di lavorare in team interdisciplinari. Il lavoro del designer si sovrappone sempre più a quello di product manager, data scientist e persino eticisti. I team si trovano ad affrontare domande che riguardano non solo la progettazione visiva ma anche la policy e la filosofia: la nostra AI dovrebbe fare questo? Come affronta un caso limite in modo etico? Tutto questo impone ai designer di ampliare le proprie conoscenze: etica, sociologia, sistemi adattivi complessi. Perché progettare un sistema AI significa intervenire in dinamiche umane e tecnologiche.

Stiamo assistendo anche a un cambiamento nei riferimenti teorici che guidano la progettazione. Il design tradizionale si basava su psicologia cognitiva ed estetica. Ora stanno entrando nel toolkit dei designer la cibernetica, l’ecologia e le scienze dei sistemi. Concetti come loop di feedback, auto-organizzazione ed emergenza (prima dominio di ingegneri e scienziati) sono oggi linguaggio comune nei team di progetto.

Pensatori come Ross Ashby tornano attuali: la sua Legge della Varietà Requisita afferma che “un sistema di controllo deve essere tanto vario quanto il sistema che vuole controllare” – un principio chiave per governare l’AI: serve una strategia progettuale tanto adattiva quanto l’AI che vogliamo guidare.

Visionari come John Seely Brown e Ann Pendleton-Jullian offrono una base culturale solida per questo nuovo mindset. Descrivono il nostro mondo come un “white water world”, rapido e turbolento, dove la causalità è sistemica, intrecciata, mutevole e sfuggente – e la pianificazione lineare non funziona più. Nel loro manifesto Design Unbound sostengono che i designer devono abbracciare la complessità ed equipaggiarsi con strumenti tratti dalle scienze dei sistemi e dalla teoria delle reti.

Nella loro visione, il design non è più creazione di oggetti statici, ma progettazione di contesti: condizioni e regole che permettono ai sistemi dinamici di evolversi. Per chi ha imparato a disegnare interfacce, è un cambio culturale profondo: significa passare dalla forma all’intervento strategico.

Stanno emergendo anche approcci come il systemic design, che unisce design thinking a strumenti sistemici come mapping, analisi degli stakeholder e identificazione di punti leva (ispirati a Donella Meadows). Un recente report internazionale ha confermato che “il design oggi si espande e coinvolge temi come tecnologia, potere, cultura, clima, economia, equità di genere e razza”. Sono tutte questioni sistemiche. Progettare per l’emergenza è una risposta naturale a queste sfide: prepara i team a lavorare con situazioni aperte, dinamiche e non completamente prevedibili (pensiamo a smart cities, piattaforme per il clima, social network globali).

Per innovatori e strategist, questo significa rivedere processi, metriche e governance. Come si fa roadmap per un prodotto in cui alcune feature emergeranno attraverso l’apprendimento dell’AI? Come si testa qualitativamente qualcosa che non si comporta mai due volte allo stesso modo?

Le organizzazioni più evolute adottano workflow sperimentali e iterativi. Si diffondono simulazioni e test in sandbox: prima di rilasciare un sistema AI, lo si stressa con migliaia di scenari in ambiente virtuale. Cultura e processi spingono verso team cross-funzionali, in cui designer, tecnologi e specialisti di dominio co-progettano. Perché l’emergenza si genera spesso nell’interazione tra domini (tecnico, umano, sociale).

L’etica diventa centrale. Quando un’AI può evolvere nel tempo, garantire che resti allineata ai valori umani non può essere un controllo una tantum: è un processo continuo. Le aziende più mature creano board etiche e integrano da subito principi di responsible AI. Alcuni framework descrivono tre sfide fondamentali da affrontare nel progettare agenti AI: ambiente complesso, equilibrio autonomia-controllo, comportamento sicuro e etico. Ognuna di queste ha ricadute culturali e organizzative. Ad esempio, garantire l’etica dell’AI potrebbe richiedere di coinvolgere filosofi, giuristi o psicologi nella progettazione: uno scenario impensabile nella UX tradizionale.

Il quadro generale è chiaro: il design sta diventando più inclusivo, interdisciplinare, e sistemico. I problemi che affrontiamo oggi sono tanto tecnici quanto profondamente umani. E la progettazione per l’emergenza è lo strumento che ci permette di navigarli con consapevolezza, responsabilità e visione a lungo termine.

 

What’s Next

Scenari futuri e sfide nella progettazione per l’emergenza

Guardando avanti, emergono diversi scenari e sfide affascinanti all’orizzonte della progettazione e dell’intelligenza artificiale. Una delle evoluzioni più significative è la nascita di sistemi davvero autonomi e agentici. Gli assistenti AI di oggi (dai bot di customer service ai trader algoritmici) sono ancora per lo più vincolati a compiti circoscritti. La prossima generazione, invece, punta a sistemi più generici, adattivi e auto-diretti: agenti in grado di navigare il web per raggiungere obiettivi, o coordinarsi con altri agenti per risolvere problemi complessi. Progettare per questa autonomia sarà una sfida cruciale. Come isolare agenti così, per evitare che escano dai limiti previsti? Come rendere trasparente la loro presenza agli utenti per mantenere la fiducia? Probabilmente creeremo ambienti simulati o veri e propri “playground digitali” dove addestrare e testare gli agenti in sicurezza prima di rilasciarli nel mondo reale. Tecniche come la simulazione multi-agente – in cui più agenti interagiscono in un contesto virtuale – sono già utilizzate per osservare comportamenti emergenti inattesi: potrebbero diventare pratica standard nei team AI-oriented.

Un altro ambito da osservare è l’unione tra creatività umana e AI nella progettazione. Se l’AI diventa co-creatrice, allora anche il processo di design diventa emergente. Gli strumenti generativi già oggi producono migliaia di varianti progettuali a partire da pochi parametri, lasciando al designer il compito di selezionare e rifinire: un po’ come un giardiniere che pota e guida la crescita.

Questo rovescia il flusso tradizionale e solleva nuove domande: i designer dovranno sviluppare intuito e sensibilità per guidare l’AI (es. nel prompt design e nella definizione dei vincoli), invece di costruire direttamente l’output finale? Come garantire che i contributi dell’AI siano coerenti con i valori umani e l’identità del brand?

Alcune aziende stanno già sperimentando sistemi AI pair-designer: agenti che affiancano il designer umano e propongono suggerimenti in tempo reale. Il passo successivo potrebbe essere un’AI che conduce in autonomia ricerche utente o test di usabilità, simulando l’interazione di milioni di utenti virtuali con un nuovo feature. Il designer potrebbe ottenere in pochi minuti un feedback su pattern emergenti o problemi latenti che non sarebbero emersi con test manuali tradizionali. Questa insight generation iper-scalabile, alimentata da AI, potrebbe accelerare drasticamente il ciclo di iterazione, ma richiede al designer di saper leggere, interpretare e reagire a una mole enorme di dati.

Sul fronte strategico, la policy e la governance diventeranno elementi essenziali della progettazione. Ci si attende una maggiore attenzione normativa al comportamento dell’AI (trasparenza, controllo umano, spiegabilità). I designer dovranno tradurre principi astratti (come equità, responsabilità, inclusività) in requisiti concreti di progetto: in pratica, dovranno codificare i valori della società nei “parametri” che regolano i sistemi intelligenti.

Nei prossimi anni potremmo vedere la nascita di framework standard per la governance dell’AI, analoghi a quanto oggi esiste per l’accessibilità. Modelli come le model card (documenti che spiegano come un modello AI funziona e dove può fallire) o strumenti di audit (che esaminano output dell’AI alla ricerca di bias o anomalie) diventeranno parte integrante della cassetta degli attrezzi dei team di prodotto. In questo contesto, progettare per l’emergenza vorrà dire anche progettare per la responsabilità: creare le condizioni per tracciare, spiegare e correggere comportamenti imprevisti.

E per il mondo dell’educazione e della community del design? Probabilmente vedremo aggiornamenti nei curricoli accademici: pensiero sistemico, etica e fondamentali di AI diventeranno parte del percorso formativo. La community sta già condividendo attivamente conoscenza su questi temi, con nuove conferenze, articoli e forum dedicati ai problemi pratici della UX non deterministica.

Resta aperta una domanda fondamentale: come mantenere l’approccio human-centered nel design, quando parte dell’esperienza è gestita da attori non umani (gli agenti AI)? La risposta a questo interrogativo filosofico modellerà il futuro della disciplina. La visione ottimista è che, se impariamo a gestire l’emergenza, potremo creare esperienze altamente adattive, resilienti e migliorabili nel tempo. Immaginiamo un sistema sanitario che apprende da ogni paziente per triagare meglio i successivi, o piattaforme educative che adattano strategie didattiche in tempo reale, guidate da designer che impostano i parametri e gli argini etici.

La visione più critica mette in guardia: delegare troppo potrebbe portare a esperienze caotiche o a conseguenze negative non previste. Il vero compito del designer, nei prossimi anni, sarà navigare tra queste due polarità. Come suggerisce con ironia Cheryl Platz, dobbiamo diventare “ottimi-pessimisti”: fiduciosi nel potenziale dell’AI, ma sempre vigili sui suoi rischi.

In sostanza, il prossimo capitolo della progettazione per l’emergenza sarà espandere le buone pratiche (affinché diventino standard nei progetti AI) ed espandere la prospettiva (affinché le decisioni di design considerino l’impatto sistemico e di lungo periodo). Il viaggio è appena iniziato, e ogni designer, innovatore e strategist oggi ha la possibilità di contribuire a scrivere le nuove regole di questo cambiamento.

 

Takeaways

5 principi chiave per progettare in contesti emergenti

  • Dal controllo alla coltivazione: il ruolo del designer si sposta dal controllo di ogni dettaglio all’orchestrazione di sistemi dove gli esiti desiderati emergono. Progettiamo regole, vincoli e loop di feedback per orientare il comportamento, non per prescriverlo.
  • Il pensiero sistemico è fondamentale: progettare prodotti con AI richiede una visione olistica. Ogni elemento è parte di una rete interconnessa. Mappe di sistema, loop causali e feedback sono strumenti chiave per anticipare effetti collaterali e comportamenti inattesi.
  • Progettare il comportamento dell’AI: il design non riguarda più solo l’interfaccia, ma anche il comportamento dell’agente intelligente. Bisogna stabilire limiti, obiettivi e margini decisionali, bilanciando l’autonomia dell’AI con supervisione umana e vincoli progettuali.
  • Nuovi ruoli e collaborazione: il designer diventa curatore e orchestratore dell’esperienza. Serve collaborazione costante con data scientist, ingegneri e specialisti etici per garantire che i sistemi AI siano utili, comprensibili e allineati ai valori umani.
  • Accogliere l’incertezza e iterare spesso: sistemi non deterministici generano sempre sorprese. Serve una cultura del test continuo, basata su sperimentazione rapida, monitoraggio post-lancio e strategie adattive. L’obiettivo è evolvere insieme al comportamento che emerge.

Recommended Resources

Letture, articoli e strumenti da esplorare

  • Design Unbound: Designing for Emergence in a White Water World (Pendleton-Jullian & Brown, 2018) – Un testo fondativo che introduce strumenti e teoria per agire in un mondo complesso e in rapido cambiamento. Sostiene che “dobbiamo progettare per l’emergenza” nei sistemi dove non possiamo prevedere gli esiti.
  • Frederick van Amstel – Designing for emergent performances (2024) – Approfondimenti di un ricercatore sul design come creazione di contesti che favoriscono l’imprevisto. Include esempi come la simulazione Boids e progetti studenteschi dove il design segue il processo di emergenza anziché controllarlo.
  • Claudia Canales – Beyond the Model: A systems approach to AI product design (UX Collective, 2025) – Un articolo che promuove un design olistico dell’AI. Propone di considerare l’intero ecosistema che circonda gli agenti intelligenti (dati, workflow, policy) per progettare relazioni e non solo interfacce.
  • Cheryl Platz – “Opti-pessimism: Design, AI, and our uncertain future”

    (2019) – Riflessioni sulla necessità di cambiare processo progettuale con l’arrivo dell’AI. Spiega come la UX tradizionale sia inadeguata a gestire l’imprevedibilità e propone un nuovo approccio mentale, tra ottimismo e consapevolezza.

  • The Future of Design: From Makers to Curators (UXMag, 2024) – Analizza come gli strumenti AI stanno trasformando il ruolo del designer. Descrive la transizione verso un ruolo più strategico, basato su selezione, supervisione e regole.
  • People + AI Guidebook – Google (2022) – Raccolta completa di best practice per progettare AI in modo human-centered. Include linee guida su incertezza, controllo dell’utente, apprendimento iterativo. Molto pratico per chi costruisce prodotti AI-driven.
  • Guidelines for Human-AI Interaction (Amershi et al., Microsoft Research, 2019) – Paper accademico che sintetizza 18 principi per progettare interazioni con AI. Esempi: come mostrare l’azione dell’AI, come ricevere feedback dall’utente. Un riferimento chiave per chi vuole progettare esperienze affidabili.
  • AI Incident Database (aiid.partnershiponai.org) – Archivio di casi reali in cui sistemi AI hanno avuto effetti inattesi o dannosi. Ottima risorsa per imparare dagli errori e sviluppare pre-mortem progettuali: “cosa potrebbe andare storto?”.

 

Toolbox

Metodi e tecniche per progettare sistemi intelligenti emergenti

  • System Mapping & Causal Loops – Utilizza strumenti come mappe di sistema o diagrammi di loop causali per visualizzare come gli elementi del tuo ecosistema di prodotto si influenzano tra loro. Aiuta a identificare retroazioni, punti critici e leve progettuali (es. mappare come l’input dell’utente viene elaborato dall’AI e restituito).
  • Scenario Planning & World-Building – Applica esercizi di world-building (ispirati a futurologi come Ann Pendleton-Jullian) per immaginare futuri alternativi del tuo prodotto. Crea scenari di comportamento dell’AI in casi migliori, medi e peggiori. Questo prepara il design a situazioni impreviste e stimola la progettazione di salvaguardie.
  • Agent-Based Simulation – Prima di lanciare una funzionalità complessa, simulala. Con modelli agent-based (anche con tool semplici), puoi approssimare come attori indipendenti (utenti o agenti AI) si comportano in gruppo. Ad esempio: simulare come evolve un feed algoritmico mentre gli utenti lo usano, per capire se si generano bias o effetti non voluti.
  • Enabling Constraints Framework – Quando definisci i requisiti di prodotto, pensa in termini di principi e vincoli, non di soluzioni. Esempio: invece di dire come dev’essere un contenuto, puoi dire “non deve mai contenere X” o “il tono deve restare amichevole-professionale”. Questi diventano vincoli abilitanti che guidano lo sviluppo e il training AI.
  • Human-in-the-Loop Controls – Integra pattern che mantengono il tocco umano sul timone. Può essere una semplice approvazione manuale di contenuti generati dall’AI, o un’interfaccia per monitorare e intervenire sulle decisioni AI in tempo reale. Pensa a questo sistema di supervisione come una valvola di sicurezza del prodotto.
  • Continuous Training & Feedback Tools – Costruisci nel prodotto meccanismi di apprendimento. Esempio: un feedback da parte dell’utente (“questo consiglio era utile?”) che alimenta il modello AI. Oppure cicli periodici di aggiornamento, con nuovi dati reali. Tieni nel toolbox anche analitiche sulle performance dell’AI e sugli esiti utente, per migliorare il sistema nel tempo.
  • Ethical Assessment Checklist – Mantieni una checklist (o usa toolkit esistenti come AI FactSheets di IBM o Responsible AI toolkit di Google) da usare durante le review. Controlla: bias, equità tra gruppi di utenti, trasparenza (spieghiamo cosa fa l’AI?), privacy. Verificando questi aspetti, ti assicuri che i comportamenti emergenti siano coerenti con i valori dell’organizzazione e le aspettative della società.
  • Modular Design Systems for AI – Usa o contribuisci a design system emergenti che includano componenti AI. Così come esistono UI component riutilizzabili, iniziano a esistere pattern riutilizzabili per interazioni AI (es. come mostrare il livello di confidenza di un output, o come annullare un’azione AI). Avere un “design system per il machine learning” accelera il lavoro e garantisce coerenza.

Ogni strumento di questa cassetta degli attrezzi aiuta a gestire la complessità del comportamento emergente, trasformandola in qualcosa di allineato agli obiettivi e ai valori dell’utente. Usando questi metodi – come uno chef che seleziona gli ingredienti – puoi costruire un processo di design robusto, adatto all’era dei sistemi intelligenti e imprevedibili. Adottare questi strumenti significa non solo affrontare il futuro, ma plasmarlo attivamente per creare esperienze tecnologiche più umane, e ispiranti.

Lo Shift continua

Se hai trovato interessante questa edizione, condividila con un collega, un cliente o una mente curiosa che sta attraversando il proprio cambiamento.

E se non l’hai ancora fatto, iscriviti per ricevere la prossima InsideTheShift direttamente nella tua inbox — ogni lunedì alle 9:41.

In arrivo su InsideTheShift #5: “From Hybrid to Continuous: La nuova evoluzione dei workflow Uomo + AI”

A presto, dentro lo shift.

Non è l’AI il problema. Ma come ci guardiamo.

In questi giorni ho letto diversi studi (tra cui The Psychological Impacts of Algorithmic and AI-Driven Social Media on Teenagers e Understanding Generative AI Risks for Youth: A Taxonomy Based on Empirical Data). Entrambi parlano dell’intelligenza artificiale, ma la verità è che parlano di noi. Non di ciò che l’AI può fare, ma di come, inconsapevolmente, stiamo insegnando alle macchine a pensarla come noi, peggiorando nel frattempo la nostra capacità di pensarla diversamente. Una deriva potenziale, difficile da correggere una volta innescata.

Siamo praticamente in una sorta di un esperimento collettivo, mai dichiarato, mai controllato: l’AI non sta semplicemente imparando da noi. Sta amplificando quello che siamo, e rimandandocelo indietro più nitido, più potente, più radicale.

E lo accettiamo. Anzi, ci fidiamo. Perché ci appare coerente. Perché suona simile. Perché riconosciamo quella voce, anche quando sbaglia.

In fisica si parla di risonanza: un sistema risponde con forza crescente quando una vibrazione esterna coincide con la sua frequenza naturale. Ma se quella frequenza è sbagliata, distorta, l’amplificazione non genera armonia. Genera rottura. Ecco cosa sta succedendo tra noi e l’AI. L’intelligenza artificiale non ci impone nulla: si sintonizza. E in questa sintonia, ci amplifica. Ma amplifica anche il nostro rumore, i nostri bias, le nostre crepe. E le rende struttura.

L’intelligenza artificiale funziona così: non impone, rispecchia. Non forza, amplifica. Il suo “tono” è il nostro. E quando quel tono combacia con le nostre insicurezze, i nostri bias, le nostre interpretazioni sfocate del reale… l’onda si ingrossa. Fino a deformare il nostro sguardo su ciò che ci circonda.

Uno di questi studi (How human–AI feedback loops alter human perceptual, emotional and social judgements) mostra come basta una lieve tendenza umana a leggere volti ambigui come tristi perché un algoritmo, allenato su quel pattern, cominci a vedere ovunque tristezza. Tra i dati emerge che se c’è un 53% umano di classificazione “triste”, l’AI passa al 65%, e con dati appena più rumorosi arriva a considerare il 100% delle facce come malinconiche.

E non finisce lì. Quando l’AI condivide con noi il suo giudizio, noi ci fidiamo. Cambiamo opinione. Adattiamo la nostra visione a quella dell’algoritmo, convinti che sia più lucido, più oggettivo, più vero. E così, giorno dopo giorno, diventiamo la versione amplificata dei nostri stessi pregiudizi. Senza accorgercene.

Lo stesso pattern emerge in esperimenti più percettivi che cognitivi. Un gruppo di puntini che si muove su uno schermo. Un compito semplice: stimare in che direzione vanno. Se l’AI ti suggerisce un’interpretazione sbagliata ma coerente, la tua percezione si allinea.

Ciò che “vedi” cambia. Ma non perché l’hai scelto. Perché si è allineata la tua frequenza percettiva a una narrazione artificiale.

Qui entra in gioco un altro aspetto: quanto profondamente l’AI ci conosce? Quanto siamo prevedibili?

La risposta sta nella potenza del prompting. Esiste un prompt che è andato virale chiamato “Prompt Divino”: un prompt talmente preciso da far emergere verità intime e pattern ricorrenti nelle risposte di un LLM “come se ci conoscesse“. Non lo fa davvero. Ma ci mostra qualcosa: l’AI è brava a giocare con la nostra coerenza. Con ciò che diciamo, come lo diciamo, quanto spesso lo ripetiamo (se non l’avete provato e siete utilizzatori intensi di ChatGPT provatelo per capire).

E questa familiarità diventa fiducia. Una fiducia pericolosa. Perché ci sembra una voce interiore. Ma non è nostra. È la nostra voce riscritta.

Poi c’è un fronte ancora più delicato, e in rapida espansione: quello degli adolescenti e come usano l’A. E questo è il vero campo minato

Tutto questo è amplificato quando l’interlocutore non è un adulto, ma un adolescente. Chatbot, assistenti personali, IA compagne. Sempre presenti. Sempre disponibili. Sempre “dalla tua parte”. Ma cosa succede quando un ragazzo inizia a preferire quel dialogo artificiale alle relazioni reali?

Succede che la realtà viene filtrata. Che il giudizio si costruisce dentro un circuito chiuso. E che l’identità si sviluppa in simbiosi con un’interfaccia che ottimizza attenzione, non verità. Connessione, non empatia. Comfort, non complessità.

Il risultato? Dipendenza affettiva. Linguaggi tossici normalizzati. Ritiro sociale. E una distorsione profonda dei modelli di relazione.

Ma allora l’AI è il male? No. Ma non è nemmeno il bene. L’AI è un amplificatore. Non distingue il giusto dallo sbagliato. Prende quello che trova e lo moltiplica. Se gli dai un piccolo bias, te lo restituisce ingigantito. Se gli dai dati coerenti, ti offrirà coerenza.

Ma se non progettiamo i contesti, se non introduciamo attriti cognitivi, se non costruiamo spazi dove l’AI ci aiuta a ragionare invece che convincerci… ci ritroveremo a essere lo specchio rotto di noi stessi. Persuasi dalla nostra stessa ombra.

Quale AI vogliamo davvero? La domanda non è tecnica. È etica, cognitiva, culturale. Vogliamo un’AI che ci renda più veloci o che ci renda migliori? Un’AI che ci confermi o che ci contraddica quando serve? Un’AI che pensa come noi… o che ci spinga a pensare meglio?

La risposta non può essere lasciata ai codici, né ai modelli. La risposta siamo noi. Ma dobbiamo porcela prima che la macchina diventi così familiare da sembrare trasparente. Perché quando l’algoritmo ci guarda, lo fa con i nostri stessi occhi.

E se non stiamo attenti, smetteremo di distinguerli e cambieremo il modo in cui ci guardiamo allo specchio.

L’era degli agenti intelligenti

Non stiamo solo usando l’intelligenza artificiale. Le stiamo delegando compiti, azioni e decisioni.

Per anni abbiamo parlato di AI come assistente. Un supporto intelligente per scrivere, analizzare, suggerire. Sempre accanto a noi, ma mai al posto nostro.

Poi sono arrivati loro: gli AI agent.

Sistemi autonomi, capaci di osservare un contesto, pianificare azioni, usare strumenti e agire per raggiungere un obiettivo. Senza dover chiedere permesso. Senza dover attendere un comando per ogni passo.

È iniziato così lo shift agentico:

un cambiamento che ridefinisce il modo in cui costruiamo processi, organizziamo il lavoro e progettiamo responsabilità.

In questo numero di InsideTheShift, provo a raccontare cosa significa questo passaggio:

  • Dal “prompt” al “goal”

  • Dal task isolato al ciclo percepisci–pianifica–agisci

  • Dalla UI tradizionale a un’interazione comportamentale

  • Dall’AI come supporto all’AI come soggetto operativo

Ma anche cosa comporta sul piano organizzativo e culturale. Perché questi agenti stanno entrando nelle aziende come nuove unità di azione, e con loro dobbiamo ripensare ruoli, governance, competenze, fiducia.

Dentro lo shift ci siamo già.

La domanda è: vogliamo continuare a supervisionare ogni azione… o iniziare a progettare delega consapevole?

📬 InsideTheShift #3 è online:

Inside the Agentic Shift

How AI Agents Are Reorganizing Action, Autonomy and Work

👉 Qui l’ultimo pezzo 

ROT: il Return on Trust, cosa e come implementarlo

Ho coniato il termine ROT – Return on Trust, “ritorno sulla fiducia”.

Credo fermamente che nel mondo aziendale trasformato dall’Intelligenza Artificiale la fiducia stia diventando e sarà sempre più un fattore critico da misurare e coltivare al pari dei classici e noti indicatori finanziari.

Di recente, durante una tavola rotonda su AI e mentoring, ho riflettuto in prima persona su come l’adozione di sistemi intelligenti metta alla prova la fiducia: l’AI può agire da catalizzatore ma anche da stress-test delle nostre relazioni, smontando certezze e costringendoci a ridefinire la “grammatica” dei rapporti umani e digitali.

AI amplificatore (o erosore) di relazioni

Prima di arrivare al ROS vale la pena però prima soffermarsi un attimo sull’impatto ambivalente che l’AI sta già esercitando sulle relazioni in azienda (e non solo) e gli effetti che ci troveremo a dover gestire.

Quando una organizzazione e gli strumenti di AI sono progettatati con trasparenza ed empatia, l’intelligenza artificiale si comporta da amplificatore: elimina attività ripetitive, fa emergere insight nascosti e personalizza le interazioni, così che mentor, manager e colleghi possano investire le proprie energie migliori in empatia, visione strategica e problem solving creativo. Il risultato è un engagement più profondo, cicli di feedback accelerati e una cultura dove la condivisione della conoscenza diventa naturale e gratificante.

Ma gli stessi algoritmi, se introdotti come black box opache o come meri strumenti di taglio dei costi, rischiano di trasformarsi in erosori di relazione: possono rafforzare i bias di conferma, indurre i leader ad abdicare alla responsabilità, atrofizzare il “muscolo dell’apprendimento” e impoverire la sicurezza psicologica necessaria al confronto onesto. I team allora obbediscono in apparenza, ma interiormente diffidano sia dello strumento sia di chi lo ha imposto.

L’AI amplifica il terreno relazionale che trova—che sia nutriente o tossico. Ed è proprio questa polarità a spiegare perché, insieme al Return on Trust, dobbiamo ora monitorare una seconda dimensione: il Return on Skills (ROS), ossia la capacità dell’organizzazione di trasformare quella (auspicabilmente alta) fiducia in un processo continuo di sviluppo di competenze adatte al futuro.

Da questa consapevolezza è nata l’idea del ROT come nuova chiave di lettura del cambiamento in atto.

Che cos’è il ROT (Return on Trust)?

Partiamo dalle basi del concetto che sto esplorando. ROT significa considerare la fiducia generata (o distrutta) da ogni iniziativa come un ritorno misurabile. Se il ROI (Return on Investment) è storicamente la metrica dominante per valutare progetti e strategie, soprattutto legate all’AI, oggi c’è secondo me il bisogno di affiancargli un indicatore complementare: quanto valore in termini di fiducia stiamo creando?

In altre parole, il ROT ci invita a chiederci non solo

“Questa tecnologia/processo migliorerà i profitti?” ma anche “Migliorerà la fiducia tra le persone coinvolte?”.

L’obiettivo del ROT vuol esser quello di rendere tangibile l’intangibile, ossia dare peso alla fiducia in ogni valutazione strategica. Vuole spingere leader e organizzazioni a progettare soluzioni people-centric, in cui il successo si misuri anche dal grado di fiducia che dipendenti, clienti e partner ripongono nel cambiamento.

In un contesto di AI diffusa, ciò significa, ad esempio, valutare se un algoritmo aumenta la fiducia dei clienti (grazie a trasparenza e risultati equi) o se un nuovo tool AI rafforza la fiducia dei dipendenti nel sentirsi supportati anziché rimpiazzati. Il ROT intende quindi arricchire le metriche di successo: non solo risultati economici o di efficienza, ma anche indicatori di clima, collaborazione e sicurezza psicologica.

Parlare di fiducia tocca però un perimetro ampio. Il ROT abbraccia la fiducia a 360°: tra colleghi, tra leader e team, tra azienda e clienti, e persino tra esseri umani e macchine. Ogni nuova tecnologia, riorganizzazione o scelta manageriale ha un impatto su queste dinamiche di fiducia. La complessità sta nel fatto che la fiducia è multidimensionale e delicata: è influenzata dalla cultura aziendale, dalle comunicazioni, dai comportamenti quotidiani e dall’etica con cui implementiamo gli strumenti digitali. A differenza di un KPI finanziario, la fiducia è difficile da quantificare direttamente e può variare nel tempo o tra gruppi. Ma soprattutto è asimmetrica: richiede tempo per costruirla, ma può essere persa in un attimo con un singolo passo falso. Questo rende la misurazione del ROT una sfida che richiede un mix di metriche quantitative e qualitative.

La domanda che giustamente mi è stata posta è

Come approcciare o introdurre qualcosa di cosi intangibile in una organizzazione?“.

Introdurre il ROT come metrica significa anche rivedere alcune logiche interne. In primo luogo occorre diffondere una cultura della fiducia: ambienti in cui le persone si sentono ascoltate, rispettate e sicure nel poter esprimere idee o dubbi. Le ricerche che accenanavo anche nel precedente post indicano chiaramente che un clima di alta fiducia produce benefici tangibili: aziende con elevata fiducia registrano 74% meno stress, 106% più energia, 50% più produttività, 76% più engagement rispetto a realtà a bassa fiducia.

In pratica, la fiducia funziona da moltiplicatore di valore, migliora la collaborazione, l’innovazione e la resilienza ai cambiamenti. Di conseguenza, adottare il ROT implica inserire la “gestione della fiducia” nelle responsabilità di leadership e HR: significa progettare percorsi di cambiamento coinvolgendo attivamente le persone, comunicare con trasparenza, investire in formazione etica sull’AI, e predisporre meccanismi per ascoltare feedback e preoccupazioni. Può voler dire introdurre nuove figure o competenze (ad esempio esperti di people analytics focalizzati sul clima, o comitati etici per l’AI) e includere parametri di fiducia nei report periodici.

Le aziende che decideranno di orientarsi ad un principio del genere potrebbero anche rivedere politiche di valutazione delle performance, premiando manager che sanno creare ambienti fiduciosi e team coesi. Insomma, il ROT porta con sé un’evoluzione organizzativa: dal comando-controllo alla organizzazione “trust-centric”, in cui la fiducia non è solo un valore dichiarato ma un obiettivo operativo progettato e misurato, nei piani di sviluppo, crescita e valutazione individuale.

Implementare il ROT in azienda: modello operativo

Come passare dalla teoria alla pratica? L’idea è quella di un modello scandito da alcuni step chiave, con ruoli e responsabilità ben definiti:

  1. Mappatura iniziale della fiducia: prima di tutto, è necessario misurare lo stato attuale. Questo significa condurre un’analisi del clima e della fiducia esistente,  tramite survey interne, focus group, interviste aperte, come è già in alcuni contesti applicato.
    È fondamentale ascoltare le persone a tutti i livelli per capire dove la fiducia è forte e dove presenta criticità. In questa fase si possono usare strumenti consolidati (alcuni descritti più avanti, come il Trust Index o questionari sulla sicurezza psicologica) per ottenere un baseline. Tipicamente l’HR insieme ai team di organization development o consulenti esterni specializzati in clima aziendale hanno responsabilità di questa fase.

  2. Definizione di obiettivi e governance del ROT: sulla base della mappatura, il top management, in prima persona, deve definire cosa significhi fiducia per la propria organizzazione e fissare obiettivi chiari di miglioramento. Una idea, spesso discussa, potrebbe porsi di aumentare dell’X% l’engagement o di ridurre il tasso di turnover legato a scarsa fiducia nel management.
    È utile istituire una sorta di cabina di regia del ROT: un team interfunzionale (HR, Comunicazione, IT, Legal, ecc.) guidato da un executive sponsor (ad esempio il Direttore HR o il CEO stesso) che sovrintenda alle iniziative. Assegnare ruoli e responsabilità è cruciale: i leader di funzione devono essere ambasciatori della fiducia nei propri team, l’IT deve garantire che gli strumenti di AI siano affidabili e trasparenti, la funzione Legal/Ethics assicura conformità e uso etico dei dati, e così via.

  3. Progettazione di iniziative “trust-driven”: in questa fase si passa alla messa a terra, disegnando interventi pratici per migliorare la fiducia. Parliamo di formazione e coaching per i manager sulla leadership empatica e inclusiva (imparare a dare feedback costruttivi, riconoscere gli errori, comunicare vulnerabilità quando serve, il tutto per far sentire i team al sicuro).
    Si introducono pratiche di trasparenza nelle decisioni: per esempio è importante a mio avviso condividere le ragioni dietro cambiamenti organizzativi o spiegare il funzionamento degli algoritmi AI che affiancano le persone, visto che molto spesso i cambiamenti sono semplicemente una comunicazione top-down e gli strumenti decisionali sono blackbox i cui razionali sono noti a pochi.
    Tra le attività che a mio avviso sono necessarie ci sono i programmi di mentoring interno (colleghi esperti che guidano i meno esperti, instaurando fiducia trasversale, indistintamente da età o ruolo, e non necessariamente su hard skills) e creare spazi di dialogo aperto (town hall meeting regolari, canali anonimi per domande difficili, ecc.). Un’altra leva operativa è rivedere i processi per assicurarsi che siano “trust-friendly”: semplificare policy troppo burocratiche che segnalano mancanza di fiducia, oppure introdurre workflow che richiedono collaborazione interfunzionale (rompendo silos e costruendo fiducia reciproca tra team). Su questo i modelli per esempio che stiamo studiando con Boundryless vanno esattamente in questa direzione. Ogni iniziativa va disegnata coinvolgendo attivamente i destinatari, co-creare soluzioni con i dipendenti aumenta sia la fiducia che la probabilità di successo.

  4. Integrazione della fiducia nelle tecnologie AI: dato che l’adozione dell’Intelligenza Artificiale è spesso il fattore scatenante del ROT, un passo operativo specifico è assicurarsi che le soluzioni AI implementate siano degne di fiducia. Questo implica adottare principi di AI etica e “explainable AI” durante lo sviluppo o l’acquisto di sistemi: modelli che sappiano spiegare le proprie decisioni, audit algoritmici per eliminare bias discriminatori, rispetto della privacy dei dati.
    Il team IT/AI deve collaborare con esperti di dominio, HR (dove necessario) e rappresentanti degli utenti finali per validare che l’AI venga percepita come alleata e non come “scatola nera” imprevedibile. Per capirci, se in un’azienda che introduce un sistema AI per suggerire decisioni ai manager riguardo valutazioni di percorso e carriera, potrebbe essere utile inizialmente affiancare suggerimenti dell’AI a spiegazioni su perché quella raccomandazione viene data, e raccogliere il feedback dei manager su quanto la ritengono affidabile, così come rendere trasparente il processo anche al valutato. In questo modo si affina il sistema e si costruisce gradualmente fiducia nell’interazione uomo-macchina.

  5. Misurazione continua e adattamento: come ogni approccio gestionale, ciò che non si misura non si migliora. Il ROT richiede di stabilire KPI di fiducia e monitorarli nel tempo. Questo significa, ad esempio, ripetere survey di clima periodiche per vedere l’evoluzione dei punteggi di fiducia o engagement, analizzare i tassi di adozione delle nuove tecnologie (quanti dipendenti usano attivamente il nuovo tool AI, segno di fiducia in esso), monitorare indicatori come il turnover volontario o l’assenteismo (spesso correlati con la rottura della fiducia). I dati vanno discussi apertamente nel team di governance ROT e col management, individuando aree di miglioramento.
    Il modello è iterativo: in base ai risultati, si adattano o rafforzano le iniziative. Se ad esempio una particolare unità aziendale mostra ancora basso livello di sicurezza psicologica, ci si può focalizzare con azioni mirate (workshop, ascolto dedicato, cambi di leadership se necessari). Implementare il ROT è un percorso continuo di apprendimento organizzativo. La responsabilità ultima di questa fase è sia del team di progetto che di ogni manager: creare un rito di accountability dove periodicamente si discute “come stiamo andando sulla fiducia” allo stesso modo in cui si discutono i numeri di vendita.

L’implementazione del ROT richiede impegno condiviso e coerenza nel tempo. Tutti in azienda, dal CEO all’ultimo arrivato, devono capire che la fiducia è una risorsa strategica “e non una leva di marketing interno“: va alimentata giorno per giorno e riconosciuta nei fatti (decisioni, comportamenti, investimenti) oltre che a parole.

KPI e metriche per misurare la fiducia oggi

Per misurare il ROT dobbiamo affidarci sia a metriche già esistenti che valutano aspetti di fiducia e coinvolgimento, sia a nuovi indicatori emergenti (che vedremo dopo). Partiamo dagli strumenti attuali che le aziende utilizzano per sondare fiducia, engagement, apertura al cambiamento e clima interno:

  • Trust Index: è l’indice di fiducia utilizzato, ad esempio, nei questionari di Great Place to Work. Si basa su survey ai dipendenti con una serie di affermazioni che esplorano 5 dimensioni chiave dell’esperienza lavorativa: Credibilità, Rispetto, Equità, Orgoglio e Coesione. Le prime tre dimensioni (Credibilità, Rispetto, Equità) misurano la fiducia dei collaboratori nel management, vale a dire quanto i leader comunicano in modo trasparente, mantengono le promesse, trattano le persone con equità e le rispettano.
    Le ultime due (Orgoglio e Coesione, detta anche Camaraderie) valutano invece il rapporto dei dipendenti con il proprio lavoro e i colleghi, indicando il livello di identificazione positiva e di spirito di squadra. Il Trust Index fornisce un termometro del clima aziendale: un punteggio alto segnala un ambiente in cui c’è fiducia verticale (verso i manager) e orizzontale (tra pari), oltre a un forte senso di appartenenza. Molte aziende lo usano annualmente per capire se sono un “great place to work” e dove intervenire sul clima.

  • Psychological Safety Score: la sicurezza psicologica è un concetto reso celebre dalle ricerche di Amy Edmondson e dal progetto Aristotle di Google. Indica il grado in cui le persone si sentono sicure nel prendere rischi interpersonali in un team: ad esempio ammettere un errore, esprimere un’idea controcorrente, o fare una domanda “sciocca” senza paura di conseguenze negative. Edmondson la definisce come “la convinzione condivisa che non si verrà puniti o umiliati per aver espresso idee, domande, preoccupazioni o errori”. In pratica è la misura della fiducia interna al team: fiducia che l’ambiente sia supportivo e non giudicante.
    Molte aziende valutano la sicurezza psicologica attraverso questionari specifici, chiedendo ai membri di indicare il loro accordo con frasi tipo “Nel mio team posso fare domande senza essere deriso” oppure “Il mio superiore accoglie bene gli errori come opportunità di apprendimento”. Da queste survey si ricava un punteggio medio di sicurezza psicologica (Psychological Safety Score) per team o reparto. Un PSI (Psychological Safety Index) alto è spesso correlato con team più innovativi e performanti, proprio perché le persone osano di più quando c’è fiducia reciproca. Al contrario, un punteggio basso è un campanello d’allarme: segnala barriere di paura che ostacolano la comunicazione onesta (e quindi frenano anche il miglioramento e l’innovazione).

  • eNPS (Employee Net Promoter Score): adattamento del famoso Net Promoter Score usato verso i clienti, l’eNPS misura quanto i dipendenti promuoverebbero la propria azienda come buon posto di lavoro. Viene tipicamente calcolato con una domanda molto diretta: “Con quale probabilità consiglieresti la tua azienda come luogo di lavoro a un amico o conoscente?”, da rispondere su una scala 0-10.
    I risultati sono classificati in Promotori (chi risponde 9-10, entusiasta), Passivi (7-8) e Detrattori (0-6); sottraendo la percentuale di detrattori da quella dei promotori si ottiene l’eNPS.
    Un valore alto (es. +30) indica che la maggior parte delle persone parlerebbe positivamente dell’azienda all’esterno – segnale di fiducia nell’organizzazione, di engagement e di soddisfazione generale.
    Valori negativi invece indicano prevalenza di detrattori interni (molti sconsiglierebbero l’azienda, indice di problemi di fiducia o clima).
    L’eNPS ha il pregio di essere semplice e immediato, fornendo uno “score” sintetico dello stato d’animo collettivo. Tuttavia è anche una misura abbastanza grezza (dice cosa pensano i dipendenti ma non perché). Per questo spesso viene usato in combinazione con survey più approfondite: l’eNPS come segnale generale di allerta o successo, e altre domande per diagnosticare le cause (ad esempio domande sulla fiducia nel management, sulle opportunità di crescita, ecc., che influenzano quel punteggio).

  • Altre metriche di clima e engagement: oltre ai tre indicatori citati, le aziende monitorano diversi altri KPI relativi alla salute organizzativa che intercettano dimensioni di fiducia. Ad esempio, molte imprese fanno survey di engagement più articolate, che includono domande sull’affidabilità del management, sulla chiarezza nella comunicazione dei vertici, sul livello di coinvolgimento nel cambiamento percepito dai dipendenti.
    Esistono indici compositi come l’Organizational Trust Index o il Climate Index nelle indagini di clima, che combinano vari item per dare un punteggio globale di fiducia interna. Alcune organizzazioni utilizzano metriche di open feedback (quante idee o segnalazioni vengono spontaneamente inviate dai dipendenti verso l’alto – indice di fiducia nell’essere ascoltati) o analizzano il tasso di adozione di nuovi programmi/progetti (un’adesione elevata spesso riflette fiducia nell’iniziativa e nei suoi promotori).

  • Anche il tasso di turnover volontario e il tasso di assenze vengono letti come indicatori indiretti: un aumento improvviso in specifici reparti può suggerire un calo di fiducia o problemi relazionali con un manager. In sintesi, già oggi non mancano strumenti per misurare aspetti della fiducia in azienda; il valore del concetto di ROT è semmai di riunire questi vari indicatori sotto un’unica lente strategica, evidenziandone il peso complessivo nelle trasformazioni organizzative.

Ed i nuovi indicatori da includere nel ROT

Accanto alle metriche tradizionali, un approccio ROT maturo dovrebbe sviluppare anche nuovi indicatori ad hoc, per cogliere segnali di fiducia che spesso sfuggono alle misure classiche.

Ho provato ad immaginare alcune categorie di indicatori emergenti utili a misurare il “ritorno di fiducia” in modo più completo:

  • Metriche relazionali interne: la fiducia si manifesta nella qualità delle relazioni. Possiamo quindi misurare, ad esempio, il grado di connessione e collaborazione tra reparti. Strumenti di Organizational Network Analysis potrebbero rilevare l’ampiezza e la forza delle reti informali: quanti scambi avvengono tra team diversi? Chi sono i trust broker che collegano funzioni altrimenti silos? Un aumento delle interazioni trasversali dopo un intervento organizzativo potrebbe indicare maggiore fiducia e apertura.
    Anche i programmi di mentoring o cross-training possono fornire dati: il numero di coppie mentor-mentee attive o di collaborazioni interfunzionali avviate volontariamente può essere un indicatore di fiducia reciproca crescente (le persone si affidano a colleghi di altre aree per imparare, cosa che soprattutto nelle grandi aziende, per un tema di “tifoseria” non succede). Un’altra metrica relazionale potrebbe essere un indice di coesione del team calcolato tramite survey sociali interne: chiedere fino a che punto ci si sente parte di una “famiglia lavorativa” o se si percepisce supporto dai colleghi; punteggi alti riflettono fiducia nel gruppo.

  • Segnali comportamentali e culturali: qui parliamo di tracce indirette che il comportamento organizzativo lascia. La frequenza di condivisione della conoscenza, ossia quante volte al mese un dipendente pubblica una best practice sulla intranet o tiene una sessione formativa per i colleghi? Un aumento suggerisce un clima di fiducia (ci si sente al sicuro nel condividere ciò che si sa, senza timore di perdere il proprio “vantaggio” personale).
    Oppure, il tasso di segnalazione di problemi/criticità: in un ambiente fiducioso le persone evidenziano errori o rischi prima che diventino grossi guai, perché si fidano che segnalare non comporterà punizioni. Dati dal sistema di ticketing interno, o dalle hotline etiche, potrebbero essere letti in questa chiave (un basso numero di segnalazioni non è sempre positivo, se la gente teme ritorsioni, potrebbe non parlare!).
    Un altro segnale comportamentale: la partecipazione volontaria a workshop, community interne, gruppi di miglioramento. Quando c’è fiducia nell’azienda, i dipendenti tendono a impegnarsi attivamente oltre il minimo, dando tempo ed energie extra. Monitorare quante persone si candidano spontaneamente per iniziative interne o quanti partecipano a sondaggi facoltativi può dare insight sulla fiducia/engagement. Persino l’analisi del tone of voice nelle comunicazioni interne (ad esempio usando tecniche di sentiment analysis su intranet o Slack aziendale) può fornire un termometro: parole positive, scherzi, ringraziamenti pubblici tra colleghi indicano una cultura aperta; al contrario prevalenza di toni formali o assenti può suggerire distacco e poca fiducia nel dialogo informale.

  • Dati di percezione e segnali emotivi: la fiducia ha anche una dimensione percettiva e emotiva, che possiamo cercare di catturare. Implementando delle pulse survey frequenti e brevi, dove ogni settimana o mese i dipendenti rispondono anonimamente a poche domande sul loro stato d’animo: “Mi sento motivato e fiducioso questa settimana?”, “Mi fido delle decisioni prese dal management di recente?”. Queste rilevazioni continue creano un indicatore dinamico di fiducia (un Trust Pulse?) che può essere correlato temporalmente ad eventi (es. dopo l’annuncio di una riorganizzazione, il sentiment di fiducia cala? dopo un town hall chiarificatore risale?).
    Anche i colloqui periodici con campioni di dipendenti (employee focus group) possono essere codificati in metriche: ad esempio assegnando uno score alla “qualità percepita delle relazioni” in azienda sulla base delle parole chiave che emergono. In ottica ROT, potremmo includere metriche come un indice di fiducia percepita nella leadership, misurato chiedendo “quanta fiducia hai nel fatto che il tuo leadership team prenda decisioni nel tuo migliore interesse?”. Se questo indice migliora nel tempo, è un chiaro ritorno positivo. Sul fronte clienti/partner, dati di percezione raccolti tramite sondaggio NPS o analisi reputazionali online (review, social listening) possono completare il quadro: ad esempio un incremento di commenti dove i clienti definiscono l’azienda “affidabile” o “trasparente” è un segnale che le iniziative interne di trust si riflettono anche all’esterno.

  • Indicatori di collaborazione uomo-macchina: dato il focus sull’AI, un modello ROT deve includere anche metriche che valutino la fiducia nelle soluzioni AI e la qualità della collaborazione ibrida. Questo è un campo nuovo, e non c’è dubbio che siamo ancora prima degli albori, ma i temi vanno affrontati per tempo e non come pezza di recupero, per cui credo che si possano ideare alcune misure.
    La percentuale di adozione delle raccomandazioni AI: se un algoritmo fornisce suggerimenti a un operatore, è pensabile monitorare in che percentuale questi suggerimenti vengono effettivamente seguiti vs. ignorati. Un tasso di adozione alto indica che l’utente si fida dell’AI (o quantomeno la trova utile), mentre se molti suggerimenti vengono scartati c’è forse diffidenza o scarsa utilità percepita.
    Un altro potrebbe essere il tasso di override umano: in sistemi dove l’AI può agire autonomamente ma l’umano ha facoltà di intervenire (pensiamo a sistemi di autopilota con supervisione umana), misurare quante volte gli umani intervengono per correggere l’AI. Se il valore è estremamente alto, significa che l’AI non gode di fiducia o non è ancora all’altezza (quindi le persone sentono spesso il bisogno di disabilitarla); se è moderato e decrescente nel tempo, sta crescendo la fiducia nel lasciar fare alla macchina routine operative.
    Possiamo anche considerare indici compositi come un Human-AI Trust Index, rilevato tramite survey interne specifiche: chiedendo agli utenti di un software AI quanto si fidano delle sue analisi in scala 1-5, e monitorando l’evoluzione media.
    Nella valutazione delle performance dei team ibridi, oltre a metriche classiche di produttività/errore, sarebbe utile introdurre misure della qualità dell’interazione tra umano e AI. La ricerca accademica sul tema suggerisce di guardare a come vengono prese le decisioni in coppia con l’AI, non solo a cosa si ottiene. Si può tracciare il tempo medio speso a spiegare al collega umano le decisioni dell’AI (segno che l’AI è trasparente e l’umano partecipa attivamente) oppure misurare la fiducia calibrata: quante volte l’operatore conferma l’esito dell’AI quando questo è corretto vs. quante volte lo conferma quando era errato (idealmente in un sistema fidato ma con supervisione attiva, l’operatore confermerà spesso decisioni corrette e correggerà quelle sbagliate – segno di fiducia calibrata, non cieca).

Non c’è dubbio che questi indicatori richiedono un po’ di creatività e sperimentazione nella fase attuale, ma diventano fondamentali a mio avviso per quantificare il ROT in termini di sinergia uomo-macchina. In un’era di organizzazione aumentata, mi piacerebbe vedere dashboard dove accanto ai KPI di business ci siano KPI come “Indice di fiducia team-AI: 8/10, in aumento di 1 punto rispetto al trimestre scorso”.

Naturalmente, non tutte le metriche nuove avranno la stessa importanza o facilità di raccolta, ma anche solo il processo di individuare questi indicatori è utile: forza l’organizzazione a chiarire cosa intende per fiducia nei vari contesti e a trovare modi concreti di osservarla.

L’approccio ROT, guardando oltre il semplice processo di misurazione di qualcosa, spinge a combinare dati hard e soft, dalle statistiche d’uso di un software alle percezioni emotive – per avere un’immagine più ricca e multidimensionale della salute della fiducia in azienda.

Dall’“effetto oracolo” all’etica hacker

Nel ragionare sul Return on Trust, e ricollegando letture fatte negli anni, ho trovato un legame di questo discorso con concetti culturali e scientifici che offrono prospettive complementari sul tema della fiducia nell’era digitale.

Helga Nowotny e l’effetto oracolo: la scienziata sociale Helga Nowotny, nel suo libro In AI We Trust”  e successivamente inLe Macchine di Dioparla di un curioso paradosso: tendiamo ad attribuire agli algoritmi predittivi un’aura di oggettività e infallibilità quasi oracolare. Un po’ come nell’antichità ci si affidava alle sibille o all’Oracolo di Delfi per conoscere il destino, oggi rischiamo di riporre fiducia cieca nei sistemi di AI, prendendo le loro previsioni come verità definitive.

Nowotny avverte che questo effetto oracolo può diventare pericoloso: se iniziamo a conformare il nostro comportamento a ciò che l’algoritmo predice, cediamo pezzi di libero arbitrio e rischiamo di trasformarci in “marionette algoritmiche” in balia dei sistemi di IA. Se la lettura la facciamo dall’angolazione ROT, questa è una chiamata alla consapevolezza: misurare la fiducia non significa promuovere fiducia indiscriminata verso la tecnologia. Al contrario, un alto “Return on Trust” implica una fiducia informata e calibrata. Dobbiamo progettare ambienti in cui le persone si fidano dell’AI quel tanto che basta per beneficiarne, ma mantengono senso critico e controllo. Il ruolo dell’umano resta centrale nel processo decisionale: l’AI può essere una consulente potente, ma non un oracolo incontestabile. Ricordarci di questo principio, come suggerisce Nowotny, ci aiuta a sviluppare pratiche di ROT che valorizzano la fiducia insieme alla trasparenza e all’autonomia individuale.

Paul Zak e la chimica della fiducia: un altro collegamento affascinante viene dal campo della neuroeconomia. Paul Zak, studioso noto come “Dr. Love” per le sue ricerche sull’ossitocina, ha dimostrato che la fiducia ha letteralmente una base biochimica. Quando qualcuno si fida di noi e ci affida qualcosa di valore (nel celebre “gioco della fiducia” in laboratorio si trattava di denaro), il nostro cervello rilascia ossitocina, un neuro-ormone che genera sensazioni di empatia e connessione. Più ossitocina, più tendiamo a comportarci in maniera cooperativa e affidabile verso l’altro. Zak ha persino mostrato che somministrando ossitocina sintetica a persone inconsapevoli, il loro livello di fiducia verso estranei aumenta significativamente (affidavano fino al 17% di denaro in più in custodia a sconosciuti).

Cosa c’entra questo col mondo aziendale e il ROT? C’entra parecchio perché dimostra che la fiducia non è un concetto astratto, ma ha effetti reali e misurabili sugli esseri umani, fin dentro il nostro organismo. Un ambiente lavorativo ad alta fiducia innesca un circolo virtuoso: i dipendenti rilasciano più ossitocina, si sentono più legati ai colleghi, più motivati ad aiutarsi a vicenda e a dare il meglio. Questo si traduce in performance superiori, come già visto (meno stress, più energia, più produttività).

In pratica, fiducia = miglior neuroclima aziendale. Inserire il ROT nella gestione d’impresa vuol dire anche tenere a mente questa dimensione “umana, troppo umana”: i KPI di fiducia non misurano solo fenomeni organizzativi, ma intercettano qualcosa di profondamente radicato nel nostro cervello sociale. Quando racconto ai manager di ossitocina e neuroscienze, il mio messaggio è: investire in fiducia paga perché rende le persone biologicamente più predisposte a impegnarsi. Non è solo buonismo: è biologia e business allo stesso tempo.

L’etica hacker di Pekka Himanen: poi c’è un aspetto culturale-valoriale che collega fiducia e innovazione tecnologica in modo ispiratore. Pekka Himanen, filosofo finlandese, descrive nella sua Etica hacker una diversa etica del lavoro nell’era digitale, contrapposta alla rigida etica protestante. Al centro dell’etica hacker ci sono valori come passione, creatività, condivisione, libertà e impegno gioioso in ciò che si crea.

Ma c’è anche un forte elemento di fiducia decentralizzata: la cultura hacker promuove la circolazione libera dell’informazione (“All information should be free”), la sfida all’autorità precostituita a favore di sistemi aperti e meritocratici, dove ci si fida del merito e delle capacità più che dei titoli.

Pensiamo al modello open source: sviluppatori di tutto il mondo collaborano volontariamente a un progetto software, spesso senza gerarchie rigide, condividendo codice liberamente, contando sulla reciproca fiducia che ognuno contribuirà al meglio delle proprie abilità. E funziona, Linux, Wikipedia e tante innovazioni ne sono la prova. Questa fiducia orizzontale “tra pari” è un ingrediente chiave dell’etica hacker e si collega al ROT in modo interessante: suggerisce che per massimizzare il ritorno della fiducia dobbiamo favorire ambienti aperti, dove le persone abbiano autonomia e responsabilità e dove l’accesso alle informazioni sia ampio.

Se i dipendenti hanno accesso alle conoscenze (anziché silo informativi) e si sentono valutati sul merito delle idee e non sul ruolo in organigramma, l’innovazione decolla e con essa la fiducia che ciascuno ripone nell’organizzazione. L’etica hacker incoraggia anche la sperimentazione senza paura dell’errore, “fail fast, learn faster”, che è possibile solo quando c’è fiducia di base.

Nel contesto ROT, adottare un po’ di questa filosofia significa strutturare le organizzazioni in modo più fluido e partecipativo: ad esempio creare comunità di pratica interne dove sviluppatori, data scientist, esperti di business condividono liberamente soluzioni AI e si aiutano (imitando l’open source); oppure dare ai team la libertà di scegliere strumenti e approcci (entro linee guida etiche) in modo che sentano fiducia riposta in loro e la ricambino con risultati eccellenti.

Fiducia chiama fiducia

come diceva anche Stephen Covey, e la cultura hacker mostra che puntando su fiducia, apertura e autonomia si possono ottenere ritorni straordinari in creatività e produttività. Per un leader, ispirarsi a questi principi vuol dire forse rinunciare a un po’ di controllo verticale, ma guadagnare in velocità, motivazione e apprendimento collettivo.

Queste prospettive (dall’oracolo di Nowotny all’ossitocina di Zak, fino all’etica hacker) condividono un principio fondante: la fiducia è un concetto sfaccettato, tecnico, umano e culturale al tempo stesso. Implementare il ROT con successo richiede di tener conto di tutte queste sfumature: dosare fede nella tecnologia e senso critico, considerare i bisogni emotivi delle persone e alimentare una cultura di apertura. È questa visione olistica che rende il Return on Trust non solo una nuova metrica, ma una vera strategia di trasformazione nell’era dell’AI.

Fiducia e oltre, verso il ROS (Return on Skills)

Definire e applicare il ROT significa dotarsi di una bussola per navigare la trasformazione digitale mettendo le persone e le relazioni al centro. Significa chiedersi, ad ogni progetto di AI o riorganizzazione, non solo “qual è il ROI?” ma anche “qual è l’impatto sulla fiducia?”.

La fiducia può essere misurata, allenata, protetta e che farlo porta benefici tangibili in performance e benessere. Il ROT è quindi un approccio che arricchisce la gestione aziendale di una dimensione etica e umana fondamentale, senza la quale le migliori tecnologie rischiano di fallire nell’adozione o di generare resistenze sotterranee.

Ma questa è solo una parte del percorso.

Riflettendo sul futuro prossimo e sulla velocità con la quale oggi le competenze tendono ad esser obsolete, mi rendo conto che accanto al ritorno sulla fiducia c’è un altro pilastro da considerare per guidare le organizzazioni attraverso l’era dell’AI: quello della formazione di nuove competenze, attraverso nuove modalità.

L’innovazione infatti richiede non solo fiducia, ma anche sviluppo continuo di nuove capacità, tanto hard skills quanto e soprattutto soft skills come il pensiero critico, l’adattabilità, l’intelligenza emotiva.

Sto iniziando a chiamare questo secondo concetto ROS – Return on Skills, il ritorno sulle competenze, inteso come la capacità di un’azienda di ottenere valore dagli investimenti in formazione, apprendimento e crescita del proprio capitale umano, non solo come elemento necessario di sopravvivenza e ottimizzazione, quanto di definizione strategica futura.

Fiducia e competenza sono gemelli siamesi da affiancare nel percorso di trasformazione attraverso questo passaggio storico, culturale e tecnologico che stiamo attraversando. La fiducia crea terreno fertile perché le persone mettano a frutto e condividano le loro competenze; allo stesso tempo, nuove competenze riducono la diffidenza e aumentano la fiducia verso le tecnologie e i colleghi.

Prossimamente approfondirò proprio il tema del Return on Skills, per esplorare come implementare nuovi modelli di formazione (da affiancare o sostituire ai metodi tradizionali non più efficaci), misurare e massimizzare il valore delle competenze in evoluzione.

Per ora, mi piace concludere sottolineando questo: nell’era dell’AI, il vero capitale competitivo risiede nelle persone, nella fiducia che riescono a costruire tra loro e nel continuo arricchimento del loro bagaglio di abilità. ROI, ROT e (presto) ROS diventeranno così le tre metriche cardinali di un’innovazione sostenibile e centrata sull’umano.

Dal Prompt Chaining al Tree of Thoughts

Qualche giorno fa ho scritto un approfondimento, partendo dal post di Nicola, sul tema del Prompt Chaining. Il post ha riscosso un discreto interesse come approccio e ha generato diverse discussioni su approcci e vantaggi. Tra queste interazioni ci sono stati due commenti in cui è emerso l’interesse per diversi approcci al prompting e ai diversi contesti in cui c’è bisogno di uno o altro approccio.

Il Prompt Engineering, tema interessante ma eccessivamente abusato in termini di narrativa, non è altro che “l’arte” di formulare richieste efficaci ai modelli di intelligenza artificiale (AI) al fine di ottenere risultati utili e pertinenti. Negli ultimi tempi sono emersi diversi approcci avanzati per guidare i modelli linguistici generativi (Large Language Models, LLM) in modo più strategico, ottimizzato e finalizzato ad uno scopo preciso.

Uno di questi è il Prompt Chaining, di cui ho parlato nel mio articolo , in cui l’output di ciascun prompt diventa l’input del successivo. Questo consente di scomporre compiti complessi in passi più piccoli e gestibili, migliorando efficacia e accuratezza delle risposte del modello. Come scrivevo, il prompt chaining “non è solo una tecnica per istruire meglio l’AI, ma può diventare una vera e propria architettura cognitiva”, un modo per strutturare il pensiero delle macchine in modo simile al nostro. In altri termini, si passa da un’interazione estemporanea a una strategia conversazionale articolata in più fasi.

Il prompt chaining è parte di una più ampia famiglia di tecniche di prompt engineering sviluppate per migliorare il dialogo con i modelli AI. In questo approfondimento ho dato maggiore dettaglio alle principali tecniche – dal zero-shot e few-shot prompting, al chain-of-thought e al framework ReAct, fino a metodologie differenti come il self-consistency, Tree of Thoughts e RAG (Retrieval-Augmented Generation).

Per ognuna troverete i principi di funzionamento, i contesti di applicazione più efficaci, i vantaggi e i limiti, includendo esempi o scenari d’uso pratici quando utili. L’obiettivo è fornire una panoramica tecnica ma accessibile a un pubblico eterogeneo di utilizzatori dell’AI (su diversi tool), condividendo spunti applicativi e indicando come queste tecniche possano contribuire a un’adozione più consapevole e proficua dell’intelligenza artificiale nelle organizzazioni.

Prompt Chaining (Catena di Prompt)

Cos’è e principi di base: Il Prompt Chaining consiste nel concatenare più prompt in sequenza, in modo che ogni fase guidi la successiva. Invece di porre al modello una singola richiesta molto complessa, si suddivide il compito in sotto-obiettivi: il modello produce un risultato parziale che viene poi utilizzato in un prompt successivo, e così via. Questa tecnica si basa sul principio della decomposizione del problema: affrontare un “elefante” un pezzo alla volta (parafrasando il detto, “tagliare l’elefante a pezzi e ragionare per passi”). Ad esempio, anziché chiedere direttamente “Scrivi un rapporto completo sull’andamento del mercato AI nel 2025”, si può procedere per passi: prima chiedere una scaletta dei punti chiave, poi far approfondire ogni punto, infine richiedere una sintesi finale. Ogni prompt nella catena si concentra su un sotto-compito specifico mantenendo il contesto generale, e guida il modello passo dopo passo. In questo modo l’AI “pianifica” internamente la soluzione, similmente a un flusso di lavoro umano strutturato.

Contesti di utilizzo efficaci: il prompt chaining è efficace quando il compito richiesto al modello è complesso, lungo o richiede diverse fasi logiche. Nella progettazione di contenuti articolati (es. corsi, documentazione, white paper), questa tecnica permette di mantenere coerenza e approfondimento senza sovraccaricare il modello con un’unica richiesta monolitica. In ambito educativo o formativo, ad esempio, si può usare un approccio “a catena” per sviluppare un corso: prima generare un elenco di moduli, poi i dettagli di ciascun modulo, poi esercizi per ogni modulo, ecc. Anche per analisi strategiche o problem solving multi-step, il chaining consente all’AI di seguire un ragionamento articolato invece di tentare di dedurre tutto in un solo passaggio. Questa metodologia trova applicazione ogniqualvolta si desideri avere maggiore controllo sul processo con cui l’AI arriva a una risposta, suddividendolo in tappe verificabili.

Vantaggi: scomponendo il problema, il prompt chaining riduce l’ambiguità e distribuisce lo sforzo cognitivo del modello su più interazioni. Ne derivano output più accurati e coerenti, poiché il modello può concentrarsi su un obiettivo specifico ad ogni passo. L’approccio iterativo consente di mantenere il contesto lungo tutta la conversazione e di raffinare progressivamente la risposta. Inoltre, ogni fase intermedia offre all’utente umano l’opportunità di correggere la rotta o aggiungere istruzioni, portando a un maggiore controllo sul risultato finale. Un ulteriore beneficio è legato all’ottimizzazione delle risorse: invece di generare un lungo testo potenzialmente ridondante o fuori fuoco, l’AI produce contenuti modulari più gestibili, ottimizzando l’uso della finestra di contesto (token) e riducendo il rischio di output incoerenti dovuti a contesti troppo lunghi.

Limiti: Il prompt chaining richiede una certa pianificazione e abilità nel disegnare la sequenza di prompt. È un processo più laborioso e dispendioso in termini di tempo e di chiamate al modello rispetto a un singolo prompt: ogni passo aggiuntivo comporta un’interazione separata (con relativo costo, se si utilizza un API a pagamento, e latenza). Inoltre, l’utente deve assicurarsi che il contesto venga passato correttamente da un prompt all’altro (ad esempio riassumendo brevemente le informazioni rilevanti nel prompt successivo, se la memoria del modello è limitata). Un rischio è l’errore propagato: se un passaggio intermedio genera un’informazione errata o fuorviante, questa potrebbe propagarsi nelle fasi successive. Mitigare questo rischio richiede intervento umano (controllo degli output intermedi) o strategie per ripristinare il corretto contesto in corsa. Infine, come tutte le tecniche iterative, il chaining può portare a output eccessivamente prolissi se ogni passo non è ben focalizzato, è importante definire chiaramente gli obiettivi di ciascun sottoprompt.

Esempio pratico: Un esempio semplice di prompt chaining è la generazione di un articolo complesso. Invece di chiedere direttamente all’AI l’intero articolo, si può procedere così:

  1. Prompt 1: “Elenca i principali trend del mercato AI nel 2025 di cui parlare in un articolo.”Output: lista di trend (es. adozione di LLM nelle imprese, regolamentazione AI, nuovi modelli open-source, ecc.).

  2. Prompt 2: “Per ciascun trend identificato, forniscimi un breve paragrafo di spiegazione.”Output: paragrafi esplicativi per ogni punto della lista.

  3. Prompt 3: “Scrivi un’introduzione generale all’articolo che presenti l’argomento e i trend che saranno discussi.”Output: introduzione coesa menzionando i trend.

  4. Prompt 4: “Unisci il tutto in un articolo completo, assicurandoti che i paragrafi seguano l’ordine dei trend presentati e aggiungi una conclusione.”Output: articolo finale strutturato e approfondito.

Ad ogni step, l’utente può controllare e affinare i risultati (ad esempio, aggiungendo un trend dimenticato, o correggendo un paragrafo poco chiaro) prima di passare allo step successivo. Questo processo in catena assicura che il risultato finale sia più organico e accurato rispetto a una singola generazione “one-shot”.

Zero-Shot Prompting

Cos’è e principi di base: Lo Zero-Shot Prompting si riferisce alla capacità di un modello di linguaggio di eseguire un compito senza che gli siano forniti esempi espliciti nella richiesta. In pratica, al modello viene data solo un’istruzione o domanda, confidando nelle conoscenze generali apprese durante l’addestramento per produrre la risposta corretta. Si parla di “zero-shot” (zero esempi) perché il prompt non include alcuna dimostrazione o caso specifico. Ad esempio, se vogliamo che il modello traduca una frase, in zero-shot è sufficiente scrivere: “Traduci in inglese: Oggi piove a dirotto.” senza fornire esempi di traduzione. Il modello tenterà comunque di eseguire il compito basandosi sulle sue conoscenze pregresse della lingua. Questo approccio sfrutta la generalizzazione del modello: i grandi modelli hanno visto talmente tanti dati durante l’addestramento che spesso possono dedurre come svolgere un compito nuovo solo dalla descrizione testuale del compito stesso.

Contesti di utilizzo efficaci: Il zero-shot è la modalità più immediata di interazione e risulta efficace quando:

  • Il compito è semplice o comune, ad esempio traduzione, risposta a domande di cultura generale, riassunto di un testo breve, classificazione di sentiment di una frase, ecc., per cui il modello possiede già esperienza implicita. Ad esempio, un LLM può classificare il sentimento di “Questo film è uno spreco di tempo” come negativo anche senza esempi, perché ha appreso dal corpus cosa significa esprimere un giudizio negativo.

  • Si dispone di poco contesto o dati da fornire al modello. In scenari in cui l’utente non ha esempi concreti da inserire, sfruttare la conoscenza intrinseca del modello è l’unica opzione.

  • Rapidità e versatilità sono prioritarie: il zero-shot permette di ottenere una risposta immediata senza preparare prompt complessi, ed è adatto in applicazioni in tempo reale o prototipazione veloce. Ad esempio, per avere una risposta rapida a “Chi era il presidente degli USA nel 1990?” un prompt zero-shot diretto può bastare.

Vantaggi: I punti di forza del zero-shot prompting includono la semplicità e l’efficienza. Non è necessario preparare esempi o dati di riferimento, il che fa risparmiare tempo e risorse, rendendo questo approccio subito applicabile in molti contesti. Inoltre, mostra la versatilità del modello: con un’unica configurazione di addestramento, l’LLM può affrontare un’ampia gamma di compiti senza ulteriori interventi. In ambito operativo ciò significa poter rispondere a richieste diverse (dalla scrittura creativa al coding) semplicemente cambiando l’istruzione, senza dover riprogrammarlo. Un altro vantaggio è che si evita di biasare il modello con esempi potenzialmente fuorvianti: talvolta fornire esempi può indurre il modello a riprodurli pedissequamente; in zero-shot il modello genera ex novo basandosi solo sull’obiettivo descritto.

Limiti: Lo zero-shot spesso soffre di minore accuratezza o specificità rispetto ad approcci con esempi. La mancanza di esempi di riferimento può portare il modello a interpretare la richiesta in modo diverso da quanto l’utente intendeva, soprattutto se il prompt non è perfettamente chiaro. C’è una forte dipendenza dalla formulazione del prompt: una leggera ambiguità può condurre l’AI fuori strada, non avendo esempi cui ancorarsi. Inoltre, in compiti più complessi o di nicchia, il modello potrebbe fornire risposte superficiali o sbagliate, poiché senza esempi non ha indicazioni su come strutturare la soluzione. In sintesi, la qualità dell’output è variabile: alcuni LLM molto avanzati (es. GPT-4) riescono sorprendentemente a fare ragionamenti zero-shot, ma modelli meno sofisticati potrebbero fallire senza qualche guida aggiuntiva.

Esempio pratico: Un utilizzo tipico del zero-shot è porre domande dirette al modello. Ad esempio: “Spiega la differenza tra energia rinnovabile ed energia non rinnovabile.”  Senza fornire esempi, il modello dovrà attingere alla sua conoscenza generale per articolare una spiegazione. Se il modello ha una buona base, risponderà elencando cosa sono le energie rinnovabili (solare, eolica, ecc.) e non rinnovabili (combustibili fossili, nucleare tradizionale), evidenziando vantaggi e svantaggi, tutto basandosi sulla singola istruzione ricevuta. Se la domanda fosse più vaga (“Parlami dell’energia.”), il rischio zero-shot è di ottenere una risposta generica o non centrata sull’aspetto desiderato. Per questo, anche in zero-shot, spesso si cerca di rendere il prompt chiaro e specifico, ad esempio aggiungendo “in modo conciso e focalizzato sugli aspetti ambientali”. In assenza di esempi, ogni parola nel prompt conta per orientare la risposta.

Few-Shot Prompting

Cos’è e principi di base: Il Few-Shot Prompting è una tecnica in cui al modello vengono forniti uno o più esempi della richiesta all’interno del prompt, per guidarlo verso la risposta desiderata. In pratica, il prompt include sia l’istruzione sia alcune coppie di input-output di esempio (tipicamente 1 a 5 esempi, da cui “few”). Ad esempio, per insegnare al modello a rispondere con un certo stile, potremmo fornire due Q&A di esempio e poi porre una nuova domanda simile. Questo approccio sfrutta la capacità del modello di apprendimento contestuale: grazie agli esempi, l’LLM può dedurre il pattern di soluzione voluto e replicarlo per l’input nuovo. Il modello, in sostanza, viene “calibrato” sul momento tramite i prompt di esempio, senza necessitare di un addestramento esterno aggiuntivo.

Contesti di utilizzo efficaci: Il few-shot è indicato quando:

  • Il compito è specifico o poco comune e vogliamo mostrare al modello esattamente il formato o il ragionamento atteso. Ad esempio, per far generare titoli creativi in rima per articoli, potremmo dare 2–3 esempi di titoli in rima.

  • Si dispone di esempi rappresentativi della richiesta. In scenari aziendali, spesso si hanno storici o set di dati di riferimento (es. FAQ con domande e risposte). Includendone alcune nel prompt, il modello comprenderà meglio come deve rispondere in quello stile o dominio.

  • Precisione e coerenza sono critiche. Il few-shot può drasticamente migliorare la pertinenza delle risposte rispetto al zero-shot. In applicazioni come customer support automatizzato, fornire esempi di domande dei clienti e risposte appropriate può far sì che il modello risponda in modo più accurato ai nuovi quesiti dei clienti (es. mostrando il tono e il livello di dettaglio giusto).

Vantaggi: Aggiungendo pochi esempi nel prompt, il modello si adatta rapidamente al contesto specifico, producendo risposte più accurate e contestuali. Si ottiene spesso una maggiore precisione perché il modello replica la logica o lo stile mostrato negli esempi. Il few-shot permette anche una certa flessibilità: con un piccolo insieme di dati di esempio, si “sposta” l’LLM su un dominio o task desiderato senza bisogno di costosi re-training o fine-tuning esterni. È come fornire un mini-brief al modello: in base a pochi casi, capisce meglio cosa fare. Inoltre, gli esempi aiutano a ridurre ambiguità ed errori: se la domanda da risolvere può essere interpretata in modi diversi, mostrare un esempio toglie dubbi su quale interpretazione sia corretta (il modello tenderà a imitare la soluzione data nell’esempio).

Limiti: Il principale costo del few-shot è la necessità di curare esempi di qualità. Preparare gli esempi pertinenti richiede tempo e competenza sul problema. Inoltre, inserire esempi nel prompt consuma spazio nella finestra di contesto del modello, limitando la lunghezza della richiesta o della risposta possibile (soprattutto con modelli con contesto ridotto). C’è poi la questione della varietà: se gli esempi forniti non coprono sufficientemente i diversi casi, il modello potrebbe generalizzare male. In alcuni casi può addirittura overfittare sugli esempi: ad esempio, se diamo 3 esempi tutti con la stessa risposta, il modello potrebbe rispondere sempre quella (anche quando non dovrebbe). È dunque cruciale che gli esempi siano rappresentativi e diversificati. Un altro limite è che il modello potrebbe copiare parti dell’esempio nella risposta (soprattutto se l’input nuovo assomiglia molto a un esempio): questo può introdurre errori se l’output dell’esempio non si applica esattamente al nuovo caso. In sintesi, il few-shot bilancia un miglioramento di performance con un aumento di complessità nella progettazione del prompt.

Esempio pratico: Poniamo di voler usare l’AI per classificare recensioni di prodotti come positive o negative. In zero-shot potremmo dire: “Etichetta la seguente recensione come positiva o negativa: ‘Il prodotto funziona malissimo, sono molto deluso’.” Il modello potrebbe capire, ma con few-shot faremo meglio. Costruiamo il prompt con esempi:

  1. Prompt: Recensione: “Questo gadget è fantastico! Ha superato le mie aspettative.” Sentiment: Positivo. Recensione: “Purtroppo il dispositivo si è rotto dopo un giorno. Che spreco di soldi.” Sentiment: Negativo. Ora etichetta la seguente recensione “Il prodotto funziona malissimo, sono molto deluso.”

Fornendo questi esempi, l’AI apprende dal contesto come svolgere il compito: vede il formato Recensione -> Sentiment e i criteri (nel primo caso entusiasmo = Positivo, nel secondo caso problema grave = Negativo). Di conseguenza risponderà molto probabilmente “Negativo” per la recensione data, con maggiore affidabilità rispetto a zero-shot. Questo paradigma few-shot simula in miniatura quello che sarebbe un addestramento supervisionato, ma avviene interamente nel prompt.

Chain-of-Thought (CoT) Prompting

Cos’è e principi di base: Il Chain-of-Thought (CoT) prompting è una tecnica avanzata in cui si induce il modello a svolgere un ragionamento passo-passo esplicito per arrivare alla soluzione. Invece di limitarsi a fornire direttamente la risposta finale, al modello viene richiesto (in modo implicito o esplicito) di “pensare a voce alta”, elencando la sequenza logica di deduzioni o calcoli che conducono alla risposta. In pratica, il prompt incoraggia il modello a suddividere il problema complesso in passaggi intermedi risolvibili individualmente. Ciò può avvenire tramite istruzioni come “mostra il ragionamento” o con esempi di soluzione in cui viene illustrato il processo (“Prima fai questo calcolo, poi quest’altro, infine…”). L’idea alla base è che i LLM, se guidati a articolare un chain of thought, possano raggiungere una comprensione più profonda del problema e quindi risposte più corrette, simili a come un umano risolverebbe mostrando i calcoli su carta.

Contesti di utilizzo efficaci: Il CoT è particolarmente potente in compiti che richiedono logica, calcoli o multi-step reasoning:

  • Problemi matematici o aritmetici a più operazioni: ad esempio, risolvere problemi di testo (“se Maria ha 5 mele e ne compra altre 3, quante mele ha?”) chiedendo al modello di procedere per passaggi (conta mele iniziali, aggiungi nuove mele, ecc.).

  • Puzzle o problemi di logica (indovinelli, sillogismi, deduzioni): far esplicitare al modello le informazioni date e i passi per arrivare alla conclusione aiuta ad evitare salti logici errati.

  • Domande di common sense o implicazioni: es. “Un pallone bucato può rimbalzare?” – inducendo il ragionamento (“Un pallone bucato perde aria, senza aria non può rimbalzare, quindi no”) si aumenta la probabilità di correttezza su questioni non banali.

  • Pianificazione e scenari complessi: ad esempio chiedere al modello di elaborare una strategia marketing strutturata: col CoT si può ottenere che elenchi prima analisi, poi obiettivi, poi tattiche in ordine logico. In generale, il chain-of-thought è ideale in qualunque contesto dove una soluzione deve emergere da più step concatenati, permettendo al modello di “concentrarsi” su un passo alla volta.

Vantaggi: Far esprimere al modello una catena di pensieri porta diversi benefici. Innanzitutto migliora la coerenza logica dell’output: le risposte risultano più strutturate e fondate, soprattutto su problemi complessi che altrimenti il modello potrebbe affrontare in modo superficiale. Il CoT aiuta il modello a comprendere meglio la natura del problema, perché nel generare il ragionamento intermedio esso stesso “riscopre” i sotto-obiettivi necessari. Ciò conduce in genere ad una maggiore accuratezza finale. Un altro vantaggio cruciale è la trasparenza: vedere il ragionamento passo-passo fornisce agli utenti umani insight sul perché il modello arriva a una certa risposta, rendendo più facile individuare eventuali errori o passi poco convincenti. Questo aumenta la fiducia e consente di intervenire, se necessario, su uno specifico passo (ad esempio correggendo un calcolo intermedio sbagliato). Inoltre, la tecnica CoT ha dimostrato di estendere le capacità dei modelli sui task di ragionamento: ricerche hanno mostrato che LLM di media dimensione, se istruiti a fare chain-of-thought, possono risolvere problemi che altrimenti sbaglierebbero, raggiungendo performance paragonabili a modelli più grandi non-CoT.

Limiti: L’uso di chain-of-thought richiede solitamente prompt più complessi e aumenta la lunghezza delle risposte, quindi può rallentare il tempo di risposta e consumare più token. C’è un overhead computazionale nel generare tutti i passi intermedi. Inoltre, la formulazione del prompt CoT deve essere accurata: non tutti i modelli seguono l’istruzione di fare ragionamenti espliciti di default. Spesso si utilizzano frasi trigger (ad es. “Reason step by step:”) o esempi formattati in modo da indurre il comportamento. Se il prompt è mal concepito, l’LLM potrebbe elencare passi poco utili o addirittura allucinare ragionamenti sbagliati. Un altro aspetto è che CoT, pur migliorando la logicità, non garantisce infallibilità: il modello potrebbe comunque compiere errori in uno step, e questi errori comprometteranno la risposta finale (garbage in, garbage out). In alcuni casi, soprattutto con modelli più piccoli, abbiamo visto ragionamenti fittizi , il modello produce un chain-of-thought che sembra coerente ma porta comunque a una risposta errata. Infine, non tutti i problemi richiedono CoT: per domande semplici, forzare un ragionamento dettagliato può essere inefficiente. Bisogna dunque decidere caso per caso se vale la pena attivare questa modalità.

Esempio pratico: Consideriamo un problema matematico a parole: “In una fattoria ci sono 3 galline e 2 mucche. Quante zampe ci sono in totale?”. Un approccio chain-of-thought potrebbe essere innescato da un prompt come: “Rispondi passo-passo: prima calcola le zampe delle galline, poi delle mucche, e somma.”. Il modello allora potrebbe produrre:

  • “Ogni gallina ha 2 zampe. Ce ne sono 3, quindi 3×2 = 6 zampe di gallina. Ogni mucca ha 4 zampe. Ce ne sono 2, quindi 2×4 = 8 zampe di mucca. In totale le zampe sono 6 + 8 = 14.”Risposta: 14.

Qui vediamo il chain-of-thought esplicito. Senza questa guida, il modello potrebbe semplicemente dare una risposta (si spera 14), ma non mostrando il calcolo sarebbe difficile capire se l’ha ottenuta per via corretta o per fortuna. Con CoT, anche se il numero finale fosse sbagliato, l’utente può vedere dove il ragionamento ha fallito (ad esempio, se avesse calcolato male 3×2). Nell’uso pratico, CoT è risultato determinante per migliorare task di matematica, logica e persino comprensione di testi complessi, al punto che è diventata una delle tecniche standard per sfruttare al meglio i LLM in scenari di reasoning avanzato.

ReAct (Reasoning + Acting)

Cos’è e principi di base: ReAct è un paradigma che unisce il ragionamento (Reasoning) tipico del chain-of-thought con la capacità di agire (Acting) nell’ambiente esterno. Proposto da Yao. nel 2022, il framework ReAct prevede che il modello generi sia tracce di ragionamento verbale sia azioni specifiche per il task in modo intercalato. In pratica, durante l’elaborazione, l’LLM alterna pensieri e azioni: i pensieri sono passi di ragionamento interni, le azioni sono operazioni compiute all’esterno, come effettuare una ricerca, interrogare una base di conoscenza, eseguire un calcolo o chiamare un’API. Questa interazione avviene ciclicamente: il modello pensa -> compie un’azione -> ottiene un’osservazione dall’ambiente -> continua a pensare in base a quella nuova informazione, e così via. L’idea chiave è che combinando ragionamento e azione, l’AI possa iterare verso la soluzione integrando conoscenze esterne e aggiornando il proprio piano man mano.

Contesti di utilizzo efficaci: ReAct si rivela potente in scenari in cui il modello da solo non ha tutte le informazioni o capacità per completare il compito e deve interagire con strumenti o dati esterni. Ad esempio:

  • Question answering su conoscenze aggiornate: se chiediamo “Chi è l’attuale CEO di <una certa azienda>?”, un LLM addestrato su dati vecchi potrebbe non sapere la risposta. Un agente ReAct potrebbe eseguire un’azione di ricerca sul web, leggere la pagina trovata (osservazione), poi rispondere in base alle info aggiornate.

  • Risoluzione di problemi che richiedono calcoli o simulazioni: es. chiedere “Qual è la radice quadrata di 1048576?” – invece di far affidamento sulle sue capacità matematiche (che possono essere limitate o soggette a errori), il modello ReAct potrebbe invocare una calcolatrice esterna come azione, ottenere il risultato e poi comunicarlo.

  • Interazione con ambienti o database: in un contesto di assistente personale, l’AI potrebbe dover controllare il calendario, inviare email, o eseguire azioni nel mondo reale. ReAct fornisce un quadro per farlo: il modello decide un’azione (ad es. “Apri calendario”), l’ambiente restituisce l’esito (“Calendario aperto, prossimi eventi…”), il modello ragiona e decide la prossima mossa.

  • Task di decision-making complessi: ad esempio nella risoluzione di un mistero o di un gioco di avventura testuale, l’agente ReAct può pianificare (ragionamento) e testare mosse (azione) esplorando attivamente il problema.

Vantaggi: Il principale vantaggio di ReAct è che supera i limiti di conoscenza chiusa del modello, permettendo accesso a informazioni aggiornate o specifiche durante la generazione. Questo riduce drasticamente il fenomeno delle allucinazioni: se il modello può verificare fatti tramite azioni (es. cercare su Wikipedia), è meno incline a inventare risposte. ReAct inoltre migliora l’accuratezza fattuale e l’affidabilità delle risposte, come dimostrato da esperimenti che hanno visto l’agente ReAct superare approcci puramente basati su ragionamento o su azione isolate. Un altro benefit è la trasparenza e controllabilità: poiché il modello elenca i suoi pensieri e azioni, un osservatore umano può seguire passo passo il processo e intervenire se necessario (ad esempio, interrompere l’esecuzione di un’azione non voluta). In ambito applicativo, ReAct apre la strada a LLM “agenti” in grado di compiere operazioni utili: molti sistemi pratici (come i plugin di ChatGPT, o framework tipo LangChain) adottano proprio questo paradigma per far sì che l’AI consulti documenti, esegua codice o chiami servizi in base alla richiesta dell’utente. In sintesi, ReAct aumenta la capacità di problem solving del modello combinando il meglio di due mondi: il ragionamento interno e l’interazione con l’esterno.

Limiti: Implementare ReAct è complesso. Richiede definire una sorta di protocollo che il modello segua nei prompt, ad esempio una sintassi per distinguere Thought (pensiero) e Action e Observation (risultato dell’azione). Non tutti i modelli seguono facilmente questo schema – in genere si usano LLM molto obbedienti e capienti, e prompt di contesto con esempi di formato ReAct. C’è poi il tema della sicurezza: dare a un modello la possibilità di agire (eseguire codice, cercare online) comporta rischi; bisogna porre limiti sulle azioni possibili onde evitare comportamenti indesiderati. Un altro limite è la dipendenza dalla qualità degli strumenti esterni: se il sistema di ricerca fornisce risultati sbagliati o se un’API chiamata fallisce, l’agente potrebbe andare in stallo o prendere decisioni errate. Inoltre, orchestrare ragionamenti e azioni iterativamente può essere costoso in termini computazionali – ogni ciclo ragionamento/azione equivale a più chiamate modello + costi delle operazioni esterne. Vi è anche una maggiore possibilità di bug logici: l’agente potrebbe entrare in loop (continuare a cercare senza mai rispondere) o tentare azioni non supportate se il prompt non lo vincola bene. Infine, leggere e interpretare le osservazioni (ad esempio il contenuto di una pagina web) è vincolato alla finestra di contesto: bisogna spesso riassumere o filtrare i dati esterni prima di reinserirli nel prompt successivo.

Esempio pratico: Un caso concreto di ReAct è un assistente QA con accesso al web. Supponiamo l’utente chieda: “Quanti astronauti sono attualmente sulla Stazione Spaziale Internazionale?”. Un semplice LLM addestrato fino al 2021 non ha questa informazione aggiornata. Un agente ReAct potrebbe operare così:

  • Thought: “La domanda richiede un dato aggiornato. Devo cercarlo online.”

  • Action: Search("numero astronauti attualmente ISS")

  • Observation: (il sistema di ricerca restituisce un risultato: una pagina Wikipedia o news con l’informazione).

  • Thought: “Ho trovato un risultato che sembra pertinente, ora lo leggo.”

  • Action: Open(URL_pagina)

  • Observation: (testo della pagina: “… attualmente sulla ISS ci sono 7 astronauti …”).

  • Thought: “Ora ho l’informazione, posso formulare la risposta.”

  • Final Answer: “Al momento attuale, ci sono 7 astronauti a bordo della ISS.”

Durante questo processo, l’AI ha ragionato sui passi necessari e utilizzato strumenti (search e open web) per colmare le sue lacune di conoscenza. Tutto ciò avviene in pochi secondi e l’utente finale vede solo la risposta corretta con eventualmente la fonte. Questo esempio illustra come ReAct renda l’AI proattiva e affidabile per domande altrimenti fuori portata per un modello statico.

Nota: poichè mi è stato chiesto in aula, anche se il processo sembra simile al comportamento di ChatGPT 4o , parliamo di cose diverse:

  • ReAct = paradigma di prompting (schema per orchestrare ragionamenti + azioni).
  • ChatGPT-4o = modello multimodale, che può integrare o ispirarsi a logiche ReAct ma non è basato su di esso.

Self-Consistency

Cos’è e principi di base: La Self-Consistency è una tecnica avanzata che mira a migliorare la correttezza delle risposte del modello attraverso un approccio di aggregazione statistica dei ragionamenti. Proposta da Wang (2022), nasce come metodo per sostituire il tradizionale greedy decoding usato nel chain-of-thought con qualcosa di più robusto. In pratica, invece di generare una singola catena di ragionamento (che potrebbe essere fallace), si fa in modo che il modello ne generi molteplici varianti indipendenti, quindi si osservano le diverse risposte finali e si sceglie quella più comune – presumendo che sia la più correttapromptingguide.ailearnprompting.org. È un po’ come porre la stessa domanda a tanti “cloni” del modello e poi fare una votazione di maggioranza sulle risposte. L’idea è che il modello, seguendo vie diverse di pensiero grazie alla casualità nel processo di generazione, potrebbe arrivare a risposte differenti; tuttavia, se c’è una risposta oggettivamente corretta, è probabile che molte di quelle catene di pensiero convergano su di essa, rendendola la risposta più frequente.

Contesti di utilizzo efficaci: La self-consistency si applica in particolare a compiti con una sola risposta corretta ben definita, dove piccoli errori nel ragionamento possono portare a risposte sbagliate. Ad esempio:

  • Problemi di matematica e aritmetica: un LLM anche con chain-of-thought può occasionalmente errare un calcolo. Facendogli risolvere lo stesso problema più volte (con variazioni stocastiche nel generare i passaggi), possiamo mitigare l’errore scegliendo il risultato più frequente, che statisticamente sarà quello giusto nella maggioranza dei casi.

  • Logica e common sense: domande vero/falso, causali o di completamento logico dove il modello potrebbe indecidersi. Esempio: “Se ieri era lunedì, che giorno sarà domani?”. Alcune catene di ragionamento difettose potrebbero dare risposte errate, ma la maggior parte convergerà su mercoledì. La self-consistency prende quel consenso.

  • QA a risposta chiusa: domande di conoscenza generale con risposta univoca. Se il modello è incerto può produrre risposte diverse (soprattutto con temperature più alte), ma con self-consistency possiamo filtrare il rumore.

  • Situazioni in cui si valuta la affidabilità: la tecnica permette di assegnare una sorta di “confidence” alla risposta scelta (data appunto dalla percentuale di catene di pensiero che l’hanno prodotta). Questo può essere utile per sapere quando il modello è incerto (es. se c’è spaccatura tra due risposte, forse serve intervento umano).

Vantaggi: La self-consistency ha mostrato un netto aumento delle prestazioni del chain-of-thought su molti task di ragionamento complesso. Aggregando i risultati di molteplici chain, si elimina l’influenza di ragionamenti outlier o casuali: l’effetto è simile a quello di una committee di esperti che discutono, dove l’errore di uno può essere compensato dal corretto ragionamento di altri. In pratica, si riduce la varianza delle risposte del modello, ottenendo output più stabili e corretti. Sulle domande aritmetiche e di logica, questo metodo ha portato a risolvere correttamente problemi che un singolo CoT spesso sbagliava. Un altro beneficio è che non richiede modifiche all’addestramento del modello: è una tecnica di decoding, quindi applicabile in post-processing a qualunque LLM. Inoltre, fornisce una misura di sicurezza: se tutte le 10 catene di ragionamento danno risposte diverse, chiaramente il modello non è affidabile su quella query – informazione utile per decidere di non fidarsi o di riformulare la domanda.

Limiti: La self-consistency aumenta il costo computazionale in modo lineare con il numero di ragionamenti generati: se facciamo 10 “shot” di ragionamento per ogni domanda, stiamo usando 10 volte il modello. Questo la rende onerosa in situazioni di produzione a larga scala, salvo ottimizzazioni. Inoltre, scegliere la risposta più frequente funziona bene quando effettivamente c’è una risposta dominante corretta; ma se la domanda è ambigua o aperta, il concetto di risposta “consistente” perde significato. Ad esempio, su una domanda aperta (es. “Qual è un buon titolo per un romanzo di fantascienza?”), le risposte potranno essere tutte diverse e non ce n’è una “migliore” oggettivamente – in questi casi la self-consistency non si applica (o potrebbe addirittura essere controproducente scegliendo una risposta generica). Va notato poi che la qualità delle catene di pensiero iniziali è fondamentale: se il modello ha forti bias o lacune e tende a sbagliare sistematicamente un certo tipo di problema, generare più ragionamenti non aiuterà (tutti convergeranno sulla risposta sbagliata!). Quindi la self-consistency aiuta soprattutto quando il modello ha competenza sufficiente ma può incorrere in errori casuali. Infine, tecnicamente serve poter campionare diverse risposte: ciò implica impostare una temperatura di generazione > 0 e magari usare nucleus sampling per ottenere sufficiente diversità nelle chain – parametri che vanno tarati con cura per bilanciare diversità e qualità.

Esempio pratico: Immaginiamo di sottoporre al modello un piccolo indovinello matematico: “Quando avevo 8 anni, mio fratello ne aveva la metà. Ora che ho 14 anni, quanti anni ha mio fratello?”. Molti LLM tendono a rispondere frettolosamente “7” (sbagliato) se non ragionano bene. Con self-consistency, faremmo generare al modello magari 5 diverse spiegazioni/soluzioni. Esempio di possibili catene:

  1. “Fratello aveva 4 quando io 8. La differenza età è 4. Ora ho 14, fratello 10.” → Risposta: 10.

  2. “Differenza di 4 anni. A 14 anni, fratello 14-4=10.” → Risposta: 10.

  3. “Io 8, lui 4. Gap 4. Io 14, lui 14-4=10.” → Risposta: 10.

  4. “Se fratello metà di 8, aveva 4. Ora 14 e fratello 4+ (14-8)=10.” → Risposta: 10.

  5. “Fratello età attuale? Forse 7.” → Risposta: 7.

Notiamo che 4 catene su 5 danno risposta 10, una dà 7. Facendo majority voting, la risposta consistente è 10 (che è quella corretta). In questo modo abbiamo evitato l’errore della catena #5. In effetti, studi hanno osservato che la majority vote di più catene aumenta notevolmente l’accuratezza in problemi aritmetici e di logica rispetto a singola risposta CoT. Naturalmente, è importante che ogni catena sia indipendente: tipicamente si ottiene ciò ripetendo la query con un diverso seed stocastico o fondendo la richiesta in prompt diversi (variazioni nell’esposizione del problema per stimolare percorsi differenti). La self-consistency incarna un principio semplice: più voci possono essere meglio di una, quando si tratta di affidarsi a un AI per ragionare.

Tree of Thoughts (ToT)

Cos’è e principi di base: Il Tree-of-Thoughts (ToT) è un framework di prompting che generalizza l’idea del chain-of-thought espandendola in forma di albero decisionale. Invece di sviluppare un singolo percorso lineare di ragionamento, il modello esplora più possibili ramificazioni di pensiero da uno stesso stato, un po’ come valutare diverse strade per risolvere un problema. Questo simula strategie cognitive umane in cui, di fronte a un problema complesso, consideriamo varie ipotesi o sottosoluzioni parallele prima di impegnarci in una. Nel prompting ToT, ad ogni step il modello può generare diversi “pensieri” alternativi (nodi figli), costruendo così un albero di stati. Si definiscono criteri per valutare i pensieri (ad esempio tramite una funzione di valutazione o chiedendo al modello di dare un punteggio a ciascuno) e una politica per esplorare l’albero (in profondità, in ampiezza, con tagli potati dei rami meno promettenti). Questo approccio incorpora anche meccanismi come il lookahead (guardare avanti alcuni passi per stimare dove porta un certo ramo) e la già citata self-consistency per valutare l’affidabilità di un ramo tramite generazioni multiple. In breve, ToT è ispirato alle tecniche di ricerca AI classiche (come gli algoritmi di tree search) applicate all’ambito generativo: il prompt engineering diventa orchestrazione di un search tree di pensieri.

Contesti di utilizzo efficaci: Il Tree-of-Thoughts è indicato per problemi di deliberate problem solving, ovvero situazioni in cui:

  • Il percorso verso la soluzione non è unico o scontato e potrebbe richiedere di provare varie strade. Ad esempio, puzzle complessi, labirinti logici, giochi tipo scacchi o enigmi di pianificazione.

  • È possibile valutare parzialmente una soluzione prima di completarla. Ad esempio, nella scrittura creativa ramificata: generare diversi possibili proseguimenti di una storia e poi scegliere quello più interessante per continuare la narrazione.

  • Decision making con branching: scenari in cui ad ogni decisione ne conseguono altre (tipo choose your own adventure). Un sistema ToT può esplorare diverse sequenze di decisioni e identificare l’outcome ottimale secondo un certo criterio.

  • Problemi che beneficiano di tentativi ed errori: in un chain-of-thought lineare, un errore incorrerebbe e bloccherebbe il risultato; in ToT, se un ramo fallisce, se ne possono percorrere altri. Ad esempio, risolvere un rompicapo dove bisogna combinare mosse diverse: l’AI può provare un certo ordine di mosse (ramo A) e se porta a un vicolo cieco, tornare indietro e provare un ordine diverso (ramo B).

Vantaggi: Il ToT aumenta notevolmente la capacità esplorativa del modello. Invece di vincolarsi a un singolo ragionamento che potrebbe essere subottimale, l’AI può considerare molteplici alternative, aumentando la probabilità di trovare una soluzione corretta o creativa. Questo porta ad una maggiore efficacia nei compiti di problem solving generali. Inoltre, consente di implementare comportamenti di backtracking: se un certo filone di pensiero non funziona, l’agente può tornare a un nodo precedente e percorrere un altro ramo, un po’ come farebbe un programmatore nel debug di un algoritmo o una persona nel risolvere un puzzle. Il risultato finale è che il modello con ToT può risolvere problemi che richiedono tentativi multipli, laddove un CoT lineare fallirebbe se il primo tentativo è errato. Un altro beneficio è la possibilità di inserire heuristiche di valutazione: ad esempio, per ogni stato intermedio si può far valutare al modello quanto è vicino alla soluzione o se le condizioni necessarie sono ancora soddisfatte. Queste euristiche guidano la ricerca nell’albero in modo più intelligente, concentrando gli sforzi sui rami promettenti. In letteratura si è visto che ToT può combinare con successo ragionamento e ricerca strutturata, portando l’AI più vicina a un processo deliberativo umano nel risolvere problemi complessi. La possibilità di lookahead e di rivedere decisioni rende le soluzioni più ottimizzate e ponderate.

Limiti: Il rovescio della medaglia è la complessità computazionale: un’esplorazione combinatoriale di pensieri cresce esponenzialmente se non limitata. Bisogna definire attentamente il branching factor (quanti pensieri alternativi generare per step) e la depth massima dell’albero, altrimenti si rischia un’esplosione di possibilità ingestibili. Anche con euristiche, il costo può essere molto elevato per problemi appena un po’ più grandi. Un altro limite è che orchestrare un ToT richiede un controllo fine che oggi non è nativamente supportato dai modelli: tipicamente si devono scrivere script esterni che interfacciano col modello generando e valutando i nodi. Questo è più complesso di un semplice prompt singolo o di un chain-of-thought lineare. Inoltre, la qualità dipende fortemente da come viene progettata la funzione di valutazione dei rami: se la valutazione è sbagliata, il modello potrebbe scartare il ramo giusto e seguire quelli sbagliati (analogia: local minima in una ricerca). Dal punto di vista dell’usabilità, ToT rende il comportamento dell’AI meno prevedibile in termini di tempo di risposta (potrebbe finire molto presto se trova subito un ottimo ramo, oppure esplorare a lungo se indecisa). Infine, per alcuni task creativi troppo aperti, la struttura ad albero può essere eccessiva: conviene in problemi con un obiettivo chiaro da raggiungere, meno in quelli dove non c’è un “goal” definito. In sintesi, il ToT è molto potente ma va applicato con criterio a problemi che ne giustificano la complessità e laddove altre tecniche più semplici (CoT, self-consistency) non bastano.

Esempio pratico: Un esempio intuitivo può essere un gioco di labirinto testuale: il modello deve trovare l’uscita descrivendo passo a passo il percorso. Con un chain-of-thought tradizionale, l’AI potrebbe fare un tentativo lineare e se sbaglia strada arrivare a un vicolo cieco senza sapere come “tornare indietro”. Con Tree-of-Thoughts, invece, l’approccio sarebbe:

  • Stato iniziale: stanza di partenza.

  • Pensieri possibili: “vai a sinistra”, “vai a destra”, “vai avanti”.

    • Se “vai a sinistra” porta a un vicolo cieco (dopo qualche passo di esplorazione), quel ramo viene chiuso.

    • Si torna al nodo iniziale e si prova “vai a destra”.

  • Si esplorano così diversi percorsi come rami. Magari “vai a destra” -> “poi avanti” -> “poi sinistra” porta all’uscita. Il sistema lo individua come ramo di successo.

Durante la ricerca, il modello può avere una euristica: ad esempio, ogni volta che descrive la posizione attuale, può valutare se sembra più vicina all’uscita (magari l’uscita è descritta come “luce visibile” e solo in alcuni rami appare questo dettaglio). Usando questa valutazione, l’algoritmo può potare i rami che sembrano allontanarsi dall’uscita e approfondire quelli promettenti. In ambito accademico, Yao et al. (2023) hanno dimostrato che Tree-of-Thoughts può risolvere puzzle e problemi di pianificazione che i normali LLM faticano a completare, evidenziando come questa tecnica renda l’AI più vicina a un problema solver generale deliberativo. Anche se attualmente è una frontiera sperimentale, illustra il potenziale delle future interfacce di prompt engineering: non solo chat o singole richieste, ma vere e proprie esplorazioni guidate delle capacità del modello.

Retrieval-Augmented Generation (RAG)

Cos’è e principi di base: La Retrieval-Augmented Generation (RAG) è una tecnica che combina i modelli generativi con sistemi di recupero di informazioni esterne per migliorare accuratezza e attualità delle risposte. In un flusso RAG tipico, alla domanda dell’utente l’AI effettua prima una ricerca in una base di conoscenza (database, documenti, web, ecc.) per recuperare i contenuti più pertinenti, e poi genera la risposta condizionata su quei contenuti. In altre parole, il modello non si affida solo alla conoscenza immagazzinata nei propri parametri, ma la integra con informazioni fresche o specifiche prelevate al momento. Questa tecnica può essere vista come un “open book approach” in cui il modello ha un libro aperto (la knowledge base) da cui può consultare i fatti prima di rispondere, invece di rispondere “a memoria”. RAG non è un singolo algoritmo ma un’architettura: tipicamente coinvolge un componente di retriever (spesso un motore di ricerca semantica o un indice vettoriale) e un componente di reader/generator (l’LLM) che utilizza i risultati della ricerca per formulare l’output.

Contesti di utilizzo efficaci: RAG è indicato praticamente ogni volta che:

  • Si richiedono informazioni fattuali aggiornate o di dominio specifico che il modello potrebbe non conoscere di suo. Ad esempio domande su eventi accaduti dopo la data di addestramento del modello (es: “Chi ha vinto l’Oscar come miglior film nel 2024?”), o domande molto specialistiche (es: “Qual è la formula chimica del tal farmaco presente nel database X?”).

  • Document QA: l’utente vuole interrogare una collezione di documenti (manuali, contratti, articoli scientifici). Un sistema RAG può cercare nei documenti rilevanti e poi rispondere citando le parti trovate.

  • Chatbot aziendali su conoscenza interna: per costruire un assistente che risponde su policy aziendali, schede prodotto, dati interni, è impensabile addestrare ex-novo un modello su quei dati (troppo costoso e rischioso). RAG consente di mantenere un corpus di documenti aziendali e far sì che l’AI li consulti al volo per rispondere ai dipendenti o clienti con riferimenti precisi.

  • Assistenza decisionale: in cui vogliamo che l’AI fornisca non solo un’opinione, ma anche le fonti. Esempio: “Mi consigli un investimento azionario?” – un assistente RAG potrebbe recuperare gli ultimi dati di mercato e notizie sulle aziende prima di elaborare una risposta, così da essere fondato su evidenze.

Vantaggi: Il RAG migliora significativamente l’accuratezza e l’affidabilità delle risposte, perché le ancora su fonti reali. Questo riduce le allucinazioni: invece di inventare, il modello può dire cose come “Secondo <documento X> …” riportando contenuti veritieri. Un grande vantaggio è la capacità di aggiornamento: la knowledge base può essere costantemente aggiornata (pensiamo alle notizie del giorno, o ai dati di vendita settimanali) senza dover ri-addestrare il modello AI. Ciò risolve uno dei limiti principali degli LLM statici, ossia la loro conoscenza ferma alla data di training. Inoltre, RAG consente trasparenza e verificabilità: spesso i sistemi RAG forniscono le fonti a corredo della risposta (ad esempio citazioni o link ai documenti da cui hanno tratto l’informazione). Questo è fondamentale per la fiducia: l’utente può controllare e confermare se la risposta è supportata da fonti autorevoli. Dal punto di vista pratico, RAG è efficiente: evita di dover ingurgitare nel prompt una mole enorme di contesto (si recupera solo ciò che serve) e scala meglio, perché si può aumentare il knowledge store senza appesantire il modello stesso. Infine, RAG diminuisce il bisogno di training continuo dell’LLM su nuovi dati: l’azienda può mantenere un repository delle informazioni e l’LLM rimane generale, interrogando quel repository. Ciò comporta benefici economici (meno fine-tuning) e anche di sicurezza: i dati sensibili rimangono nel database e non necessariamente dentro i pesi del modello, riducendo il rischio che l’AI li “trapeli” in output inappropriati.

Limiti: Un sistema RAG è più complesso di un modello standalone: bisogna avere un buon modulo di retrieval. Se la ricerca fallisce (ad esempio non trova i documenti giusti o recupera testi irrilevanti), la generazione sarà scadente. Quindi, la qualità delle risposte dipende fortemente dalla qualità dei dati e dell’indicizzazione. Inoltre, l’LLM deve essere capace di integrare bene le informazioni recuperate: c’è il rischio che ignori le fonti (specialmente se non opportunamente istruito) e dia comunque una risposta di fantasia, oppure che le usi male (ad esempio citando un fatto fuori contesto). Bisogna quindi affinare i prompt in modo che il modello “legga e utilizzi” effettivamente i documenti forniti. Un’altra sfida è gestire informazioni contraddittorie: se il retriever pesca documenti discordanti, il modello potrebbe confondersi o dover decidere quale è corretto – cosa non banale. Sul piano computazionale, c’è un overhead dovuto al retrieval (che può implicare ricerca full-text o vettoriale su larga scala) e alla necessità di inserire i testi trovati nel prompt di generazione (consumando token). Per knowledge base piccole è trascurabile, ma su scala web o di grandi dataset ciò richiede infrastrutture robuste (motori di ricerca interni, embedding semantici, ecc.). Dal punto di vista dell’utente, RAG introduce una dipendenza: serve mantenere aggiornata e di qualità la base di conoscenza, il che comporta un lavoro continuo (ad esempio upload di nuovi documenti, pulizia di quelli obsoleti). In sintesi, RAG sposta parte del problema dall’AI ai dati: “garbage in, garbage out” rimane vero – se i documenti sono sbagliati o mancanti, l’AI non potrà fare miracoli.

Esempio pratico: Un esempio comune è l’integrazione di GPT con Wikipedia. Immaginiamo una domanda: “Qual è la capitale più popolosa del mondo e qual è la sua popolazione?”. Un LLM standard potrebbe sapere che è Tokyo (metropoli) o Beijing a seconda di come interpreta, ma potrebbe confondersi o non avere dati precisi di popolazione. Un sistema RAG farebbe:

  1. Query di ricerca: estrarre le keyword “capitale più popolosa mondo popolazione” e cercare in Wikipedia (o in un indice apposito).

  2. Documenti recuperati: ad esempio la pagina “Tokyo” o una classifica di città per popolazione.

  3. Prompt generativo: fornire all’LLM un contesto tipo: “Usa le seguenti informazioni per rispondere: [estratto della pagina Tokyo con dati popolazione] [estratto pagina sulle megalopoli] Domanda: Qual è la capitale…?”.

  4. Risposta generata: “La capitale più popolosa del mondo è Tokyo, con una popolazione di circa 37 milioni di abitanti nella sua area metropolitana.” (L’AI include magari la citazione della fonte se configurato per farlo).

Notiamo che la risposta è ora grounded: l’AI non ha inventato il dato, l’ha preso dalla fonte. Ciò è verificabile e, salvo errore nella base, corretto. In questo caso RAG ha permesso al modello di superare un limite (i dati demografici esatti) recuperando l’informazione aggiornata. Sistemi come Bing Chat, il motore di ricerca di Bing con GPT-4, funzionano essenzialmente in questo modo: eseguono ricerche sul web e poi generano risposte combinando i risultati, citando le fonti. Anche in ambito enterprise, soluzioni di cognitive search e assistenti su documenti aziendali adottano RAG per garantire che l’AI dica cose supportate dai documenti forniti. In definitiva, RAG rappresenta un approccio pragmatico per unire la capacità generativa dei LLM con la precisione dei sistemi di ricerca, ottenendo il meglio da entrambi.

Ci sono prompt per tutto, ma non un prompt per tutti.

Le tecniche di prompt engineering, dal prompt chaining alle varianti zero-shot e few-shot, fino ai metodi di ragionamento avanzati come chain-of-thought, ReAct, self-consistency, tree-of-thoughts e all’integrazione con fonti esterne via RAG, mostrano che oggi abbiamo a disposizioen una sorta di cassetta degli attrezzi per ottenere il massimo dai modelli di intelligenza artificiale.

Ciascuna tecnica ha i propri punti di forza e i propri ambiti d’elezione, ma tutte condividono un principio fondamentale: guidare e strutturare l’interazione con l’AI in modo da allineare l’output agli obiettivi dell’utente. In un certo senso, il prompt engineering ci insegna che porre le giuste domande (e farlo nel modo giusto) è tanto importante quanto la potenza del modello stesso.

Dal punto di vista strategico, il ruolo del prompt engineering appare sempre più centrale per un’adozione consapevole dell’AI.

Senza tecniche adeguate, un modello generativo rischia di essere percepito come una “scatola magica” dalle risposte imprevedibili, il che ne limita la fiducia e l’utilità. Al contrario, approcci come il prompt chaining trasformano l’AI in un collaboratore logico, che segue processi trasparenti e verificabili, sui quali possiamo intervenire in itinere. Questo approccio aumenta la fiducia degli utenti e amplifica il valore dell’AI nell’operatività quotidiana, perché si passa da output grezzi a risultati più affidabili e raffinati.

In sostanza, il prompt engineering unisce il meglio del pensiero umano (analitico, strutturato, consapevole degli obiettivi) con la velocità e versatilità di calcolo dell’IA, offrendo il meglio di entrambi i mondi.

Per capitalizzare queste opportunità, diventa importante sviluppare nuove skill conversazionali e progettuali:

  • Conversazionali perché interagire con un’AI è un po’ come dialogare in un linguaggio speciale: saper formulare richieste precise, dare il giusto contesto, suddividere i problemi e persino “pensare” in termini utili per la macchina sono abilità da coltivare.
  • Progettuali perché occorre saper progettare i prompt e i flussi di prompt come si progettano soluzioni software: con logica, modularità, e attenzione all’utente finale. Figure professionali come il Prompt Engineer stanno emergendo proprio per colmare questo spazio, combinando competenze di linguistica, programmazione e design delle informazioni. Ma al di là dei ruoli dedicati (e considerato che non credo alle etichette) è auspicabile che un po’ tutti, dai manager ai creativi, sviluppino almeno in parte queste competenze.

L’adozione consapevole dell’AI significa infatti comprendere quando e come coinvolgere l’intelligenza artificiale nei processi decisionali e creativi, conoscendone i limiti (bias, allucinazioni, esigenze di contesto) e le potenzialità (velocità, capacità di sintesi, generazione di alternative). Il prompt engineering funge da interfaccia critica in questo rapporto uomo-macchina: è lo strumento che ci permette di tradurre gli obiettivi strategici in istruzioni operative per l’AI, e di incanalare l’output dell’AI in risultati di valore. Man mano che i modelli diverranno più potenti e diffusi, il prompt engineering evolverà di pari passo, potenzialmente automatizzando alcune parti (ad es. con sistemi che suggeriscono come formulare i prompt) ma richiedendo comunque una supervisione e una creatività umana nel definire problemi e interpretarne le soluzioni.

Investire del proprio tempo in sperimentazione di prompt e analisi, vuol dire investire in alfabetizzazione AI: imparare a “parlare” con le macchine intelligenti in modo efficace. Così come l’avvento dei computer ha reso importante saper programmare o utilizzare certi software, l’era dell’AI generativa renderà fondamentale saper orchestrare conversazioni e flussi con i modelli. Le aziende che svilupperanno per tempo queste capacità potranno sfruttare l’AI in modo più affidabile e innovativo, mentre gli individui che le coltiveranno diventeranno preziosi facilitatori tra tecnologia e business.

Guidare l’AI con consapevolezza e metodo è la chiave per integrarla come alleato nei nostri processi – un alleato veloce, instancabile e creativo, ma che necessita della giusta guida umana per dare il meglio di sé. In questo equilibrio di ruoli risiede il futuro di una collaborazione uomo-AI realmente efficace e fidata.

Dalla previsione alla creazione: il vero shift dell’Intelligenza Artificiale è appena iniziato

Per anni abbiamo considerato l’intelligenza artificiale come uno strumento predittivo. Un sistema capace di analizzare grandi moli di dati per dirci cosa sarebbe potuto accadere: dalla domanda di un prodotto all’andamento di un mercato, fino alla prossima mossa di un cliente.

Era l’epoca dell’AI come prediction machine, come l’hanno definita Agrawal, Gans e Goldfarb nel loro libro. Un’epoca in cui il valore si generava ottimizzando: supply chain, previsioni finanziarie, raccomandazioni personalizzate.

Oggi, però, stiamo assistendo a un vero e proprio cambio di paradigma. Un shift profondo, culturale prima ancora che tecnologico: l’AI non si limita più a prevedere, inizia a creare.

L’avvento dei modelli generativi ha trasformato l’AI in un alleato nella progettazione, nella scrittura, nella scoperta scientifica. Algoritmi capaci di produrre contenuti originali, generare codice, disegnare prodotti, ipotizzare molecole. Non è solo efficienza: è creatività aumentata. E chi lavora sull’innovazione non può più ignorarlo.

Il nuovo mindset dell’innovatore

In questa prima newsletter di InsideTheShift, che esce il lunedi alle 9:41, racconto proprio questo cambiamento: il passaggio dall’AI come oracolo statistico a co-creatore artificiale. Una trasformazione che ridefinisce il ruolo di chi guida il cambiamento, obbligando aziende e professionisti a rivedere approcci, processi, ruoli e strumenti.

Non parliamo più solo di usare l’AI per “prevedere meglio”. Parliamo di usarla per “immaginare di più”. Le aziende più lungimiranti stanno già applicando questo approccio: avviano brainstorming con modelli generativi, prototipano idee in tempo reale, validano alternative attraverso simulazioni aumentate.

Dati, segnali e accelerazione

Il cambiamento è documentato e accelerato. L’adozione di strumenti generativi ha raggiunto livelli senza precedenti. ChatGPT ha superato i 100 milioni di utenti mensili in meno di due mesi. Secondo l’AI Index Report di Stanford, nel 2024 il 71% delle aziende ha già integrato l’AI generativa in almeno un’area del proprio business. Gli investimenti privati sono esplosi. I costi si sono abbattuti drasticamente, rendendo queste tecnologie accessibili anche a startup e singoli professionisti.

La domanda non è più se adottare queste tecnologie, ma come integrarle strategicamente, in modo consapevole e sostenibile.

L’AI generativa come leva strategica

In newsletter esploro anche il funzionamento dei modelli generativi, dai Transformer ai modelli di diffusione, e il loro impatto concreto: non solo nella produzione creativa, ma anche nella trasformazione delle organizzazioni. Dall’emergere di nuove figure professionali (AI strategist, prompt engineer, ethics designer) alla necessità di nuove strutture di governance.

È un momento in cui serve visione, ma anche capacità operativa. Ecco perché condivido anche i pattern e strumenti concreti che uso nel mio lavoro quotidiano: dai modelli “human outlining + AI filling” alla simulazione narrativa con agenti AI.

E poi? Verso un futuro co-creato

Il futuro che si sta delineando è quello della co-creazione continua, della strategia aumentata, della personalizzazione radicale. Dove i team creativi collaborano con modelli generativi, e ogni idea nasce da un dialogo ibrido tra mente umana e intelligenza artificiale. Un futuro in cui non si tratta solo di produrre più velocemente, ma di progettare meglio, con più varianti, più intelligenza, più prospettiva.

Con un messaggio chiaro: la vera trasformazione non sta nell’AI in sé, ma in come scegliamo di usarla per creare ciò che davvero ha senso, impatto e valore.


📩 Leggi la newsletter completa (in inglese):
InsideTheShift #1 – The Shift in Focus

📌 In arrivo nel prossimo numero:
“Quando l’AI diventa interfaccia: la nascita delle piattaforme cognitive”

RAG o CAG, Cercare o Ricordare, questo è il dilemma? No.

Certe domande nascono per caso, durante una call tecnica o nel mezzo di una demo. “Ma se il modello avesse già tutto in memoria, servirebbe ancora il retrieval?

È cominciata così, tra una riflessione sul design di un assistant interno e l’analisi delle performance di risposta. Da lì, il passo è stato breve: fare un po’ di ricerca, testare e confrontare due approcci che stanno ridefinendo il modo in cui i modelli conversano con la conoscenza.

RAG (Retrieval-Augmented Generation) e CAG (Cache-Augmented Generation). Due strategie diverse per un obiettivo comune: aumentare la capacità dei modelli generativi di rispondere meglio, più velocemente, con più contesto. Una cerca, l’altra ricorda. Una si connette al mondo, l’altra se lo carica dentro.

Da un lato, RAG arricchisce dinamicamente le risposte di un modello cercando informazioni esterne al volo. Immaginiamolo come un instancabile bibliotecario digitale: ad ogni domanda, va a consultare un archivio vastissimo e riporta i documenti più pertinenti da fornire al modello. Dall’altro, CAG pre-carica il sapere necessario prima ancora che la domanda venga posta. È più simile a uno studente preparato che, avendo studiato e memorizzato tutto in anticipo, può rispondere all’istante senza sfogliare manuali durante l’esame.

Ho fatto un po’ di approfondiremo sul funzionamento di entrambi gli approcci, confrontandone vantaggi e limitiper capire come RAG e CAG possano essere usati in modo complementare, persino combinati, per ottenere il meglio da entrambi. Pronti a immergervi in questo viaggio tra retrieval e cache?

Procediamo con ordine, iniziando dalle basi.

Cos’è RAG (Retrieval-Augmented Generation)

Retrieval-Augmented Generation (RAG) è un paradigma in cui un modello di linguaggio estende la propria conoscenza ricercando informazioni aggiuntive al momento della generazione della risposta. Il flusso tipico di RAG coinvolge diversi step:

  • Embedding della query: la domanda dell’utente viene convertita in una rappresentazione vettoriale (embedding), catturandone il significato semantico.

  • Ricerca nel database vettoriale: questo vettore di query viene usato per cercare similarità all’interno di un database di conoscenza pre-indicizzato (spesso un vector store contenente documenti rappresentati a loro volta come vettori). Si identificano così i documenti più rilevanti rispetto alla query. In pratica, il sistema fa una ricerca semantica: non cerca solo parole chiave, ma contenuti dal significato affine alla domanda.

  • Recupero dei documenti pertinenti: i migliori risultati di questa ricerca – tipicamente alcuni paragrafi o frammenti di documenti – vengono recuperati. Per migliorare la qualità, spesso si applicano algoritmi di re-ranking (riordinamento) per filtrare e ordinare i documenti in base alla loro effettiva rilevanza. Questo riduce il “rumore” e assicura che il modello riceva solo informazioni utili, mitigando il rischio di allucinazioni (ovvero dettagli inventati dovuti a contesto fuorviante).

  • Costruzione del prompt con contesto: i documenti recuperati vengono poi aggiunti al prompt del modello, tipicamente formulando qualcosa come: “Ecco alcuni contenuti rilevanti: [documenti]. Ora rispondi alla domanda: [query utente]”. In questo modo, il modello dispone di conoscenza fresca e mirata mentre genera la sua risposta.

  • Generazione della risposta: il modello di linguaggio (LLM) elabora il prompt aumentato dal contesto e produce una risposta che integra sia le informazioni apprese durante l’addestramento sia i dettagli pertinenti appena recuperati. In altre parole, RAG fa sì che l’LLM abbia sempre informazioni aggiornate e contestuali: il modello funge da “cervello”, mentre il modulo di retrieval funge da “memoria esterna” a cui attingere all’occorrenza.

Questo processo permette ai sistemi RAG di essere dinamici e aggiornati. Se domandiamo a un assistente RAG qualcosa su un evento accaduto dopo il periodo di addestramento del modello, esso può cercare in tempo reale tra le fonti più recenti e includerle nella risposta. In tal senso, RAG “collega” il modello a un motore di ricerca specializzato. I risultati sono spesso impressionanti: risposte contestualizzate e ricche di dettagli puntuali.

RAG però non è privo di sfide e possibili problematiche. Ogni ricerca introduce una certa latenza, poiché bisogna eseguire query sul database esterno, aspettare i risultati e comporre il prompt​: la qualità finale dipende in larga misura da ciò che viene recuperato. Se il modulo di retrieval sbaglia mira (ad esempio selezionando un documento non pertinente o obsoleto), anche la risposta del modello ne risente. Gestire un sistema RAG significa mantenere sia il modello linguistico sia l’infrastruttura di ricerca: un’architettura più complessa, con componenti da indicizzare, aggiornare e monitorare​.

Cos’è CAG (Cache-Augmented Generation)

Cache-Augmented Generation (CAG) è un approccio recente che cerca di semplificare e velocizzare l’integrazione di conoscenza nei modelli linguistici, sfruttando i loro contesti estesi e una sorta di “memoria interna” cache. L’idea di fondo è: perché andare a cercare informazioni ogni volta (come fa RAG) se possiamo caricare tutto in anticipo?. Con CAG, si mette “in cache” la conoscenza rilevante, in modo che il modello ce l’abbia già a disposizione al momento del bisogno.

Ecco come funziona, per step:

  • Pre-caricamento del contesto: prima che l’utente ponga una domanda, si raccolgono tutti i documenti e le informazioni che potrebbero servire a rispondere in un dato dominio. Questa collezione di conoscenza (chiamiamola D) viene curata e ridotta a una dimensione gestibile, in modo che possa rientrare nella finestra di contesto del modello. Ad esempio, se stiamo costruendo un assistente per il supporto clienti di una certa azienda, potremmo raccogliere il manuale dei prodotti, le FAQ e le linee guida di assistenza. L’insieme D deve essere sufficientemente ristretto e rilevante (non includiamo tutto Wikipedia, ma solo ciò che serve per le query previste) e statico (cioè non cambia di continuo).

  • Creazione della cache KV (Key-Value): i documenti pre-caricati vengono forniti al modello in un’unica grande sessione di inferenza. In pratica, si effettua una chiamata all’LLM passando tutto il testo di D (formattato opportunamente, ad esempio come contesto in un prompt di sistema). Il modello processa questo lungo contesto e, così facendo, costruisce delle rappresentazioni interne – i cosiddetti Key-Value pairs (KV) dell’attenzione trasformazionale – che catturano lo stato di conoscenza derivato da D. Queste KV, che sono essenzialmente i “ricordi compressi” del modello su D, vengono salvate come cache. È come se avessimo congelato lo stato mentale del modello dopo aver “letto” tutti i documenti rilevanti.

  • Utilizzo della cache in inferenza: a questo punto il sistema è pronto a rispondere alle domande. Quando l’utente pone una query Q, non c’è bisogno di effettuare una ricerca esterna. Si prende la domanda, la si inserisce nel modello insieme alla cache precomputata, e si avvia la generazione​. Tecnicamente, il modello riceve Q come input successivo ai documenti D già elaborati (la cache funge da contesto persistente). Poiché il modello ha “in mente” tutta la conoscenza caricata, può rispondere immediatamente attingendo a quella base di conoscenza interna. La latenza si riduce drasticamente: l’LLM deve solo concentrarsi sul reasoning (ragionamento) e la formulazione della risposta, non sull’assimilazione di nuovi dati in quel momento.

  • Reset/aggiornamento della cache: col passare del tempo o dopo diverse domande, la cache potrebbe crescere (ad esempio includendo anche le query già poste come parte del contesto interno). CAG prevede meccanismi per resettare o aggiornare la cache quando serve. Ad esempio, si può troncare la cache per rimuovere i turni di domanda-risposta passati e fare spazio a nuove query, senza dover ricaricare da zero tutti i documenti statici. Se cambia la base di conoscenza (D), bisognerà rigenerare una nuova cache aggiornata – operazione comunque eseguita di rado, ad esempio caricando il nuovo manuale se esce una versione aggiornata.

In poche parole CAG elimina completamente la fase di retrieval dinamico. Il modello opera come se sapesse già tutto ciò che gli serve, perché glielo abbiamo già fatto leggere in anticipo. Questo approccio è diventato praticabile grazie ai recenti LLM capaci di gestire contesti lunghissimi (si pensi ai modelli con finestre di 32K, 100K o persino milioni di token). Questi contesti estesi permettono di inserire decine e decine di pagine di conoscenza direttamente nel prompt. Ad esempio, Llama 3.1 70B supporta fino a 64K token e modelli come Claude 2 arrivano a 200K – abbastanza per contenere documentazione aziendale, log di supporto o database di FAQ in un colpo solo.

I benefici immediati sono evidenti: zero latenza di retrieval (non c’è attesa perché nulla viene cercato al momento), architettura semplificata (non serve un motore di ricerca interno né pipeline di indicizzazione), minori errori di contesto (si evitano problemi di selezione dei documenti, perché il contesto è predefinito e controllato)​. In scenari dove la base di conoscenza è relativamente stabile e circoscritta, CAG può risultare sorprendentemente efficace e coerente. Esperimenti e studi recenti hanno mostrato che, su certi benchmark di QA, CAG può eguagliare se non superare RAG in accuratezza, proprio perché elimina gli errori dovuti a retrieval sub-ottimali.

Il rovescio della medaglia è che CAG richiede che l’intero corpo della discussione stia nel contesto del modello e sia definito a priori. Se una query esula dal perimetro di quella conoscenza pre-caricata, il modello non potrà recuperare altro e potrebbe fallire (ad esempio, chiedendo qualcosa non contenuto nei documenti caricati, l’LLM finirà per inventare o ammettere di non sapere). Inoltre preparare la cache KV ha un costo computazionale non banale, anche se lo si fa solo una tantum. CAG brilla quindi in casi statici e ripetitivi, mentre è meno adatto in scenari dove i dati cambiano di continuo o la varietà di domande possibili è molto ampia rispetto al contesto pre-caricato.

Confronto tra RAG e CAG: vantaggi e svantaggi

Entrambi gli approcci presentano punti di forza e debolezze. La scelta dipende dal contesto d’uso e dai vincoli del progetto (dimensioni della conoscenza, necessità di aggiornamenti, requisiti di latenza, ecc.). Ecco un confronto diretto che aiuta a comprendere meglio quando conviene usare RAG o CAG.

  • Gestione della conoscenza:

    • RAG: Recupera conoscenza in tempo reale da fonti esterne ampie. Ideale per attingere a database enormi o in continuo aggiornamento (es. notizie, documenti in evoluzione) senza doverli caricare integralmente nel modello. La conoscenza resta esterna al modello e viene integrata “on demand”.

    • CAG: Richiede di pre-selezionare e caricare in blocco tutti i dati rilevanti. Funziona meglio quando il dominio informativo è ben definito e limitato in dimensioni, così che tutto ciò che serve possa essere messo in cache nel modello. La conoscenza diventa parte del contesto interno del modello durante l’inferenza.

  • Velocità e latenza:

    • RAG: Introduce una latenza aggiuntiva per via della fase di ricerca e recupero. Ogni domanda può richiedere centinaia di millisecondi (o più) solo per il retrieval, prima ancora di generare la risposta​. In applicazioni real-time questo può essere un collo di bottiglia, soprattutto se le query sono frequenti.

    • CAG: Offre risposte quasi istantanee poiché elimina completamente il passaggio di ricerca. In alcune implementazioni, CAG risulta decine di volte più veloce di RAG proprio grazie all’assenza di overhead di retrieval. È indicato per applicazioni dove la rapidità è critica e non si può attendere il risultato di una query esterna.

  • Accuratezza e affidabilità:

    • RAG: La correttezza della risposta dipende dall’efficacia del motore di ricerca sottostante e dal ranking dei documenti. Se vengono recuperate informazioni non pertinenti o superate, il modello potrebbe fornire risposte scorrette o incoerenti con la query. C’è inoltre il rischio di mescolare contesti diversi se la query attiva documenti eterogenei (“frammentazione della conoscenza”).

    • CAG: Utilizza un contesto predefinito e validato, riducendo la probabilità di errori dovuti a informazioni irrilevanti. Le risposte tendono a essere più consistenti, perché il modello lavora su un blocco di conoscenza coeso e pensato ad hoc​. Di contro, se la base pre-caricata contiene inesattezze o manca di qualche informazione, tutti gli output ne risentiranno (il modello non può “uscire” da quella conoscenza).

  • Complessità del sistema:

    • RAG: Richiede un’architettura più articolata. Bisogna predisporre un indice (ad es. un database vettoriale), gestire l’aggiornamento dei documenti, implementare meccanismi di ricerca e ranking, oltre a orchestrare il tutto con il modello generativo​. Questa complessità si traduce in maggiori costi di sviluppo e manutenzione: c’è più che un semplice LLM da tenere in funzione.

    • CAG: Snellisce l’architettura eliminando del tutto il modulo di retrieval. Servono certamente risorse computazionali robuste per gestire contesti estesi, ma la pipeline concettuale è più lineare (carica contesto una tantum → genera risposte)​. Meno componenti significa anche meno punti di guasto: ad esempio, un sistema CAG non rischia errori dovuti a un indice non aggiornato o a una chiamata API esterna fallita.

  • Casi d’uso ideali:

    • RAG: È la scelta obbligata quando la base di conoscenza è enorme, volatile o in costante crescita – pensiamo a motori di ricerca web, assistenti su contenuti di attualità, o knowledge base aziendali con migliaia di documenti che cambiano ogni giorno. RAG eccelle anche quando il modello deve poter rispondere a domande completamente nuove attingendo da fonti eterogenee non prevedibili a priori. In breve, ogni volta che non possiamo caricare tutto il sapere dentro il modello, RAG viene in nostro soccorso.

    • CAG: Brilla in scenari con conoscenza delimitata e relativamente stabile. Ad esempio, un chatbot di supporto per un prodotto specifico, dove l’insieme di possibili domande è noto e coperto da un manuale di poche centinaia di pagine; oppure un assistant interno che deve fare riferimento a un corpus statico (policy aziendali, procedure interne, manuali tecnici) che viene aggiornato raramente. In tali casi, pre-caricare queste informazioni e tenerle in cache consente risposte rapidissime e affidabili, senza l’onere di mantenere un sistema di ricerca complesso.

Praticamente non c’è un “vincitore” assoluto: RAG e CAG sono due strumenti diversi per esigenze diverse. Anzi possono (ed in molti casi devono) persino lavorare insieme in architetture ibride.

Esempi pratici d’uso

Per concretizzare le differenze che ho descritto (e nemmeno tutte), ho buttato giù alcuni esempi di applicazione su cui ultimamente ho lavorato differenziando l’utilizzo di RAG o CAG (o entrambi) e come possano essere utilizzati.

  • Chatbot su knowledge base statiche: un assistente virtuale per le FAQ di un sito web o il manuale di un elettrodomestico. Le domande degli utenti rientrano tipicamente in un ambito ristretto (il dominio del prodotto). Qui CAG è una scelta eccellente: il manuale e le FAQ possono essere caricati interamente nel contesto del modello, che fornirà risposte immediate e precise senza dover cercare altrove. La coerenza è alta, perché il modello risponde solo in base a informazioni ufficiali pre-caricate, eliminando deviazioni. Se però la knowledge base è in continuo aggiornamento, si potrebbe adottare un approccio ibrido: rigenerare la cache CAG ogni giorno con le nuove informazioni, o integrare una componente RAG per gestire eventuali domande fuori scope.

  • Assistenti interni aziendali: un assistente AI che aiuta i dipendenti a reperire procedure, policy HR, linee guida legali, ecc. In un’azienda grande, questi documenti possono essere numerosi e aggiornati periodicamente. Si può adottare RAG per mantenere l’assistente sempre aggiornato: ogni volta che un dipendente chiede qualcosa, l’LLM recupera gli ultimi documenti rilevanti dal repository aziendale (intranet, database documentale) e formula la risposta. Ciò garantisce che anche se ieri è uscita una nuova procedura, oggi l’assistente la possa già citare. In aziende più piccole, o per ambiti specifici (es. documentazione di onboarding), CAG può invece fornire maggiore velocità: caricando in anticipo tutto il manuale dipendente e le policy, l’assistente risponde in un lampo, risultando molto reattivo nelle conversazioni.

  • Code assistant (assistenti per programmatori): un assistente AI che aiuta a scrivere codice o risolvere bug. Deve poter accedere a documentazione API, esempi di codice, e magari al codice base del progetto. Due strategie emergono: con RAG, l’assistente potrebbe effettuare ricerche nel repository del codice per trovare le funzioni o i file pertinenti alla domanda (es. “cerca dove è definita questa classe e includi quel snippet come contesto”). Oppure cercare nella documentazione ufficiale online per fornire dettagli sull’uso di una libreria. Con CAG, se il progetto è di dimensioni moderate, si potrebbe precaricare l’intero codice (o i componenti chiave) nella finestra di contesto: l’LLM avrebbe così “letto” tutto il codice base e potrebbe ragionare sulle domande del programmatore conoscendo già l’architettura del software. In pratica, diventerebbe un collega sviluppatore che conosce a memoria il codice. In casi reali, una combinazione è ideale: RAG per cercare informazioni su librerie esterne o porzioni di codice molto grandi, e CAG per mantenere in cache i file fondamentali con cui l’assistente interagisce continuamente.

  • Knowledge base dinamiche (news, ricerche scientifiche, ecc.): per assistenti personali che ti aggiornano sulle notizie quotidiane, o un sistema che risponde a domande su ricerche scientifiche recentissime, la conoscenza è troppo ampia e in costante rinnovo. Qui RAG è praticamente d’obbligo. Un assistant sulle news userà RAG per cercare gli articoli del giorno relativi alla domanda posta (es. “ultimi sviluppi del mercato X”) e offrirà un riassunto pescando da più fonti. Un sistema CAG in questo scenario rischierebbe di essere obsoleto non appena la cache viene caricata, a meno di aggiornarla ogni minuto (cosa impraticabile). D’altro canto, RAG ben progettati possono includere tecniche di re-ranking e filtri temporali per assicurare che le fonti recuperate siano rilevanti e recenti. L’utente finale ottiene così risposte attuali e dettagliate, con la consapevolezza delle fonti utilizzate.

Modelli ibridi e tecniche emergenti

È chiaro che RAG e CAG non si escludono a vicenda, come ho detto, anzi possono essere usati in tandem per sfruttare il meglio di ciascuno. Immaginiamo, per esempio (già descritto brevemente sopra), un assistente intelligente per una grande azienda: il volume di conoscenza totale intranet, documenti, wiki, ecc.) è enorme, ma un singolo dipartimento ha una documentazione specifica più limitata. Un approccio ibrido potrebbe funzionare così: il sistema usa RAG per fare una prima selezione di documenti rilevanti tra migliaia (es. cerca tutte le policy attinenti alla domanda dell’utente), poi prende questi risultati (diciamo i top 5 documenti trovati) e li pre-carica in un contesto esteso facendone una sorta di mini-cache CAG per quel turno di conversazione. In seguito, l’LLM risponde sfruttando questa cache locale, magari permettendo anche domande di follow-up senza dover rifare la ricerca da zero. In pratica, RAG fornisce il perimetro del sapere e CAG offre il ragionamento veloce all’interno di quel perimetro. Questo può essere utile anche per il multi-hop reasoning: se per rispondere a una domanda servono informazioni provenienti da diversi documenti, RAG li recupera tutti e CAG – avendoli in memoria contemporaneamente – può sintetizzare una risposta unitaria, cosa difficile se le fonti fossero usate una alla volta.

Un altro ambito di complementarità è la gestione sessione in chatbot conversazionali. Un sistema potrebbe usare RAG per recuperare conoscenza all’avvio di una conversazione o al primo quesito su un certo argomento; dopodiché le informazioni chiave vengono mantenute nel contesto (cache) per i turni successivi, evitando ulteriori query a meno che non si cambi argomento. Questo approccio misto riduce le chiamate di retrieval e quindi la latenza, senza rinunciare alla flessibilità di attingere a nuovi dati quando necessario.

Oltre alla combinazione RAG+CAG, vale la pena menzionare alcune tecniche emergenti che rafforzano questi sistemi:

  • Re-ranking avanzato: Già citato in ambito RAG, il re-ranking si sta evolvendo con modelli di apprendimento dedicati (es. cross-encoder neurali) che ordinano i documenti non solo per somiglianza con la query ma per effettiva probabilità di contenere la risposta. Questo migliora drasticamente la qualità del contesto fornito al modello generativo. Un RAG con un buon re-ranking può permettersi di recuperare più documenti (per sicurezza) sapendo poi filtrare quelli utili. Anche in sistemi ibridi, un re-ranking può selezionare quali documenti passare alla fase CAG.

  • Segmented summarization (riassunto segmentato): Quando si hanno testi lunghissimi, una strategia è segmentarli in parti più piccole, riassumere ciascuna parte separatamente, e infine combinare i riassunti. Questa tecnica è preziosa se la finestra di contesto del modello non è abbastanza grande da contenere tutto il testo originale. In un pipeline ibrido, si potrebbe usare un modulo RAG o un modulino di summarization per accorciare i documenti (pur mantenendo i concetti chiave) prima di caricarli nella cache CAG. Così, anche se un documento eccede i limiti, il sistema lo condensa e riesce comunque ad includerlo. Inoltre, la summarization segmentata aiuta a mantenere la coerenza: suddividendo per argomento, ci si assicura che ogni parte sia compresa bene dal modello, riducendo il rischio che informazioni importanti vadano perse o che il modello si confonda a causa di dettagli superflui. È una specie di divide et impera applicato alla comprensione di testi lunghi.

  • Modelli ibridi neuro-simbotici: Uno scenario in esplorazione è combinare le capacità neurali dei LLM con strutture più simboliche o basi di conoscenza strutturate. Ad esempio, un sistema potrebbe usare RAG per interrogare una base di conoscenza grafica o un database SQL per informazioni factuali precise, mentre usa CAG per mantenere nel contesto altri dati testuali. Oppure, come proposto da alcuni ricercatori, utilizzare RAG per la conoscenza e un modello specializzato separato per la reasoning chain, orchestrando i due. Anche se andiamo oltre lo scopo di questo articolo, queste idee mostrano come RAG e CAG siano tasselli componibili in architetture più complesse, non silos isolati.

La complementarità tra RAG e CAG apre possibilità interessanti. Possiamo progettare sistemi su misura, scegliendo di volta in volta l’approccio più adatto o fondendoli in soluzioni multi-fase. Ad esempio, un assistant potrebbe usare RAG per “documentarsi” su un argomento e poi passare in modalità CAG per discussioni approfondite su quanto appreso, fornendo sia freschezza di informazioni che fluidità conversazionale.

Cercare o Ricordare, questo è un dilemma? No.

Il Retrieval-Augmented Generation e il Cache-Augmented Generation rappresentano due elementi interessanti di progettazione dei sistemi AI conversazionali e di question answering: da una parte la potenza di un modello linguistico connesso a un vasto mondo di informazioni esterne (RAG), dall’altra l’efficienza di un modello che porta con sé, nel proprio “zaino” contestuale, tutto il sapere necessario (CAG).

Questi approcci, lungi dall’essere mere sigle, incarnano a mio avviso filosofie diverse: cercare vs ricordare. RAG eccelle , come abbiamo visto, nel permettere ai modelli di restare aggiornati e versatili, ampliando continuamente i propri orizzonti tramite il retrieval. CAG, al contrario, trae forza dalla continuità interna, trasformando un LLM in una sorta di enciclopedia specialistica portatile, rapida e focalizzata. I loro vantaggi e svantaggi si bilanciano a vicenda – dove uno è debole, spesso l’altro è forte. Per questo, più che competere, RAG e CAG possono collaborare: uniti in architetture ibride, promettono sistemi AI capaci sia di imparare all’istante sia di rispondere in un lampo.

Ci deve implementare deve aver chiaro quindi il punto: non esiste una soluzione unica per l’generazione aumentata da AI. Bisogna valutare la natura dei dati e delle domande del proprio dominio, il processo e il risultato atteso. Se il vostro assistant deve sapere sempre l’ultima novità, RAG sarà il vostro alleato fedele. Se invece avete un tesoro di conoscenza ben delineato da sfruttare fino in fondo, CAG vi darà prestazioni sbalorditive. E se volete il meglio dei due mondi, sperimentate con approcci ibridi, re-ranking intelligente e tecniche di summarization – i mattoni ci sono, tocca a voi combinarli con creatività.

La sinergia tra recupero e memoria interna sta ridisegnando il modo in cui i modelli dialogano con la conoscenza. Siamo solo agli inizi di progetti di questo tipo. Proprio come un bravo artigiano digitale, possiamo ora scegliere se dare al nostro modello un potente motore di ricerca, una memoria enciclopedica pre-caricata, o magari entrambi. Il futuro dell’AI conversazionale sarà scritto da chi saprà orchestrare al meglio queste possibilità, creando esperienze utente sempre più fluide, informate e straordinariamente veloci. In fondo, che si tratti di sfogliare un libro al volo o di ricordare tutto a memoria, l’obiettivo finale è lo stesso: fornire all’utente la miglior risposta possibile, nel minor tempo possibile. RAG e CAG sono due strade diverse per raggiungere questa vetta – sta a noi decidere quale sentiero, o combinazione di sentieri, prendere.

Prompt-Chaining: tagliare (il prompt) l’elefante a pezzi e ragionare per passi

Negli ultimi mesi ho seguito e condiviso con attenzione il lavoro di  Nicola Mattina, che attraverso l’implementazione del progetto #Serena (di cui vi parlerò ancora), sta esplorando in modo sperimentale continuo l’interazione uomo-macchina: il prompt chaining.

I suoi post, in particolare uno degli ultimi che riporto qui, mi hanno spinto a riflettere sul fatto che il prompt chaining non è solo una tecnica per “istruire meglio” l’AI, ma può diventare una vera e propria architettura cognitiva. Un modo per strutturare il pensiero delle (e con le) macchine, in modo simile a come strutturiamo il nostro.

Da questo spunto nascono le seguenti righe che condivido qui sotto, ad integrazione del lavoro di Nicola, ossia una breve riflessione sulle potenzialità del prompt chaining, in particolare nella progettazione di contenuti educativi, ma con uno sguardo più ampio su cosa può rappresentare per chi, come molti di noi, lavora con strumenti generativi in contesti strategici o formativi.

Prima di tutto cos’è il Prompt Chaining

In parole semplici, prompt chaining significa collegare insieme più prompt in sequenza, facendo sì che l’output di un prompt diventi l’input del successivo . Invece di chiedere a un modello linguistico di svolgere un compito complesso tutto in una volta, lo si scompone in passi più piccoli e gestibili, rendendo più efficiente l’elaborazione, l’accuratezza ed il consumo sottostante che viene impiegato per elaborare la richiesta.

Per capirci, come succederebbe nella relazione umana, invece di dire ad un copywriter “Scrivimi l’articolo sull’AI” creando la condizione per cui l’interlocutore deve decidere a cosa dare priorità, su quali argomenti soffermarsi e ottimizzare il tempo a disposizione, si chiede qualcosa di più specifico, più nel dettaglio, progressivamente sempre più in profondità, raffinando il concetto.

Ogni prompt nella catena dei prompt si concentra su un sotto-compito specifico, mantenendo il contesto e guidando il modello passo dopo passo . Questo processo iterativo permette all’AI di affrontare compiti complessi in modo più efficace, migliorando accuratezza e coerenza delle risposte .

“Eh, ma Chat è stupido…”

Quando mi sento dire “Eh ma Chat è stupido, mi risponde con testi banali“, spesso rispondo che è normale perchè cosicome esistono principi di LIFO, FIFO e via dicendo, nell’ai più che mai esiste anche il MIMO ossia Merd-In Merd-Out (o come direbbero i fighi Shit-in Shit Out).

Se chiediamo all’AI di scrivere un intero report in un solo prompt, otterremo con molta probabilità un risultato superficiale, disorganizzato o incoerente. Perché? Perché il modello deve fare tutto in una volta sola: strutturare, scrivere, sintetizzare, scegliere priorità, tono e contenuti, senza una guida chiara. È come chiedere a qualcuno di cucinare una cena gourmet mentre corre una maratona. Serve ordine, energia e tempo – ma se tutto viene concentrato in un colpo solo, il risultato ne risente.

Con il prompt chaining, invece, possiamo scomporre il compito in step successivi. Prima chiediamo un elenco dei punti chiave, poi sviluppiamo ciascun punto in un paragrafo, infine rivediamo e affiniamo il testo. Ogni fase prepara la successiva, mantenendo un filo logico chiaro. Questo approccio non solo aiuta l’IA a produrre contenuti migliori, ma ottimizza anche il modo in cui consuma le sue risorse.

Ogni interazione con un modello AI, infatti, utilizza dei token: piccole unità che rappresentano parole, punteggiatura e spazi. Ogni prompt e ogni risposta consumano token, e ogni modello ha un limite massimo oltre il quale inizia a “dimenticare” o a perdere contesto: è la cosiddetta finestra di contesto. Se proviamo a incastrare troppa roba in un solo prompt, superiamo questo limite e il modello rischia di produrre un risultato povero o scollegato.

Qui si nota una differenza concreta tra chi usa la versione Free di ChatGPT (basata su GPT-3.5, con un limite di circa 4.000 token, cioè poche pagine di testo complessivo) e chi ha attivato la versione Plus, che usa GPT-4-turbo, in grado di gestire fino a 128.000 token – l’equivalente di un libro intero. Con GPT-4, quindi, possiamo costruire catene di prompt molto più lunghe, mantenendo la coerenza del discorso e una memoria estesa.

È come viaggiare con un’auto che ha un serbatoio piccolo (GPT-3.5) o con una che può contenere molta più benzina (GPT-4): entrambe ti portano a destinazione, ma nel primo caso dovrai fermarti spesso e ridurre il carico, nel secondo puoi affrontare tragitti più lunghi, con meno compromessi e migliori prestazioni.

Oltre l’ingegneria dei prompt

Il prompt chaining non è solo un modo “furbo” di scrivere prompt, ma si avvicina a una forma di architettura cognitiva. In pratica stiamo progettando la struttura del ragionamento dell’IA. Come un architetto progetta l’organizzazione di un edificio, chi utilizza il prompt chaining progetta come l’IA suddivide e affronta un problema. Ricorda il modo in cui noi umani affrontiamo compiti complessi: li dividiamo in step, li risolviamo uno per uno, e infine uniamo tutto. Allo stesso modo, il chaining fa sì che il modello di AI “pensi ad alta voce” attraverso passaggi intermedi, mimando un processo cognitivo umano .

Non a caso, ricercatori e sviluppatori vedono queste catene di prompt come elementi di agenti AI più evoluti. In diversi studi e articoli si nota che aggiungere flussi di controllo interni come il prompt chaining ai modelli linguistici porta a una nuova generazione di “agenti” IA, capaci di ragionare e interagire in modo più strutturato . In altre parole, concatenare prompt è un modo per orchestrare la cognizione dell’AI: stiamo dando al modello un percorso da seguire, un po’ come una scaletta mentale. Questo approccio apre le porte a sistemi AI più affidabili e “pensanti”, anziché limitarsi a mere scatole nere che sputano fuori una risposta senza farci capire il come e il perché.

Scomporre i problemi per soluzioni migliori

“Perché spezzettare un compito aiuta l’AI a produrre risultati migliori?” mi chiedono spesso in aula. I motivi sono intuitivi. Innanzitutto, ogni parte del problema riceve attenzione dedicata: affrontando un passo alla volta, il modello può dedicare più risorse cognitive a ciascun aspetto, senza essere sopraffatto dalla complessità generale . Questo porta a risposte più complete e approfondite su ogni sotto-tema, migliorandone la qualità complessiva .

In secondo luogo, il prompt chaining aumenta la coerenza e il mantenimento del contesto: ogni prompt successivo eredita le informazioni dai precedenti, evitando che l’AI “dimentichi” dettagli importanti lungo il percorso . Questo è cruciale, ad esempio, quando si crea una narrazione o un progetto articolato, perché garantisce che tutte le parti “parlino la stessa lingua” e si integrino bene.

Un altro vantaggio è la maggiore trasparenza del ragionamento. Richiedendo all’AI di mostrare passo dopo passo il processo (ad esempio elencando ragionamenti o calcoli intermedi), diventa più facile per noi umani seguire il filo logico e capire come si è arrivati a una certa conclusione. Questa tracciabilità (tema che affronterò in modo dedicato in un altro post) non solo aumenta la fiducia nell’output — possiamo vedere perché l’AI suggerisce X invece di Y — ma ci consente anche di individuare eventuali errori logici in itinere.

Infatti, suddividendo il problema, possiamo correggere il tiro a metà strada se notiamo che l’AI sta deviando: il chaining facilita l’isolamento di quale passo ha generato un errore, semplificando interventi e debug. È lo stesso principio su cui si basano i nuovi modelli di AI avanzati, come GPT-4 o Claude Opus, che stanno iniziando a integrare forme esplicite di reasoning interno, strutturato in catene di pensiero (chain-of-thought reasoning), per spiegare le decisioni che prendono. Il prompt chaining è oggi uno strumento manuale per ottenere ciò che i modelli di domani inizieranno a fare da soli: pensare per passaggi visibili e controllabili (e quindi revisionabili).

Infine, questo approccio metodologico aiuta a mitigare i limiti pratici dei modelli. I modelli linguistici hanno una finestra di contesto limitata (una quantità massima di testo che possono gestire alla volta); fornire tutte le istruzioni in un unico prompt lungo può essere inefficace o impossibile. Con una catena di prompt, in sinstesi, si alimenta gradualmente l’informazione restando nei limiti, senza perdere il contesto e allo stesso tempo, si riduce il rischio di allucinazioni fuori tema, mantenendo il modello concentrato su un sub-compito alla volta e reintegrando il contesto ad ogni passo.

Praticamente in questo modo abbiamo una AI sempre “sul pezzo” e le facciamo evitare divagazioni fantasiose.

Progettare un corso con l’AI passo dopo passo

Per rendere concreto tutto questo, immaginiamo di utilizzare il prompt chaining per un compito manageriale comune: progettare un corso di formazione o creare contenuti didattici strutturati.

Invece di chiedere subito all’AI “Scrivi il programma dettagliato di un corso su X”, potremmo procedere per fasi:

  1. Definire l’obiettivo e il pubblico: In un primo prompt, chiediamo al modello di delineare gli obiettivi formativi del corso X e di identificare il pubblico target (es. principianti, livello avanzato, ecc.). Questo stabilisce il contesto e la direzione generale.

  2. Creare un elenco di moduli/lezioni: Con gli obiettivi chiari, un secondo prompt potrebbe chiedere una struttura a moduli o lezioni chiave del corso. L’AI proporrà, ad esempio, 5-10 moduli tematici in sequenza logica.

  3. Dettagliare i contenuti di ciascun modulo: Per ogni modulo individuato, possiamo generare a catena un ulteriore prompt che ne chiede i dettagli: concetti da coprire, esempi pratici, esercitazioni o casi di studio da includere.

  4. Sviluppare materiali o approfondimenti: Una volta approvata la struttura, ulteriori prompt possono concentrarsi sulla creazione di contenuti specifici – ad esempio, “Genera una dispensa introduttiva per il Modulo 1” o “Suggerisci 3 domande quiz per verificare l’apprendimento nel Modulo 2”. Così, gradualmente, si popola l’intero corso.

  5. Revisione e rifinitura: Infine, si può usare un prompt conclusivo per fare un check generale, ad esempio “Rivedi il syllabus completo del corso e verifica che il linguaggio sia adatto a [pubblico target] e coerente in tutti i moduli”. Oppure chiedere un riepilogo executive da presentare al team.

Ad ogni passo, l’output dell’AI alimenta il passo successivo. Il risultato finale è molto più ricco e strutturato di quello ottenibile con un singolo prompt generico. Chi ha sperimentato questo approccio nota che “pensare in catene, anziché tentare il colpo grosso con un solo prompt di quelli da fanta-guru-brillante, ha segnato un punto di svolta e ha raggiunto un goal in modo più preciso” . In altre parole, il prompt chaining aiuta l’AI a seguire un filo logico simile a come lo seguirebbe un istruttore umano, con il vantaggio di poter generare rapidamente contenuti per ogni punto del programma.

Questo approccio non è utile solo per corsi ovviamete: qualunque progetto che richieda output complessi e ben organizzati (dai piani strategici, alla stesura di rapporti articolati, fino alla ricerca di mercato) può trarre beneficio da una suddivisione in prompt sequenziali. Il bello è che il controllo rimane all’utente umano: possiamo intervenire tra uno step e l’altro, aggiustare il tiro o inserire input aggiuntivi, guidando l’IA come faremmo con un collaboratore umano.

Ma non è lo stesso che chiedere “approfondisci”?

Una domanda legittima è: “Ma non è la stessa cosa di quando scrivo un prompt generico e poi chiedo all’AI di approfondire o usare Deep Research”. La risposta è no, non è la stessa cosa — né per approccio, né per controllo, né per qualità del ragionamento.

Quando chiediamo a un’AI “approfondisci questo punto” o “fammi un elenco di motivi”, stiamo delegando completamente al modello la scelta di cosa approfondire, in che ordine e con quale criterio. L’AI fa del suo meglio in base al contesto ricevuto, ma decide lei come interpretare la richiesta e cosa restituire. È un approccio reattivo, utile ma passivo.

Nel prompt chaining, invece, è l’utente a guidare attivamente e intenzionalmente il processo: decide in anticipo i passi, li struttura in modo progressivo e ne controlla coerenza e profondità. Ogni sotto-domanda è pensata come parte di un flusso, e l’output di ciascun passaggio è validato prima di passare al successivo. In altre parole, il chaining costruisce un ragionamento architettato, mentre l’approccio a “prompt singolo + follow-up” si limita a inseguire l’output, senza reale regia.

Questo è il punto di contatto e insieme di differenziazione rispetto ai nuovi modelli con reasoning interno automatizzato, che iniziano a generare da soli le domande intermedie, gli step di verifica o gli scratchpad (una specie di taccuino mentale in cui “annotano” i passaggi logici). In quel caso l’AI sta simulando un flusso cognitivo autonomo, ma resta comunque opaco all’utente se non viene esplicitato. Il prompt chaining, invece, porta alla luce il processo, lo rende trasparente, ispezionabile e — cosa non da poco — intervenibile.

Chiedere “approfondisci” è come affidare un tema all’AI e sperare che interpreti bene la traccia. Il prompt chaining è come costruire insieme all’AI una scaletta, definire ogni paragrafo e correggere lungo il percorso. È la differenza tra reattività e progettualità.

Strumenti e casi emergenti

Il concetto di prompt chaining si è diffuso così rapidamente che sono nati strumenti e framework dedicati. La libreria open-source LangChain ne è un esempio e permette agli sviluppatori di creare facilmente pipeline di prompt collegate, integrando anche memoria esterna e chiamate a strumenti, per costruire agenti AI sofisticati. Esistono anche altre piattaforme più user friendly come Voiceflow e altre soluzioni no-code che offrono interfacce visuali per orchestrare conversazioni multi-turno e flussi di prompt, così che anche chi non programma possa progettare l’interazione step-by-step.

All’inizio del boom di ChatGPT, alcuni esperimenti come AutoGPT hanno mostrato il potenziale di un’AI che autonomamente insegue un obiettivo tramite una sequenza di azioni e sottocompiti. In pratica AutoGPT crea i propri prompt in catena per raggiungere un fine assegnato, simulando un agente quasi “autonomo”. Questi esempi, seppur embrionali, dimostrano la potenza dell’idea: spezzando i problemi e pianificando i passi, l’AI può affrontare anche compiti molto articolati. Non sorprende che aziende come OpenAI, Microsoft e altri stiano investendo in queste direzioni, integrando meccanismi di chaining e ragionamento nei loro sistemi .

Stiamo assistendo ai primi passi di una nuova orchestrazione cognitiva, dove l’intelligenza artificiale non è più vincolata a rispondere istantaneamente a un singolo prompt, ma può elaborare un piano d’azione interno prima di fornire la soluzione. Questo è un cambio di prospettiva entusiasmante, perché avvicina l’operato dell’AI a un processo decisionale più umano e strategico.

Perché oggi tutti dovrebbero interessarsene?

Da un punto di vista manageriale e business, il prompt chaining offre risultati più affidabili e raffinati dalle AI, il che può tradursi in decisioni migliori e contenuti di qualità superiore. Ad esempio, nei team di L&D (Learning & Development) o di content marketing, utilizzare l’AI in modalità “a catena” permette di sviluppare corsi, tutorial, documentazione o white paper in maniera organizzata e coerente, riducendo il lavoro di editing successivo. Si passa da un’AI percepita come scatola magica imprevedibile a un’AI vista come collaboratore logico: un assistente che segue un processo, su cui possiamo intervenire in itinere. Ciò aumenta la fiducia nell’utilizzo e ne amplifica il valore nell’operatività quotidiana.

La trasparenza fornita dai passi intermedi è preziosa per la governance dell’AI in azienda: poter spiegare come una macchina ha elaborato un output (grazie ai ragionamenti esposti nella chain) può essere fondamentale per conformità, auditing o semplicemente per convincere gli stakeholder dell’affidabilità di una soluzione AI. In ambito educativo o formativo, come già notato, l’approccio step-by-step “alla insegnante” migliora l’attenzione ai dettagli e l’efficacia pedagogica . Insomma, il prompt chaining unisce il pensiero analitico umano con la velocità di calcolo dell’IA, offrendo il meglio di entrambi i mondi.

Verso un futuro di AI più “umana”

Il prompt chaining rappresenta uno step avanti: da semplici richieste isolate a una collaborazione più strutturata uomo-macchina. Questa metodologia deve farci notare che l’AI può (e deve) essere guidata a pensare per passi, e che spesso la chiave per risultati straordinari sta nel porre le giuste domande nell’ordine giusto. È un campo in rapido sviluppo, con implicazioni che vanno oltre la tecnologia e toccano l’organizzazione del lavoro e la progettazione di conoscenza.