Quanta intelligenza artificiale stai davvero governando?
Usare intelligenza artificiale e governarla sono due cose diverse. Quasi nessuna organizzazione che conosco ha ancora fatto il salto dalla prima alla seconda, e il conto sta arrivando, in modo molto concreto, sotto forma di budget esplosi a fine mese.
Le due cose sembrano simili. Non lo sono per niente.
Ho visto circolare nelle ultime settimane un grafico che mi ha colpito per la sua semplicitร , il tipo di visualizzazione che riesce a mettere insieme in modo immediato qualcosa che si intuiva ma non si riusciva ancora a formulare bene. Su scala logaritmica, due curve: i ricavi da abbonamento per posto, piatti e stabili nel tempo, e il costo reale per token di inferenza, che cresce in modo esponenziale con l’intensitร d’uso. Finchรฉ le linee restano separate, il margine esiste, le aziende che costruiscono su questi modelli respirano. Dopo l’incrocio, il grafico lo chiama “Profit Collapse.” Non รจ un modello accademico, รจ quello che le aziende che hanno messo intelligenza artificiale in produzione su larga scala stanno giร vedendo nelle loro dashboard finanziarie.
Un caso che ha fatto girare molto rumore nelle ultime settimane: il CTO di Uber ha dichiarato di aver consumato in quattro mesi l’intero budget previsto per l’anno intero. Non perchรฉ i modelli non funzionassero. Perchรฉ nessuno aveva progettato il workflow con la consapevolezza che ogni chiamata ha un peso, che la somma di migliaia di micro-interazioni che sembrano gratuite diventa, alla scala di un’azienda come Uber, una spesa concreta, reale, non pianificata.
Il prezzo del flat-rate รจ stato l’ignoranza
Per due anni, i modelli di pricing a tariffa fissa hanno fatto una cosa molto precisa: hanno reso invisibile il costo reale dell’inferenza. La subscription mensile, il “paga X al mese e usa quanto vuoi”, ha creato nelle organizzazioni un’abitudine pericolosa, quella di non porsi le domande giuste sul consumo. Quanti token stiamo generando davvero? Chi li genera? Quale parte del flusso di lavoro produce valore misurabile e quale รจ ridondanza computazionale, automazione per automazione?
Quelle domande non venivano poste perchรฉ il modello economico non le rendeva urgenti. Adesso lo diventano, perchรฉ il pricing a token le mette sul tavolo ogni mese, come voce di costo separata, attribuibile, visibile.
La reazione che osservo piรน spesso รจ quella sbagliata: tagliare le licenze, ridurre l’accesso, aspettare che i costi scendano ancora. ร una risposta di gestione del budget, non una risposta di strategia. E rischia di far perdere il vantaggio competitivo che si stava costruendo nel momento peggiore.
Adottare e governare sono due fasi diverse
C’รจ una distinzione che mi sembra fondamentale e che non viene fatta abbastanza, anche tra le persone che lavorano sul tema con serietร .
Adottare vuol dire integrare strumenti nei processi, formare le persone, misurare i primi risultati, dimostrare che funziona. ร la fase in cui quasi tutte le organizzazioni si trovano, o si sono trovate nell’ultimo anno e mezzo. ร necessaria, รจ il punto di partenza, ed รจ giusta.
Governare รจ qualcosa di diverso, piรน granulare e piรน esigente. Significa sapere dove ogni interazione con un modello si inserisce nel flusso operativo, quali sono le condizioni di attivazione, quanto pesa in termini di contesto, quanto costa ogni singola risposta e perchรฉ vale quello che costa. Significa avere visibilitร sul consumo in tempo reale, non scoprirlo a consuntivo a fine mese. Significa, soprattutto, aver progettato i processi attorno agli strumenti, non aver semplicemente incollato un modello linguistico sopra un flusso di lavoro che esisteva giร prima e che continua a funzionare esattamente come prima, solo con un layer di testo generato in piรน.
La gran parte delle organizzazioni che conosco รจ ancora nella fase dell’adozione. Si vede dai sintomi: budget che arrivano come sorprese, utilizzi distribuiti in modo caotico tra team diversi, nessuna metrica di efficienza sul consumo, nessuna distinzione operativa tra le interazioni che creano valore e quelle che lo consumano senza restituirlo.
Perchรฉ tenere l’intelligenza dentro cambia tutto
In questo contesto, spostare i modelli dentro perimetri controllati, on-premise o in architetture ibride dove il dato sensibile non esce, smette di essere una posizione ideologica sulla sovranitร del dato e diventa una scelta molto concreta, economica e operativa insieme.
I vantaggi sono due, e si sovrappongono. Il primo รจ la prevedibilitร dei costi: un modello che gira su infrastruttura propria ha un costo fisso che si pianifica, con una variabile di consumo che rimane interna, controllabile, non affidata all’intensitร d’uso di tremila dipendenti distribuiti su fusi orari diversi. Il secondo รจ la compliance, che con l’AI Act in vigore e la pressione normativa che continua a crescere รจ diventata un requisito operativo con scadenze e responsabilitร , ben oltre il perimetro di chi si occupa di legale.
Non tutti i casi d’uso hanno bisogno di modelli privati. Molti flussi di lavoro funzionano perfettamente su API pubbliche, purchรฉ siano stati progettati con la consapevolezza del costo. Ma la scelta tra pubblico e privato non puรฒ essere presa senza aver prima risposto alle domande di governo: chi usa cosa, con quale frequenza, per fare cosa, e quanto rende.
I token come risorsa operativa
C’รจ un cambio culturale che secondo me non sta avvenendo alla velocitร giusta, ed รจ quello di trattare il consumo di token come una risorsa operativa, con la stessa serietร con cui si trattano le ore di computing, la banda di rete, lo storage.
In ogni organizzazione tecnologicamente matura, queste metriche hanno un owner, un budget, un ciclo di ottimizzazione. Il consumo di token, finora, non ne ha avuto uno. Era nascosto nel flat-rate, o era abbastanza economico da sembrare irrilevante come singola voce.
Non รจ piรน cosรฌ, e la risposta non รจ tagliare, come dicevo. La risposta รจ costruire la governance prima che il budget esploda: monitoraggio in tempo reale, attribuzione del consumo per team e per processo, soglie di allerta, revisione periodica dei flussi ad alto costo. ร lavoro di ingegneria, di processo, di cultura organizzativa. ร il lavoro che separa chi sta ancora adottando da chi sta davvero costruendo.
C’รจ un parallelo che mi viene in mente pensando a come siamo arrivati qui. Nel mondo dello sport professionistico, c’รจ stato un momento in cui le squadre hanno smesso di valutare i giocatori a occhio e hanno iniziato a misurare tutto, ogni azione, ogni metro percorso, ogni contatto. Quella trasformazione non ha reso lo sport meno umano, ha reso le decisioni piรน informate. Qualcosa di simile sta per succedere con l’intelligenza artificiale in azienda: chi impara a misurare prima, e a misurare le cose giuste, arriverร avvantaggiato alla fase successiva.
La competizione si sposta
Ci sarร un punto, e credo non lontano, in cui la competizione sull’intelligenza artificiale in azienda non si giocherร piรน sull’accesso ai modelli. I modelli sono giร disponibili, i costi di inferenza scendono, la barriera tecnica all’ingresso si abbassa. La competizione si giocherร su chi riesce a usarli in modo economicamente sostenibile, con processi progettati per reggere la scala, non solo la demo, e con la capacitร di misurare, ottimizzare, correggere in tempo reale.
Le organizzazioni che arriveranno avvantaggiate a quella fase sono quelle che adesso, mentre la conversazione pubblica รจ ancora tutta sull’adozione e sui casi d’uso, stanno costruendo la governance. Stanno ponendo ai loro team le domande scomode. Stanno mettendo metriche dove prima c’erano impressioni. Stanno disegnando flussi di lavoro che hanno senso economico oltre che funzionale.
Senza dubbio, la domanda che conta adesso non รจ “stai usando intelligenza artificiale?” ma “sai cosa sta facendo l’intelligenza artificiale che stai usando, e quanto ti costa davvero governarla?”
Lโidea centrale รจ questa: stiamo entrando in unโera in cui lโintelligenza smette di essere un software che consultiamo e diventa unโatmosfera che respiriamo. Unโinfrastruttura invisibile che collega sensori IoT, edge device, algoritmi e modelli in una rete globale. I dati diventano impulsi. Gli oggetti smettono di essere โcoseโ separate e diventano organi di un ecosistema piรน grande.