Sovranitร  dell’AI: quando un governo puรฒ spegnere un modello

Venerdรฌ 12 giugno 2026, ore 17:21 a New York. Anthropic riceve una lettera dal governo degli Stati Uniti e nel giro di poche ore disattiva i suoi due modelli piรน potenti, Fable 5 e Mythos 5, per l’intera base clienti, ovunque nel mondo. La motivazione, dichiarata nel comunicato ufficiale dell’azienda, รจ un export control per ragioni di sicurezza nazionale che vieta l’accesso a qualunque cittadino straniero, dentro e fuori dagli Stati Uniti, compresi i dipendenti stranieri della stessa Anthropic.

Screenshot

Non discuto qui chi abbia ragione. Mi interessa una cosa piรน semplice, e piรน scomoda, che fino a quella sera in molti trattavano come un dettaglio tecnico: l’accesso ai modelli di frontiera รจ un permesso, e un permesso lo concede qualcuno che puรฒ anche ritirarlo.

Un export control ha messo offline un modello di frontiera

La direttiva รจ arrivata venerdรฌ pomeriggio, alle 17:21 ora della costa Est. Secondo NBC News a firmarla รจ stato il Segretario al Commercio Howard Lutnick, con i funzionari del Bureau of Industry and Security, l’ufficio che negli Stati Uniti gestisce le restrizioni all’export. รˆ lo stesso strumento con cui negli anni Novanta Washington trattava la crittografia come un’arma da guerra, soggetta alle regole sull’export militare. Anthropic ha scelto di spegnere i modelli per tutti, perchรฉ applicare il divieto ai soli stranieri avrebbe comunque tagliato fuori una parte enorme di utenti, inclusi i suoi stessi dipendenti non statunitensi.

L’azienda si adegua, ma dichiara di non essere d’accordo. Sostiene che la vulnerabilitร  contestata sia minore, che la prova ricevuta sia finora soltanto verbale, e che la stessa capacitร  sia giร  reperibile in altri modelli pubblici, incluso GPT-5.5 di OpenAI, e usata ogni giorno da chi i sistemi li difende. รˆ, per quanto se ne sa, la prima volta che un’azienda AI di primo piano mette offline un modello giร  distribuito al pubblico per effetto di un intervento federale.

Il contesto pesa piรน della singola lettera. A febbraio l’amministrazione aveva provato a escludere i prodotti Anthropic dalle agenzie federali, l’azienda aveva fatto causa e un giudice le aveva dato ragione. La settimana scorsa รจ emerso che la National Security Agency stava usando Mythos per operazioni cyber offensive. E il 2 giugno รจ stato firmato un ordine esecutivo sull’AI che, tra le altre cose, prevede un meccanismo per dare al governo accesso anticipato, su base volontaria, ai modelli piรน potenti. Lo stesso modello che lo Stato vuole usare per la propria sicurezza รจ anche quello che lo Stato puรฒ decidere di spegnere, per la stessa ragione.

Permesso, non proprietร 

Quando paghi l’abbonamento a un modello hai l’impressione di possederne l’uso. L’accesso non รจ un bene che possiedi, รจ un permesso che ti concedono, condizionato, che vive su infrastruttura di qualcun altro e sotto la legge di qualcun altro.

In Pelle Digitale ho provato a raccontare come il digitale sia diventato una seconda pelle, qualcosa che indossiamo senza piรน accorgercene finchรฉ funziona. La dipendenza piรน profonda รจ quella invisibile. La vedi solo il giorno in cui qualcuno la stacca, e venerdรฌ centinaia di milioni di persone hanno visto la propria.

Il controllo dell’AI รจ verticale

Girano decine di schemi dello stack dell’AI. Alcuni lo disegnano come un mercato, con applicazioni e modelli e dati e infrastruttura, altri come un’architettura tecnica a livelli, altri ancora come una pila di governance che sale dalla sicurezza fino al consiglio di amministrazione. Linguaggi diversi per lo stesso oggetto.

Quasi nessuno mette in evidenza la dimensione che venerdรฌ รจ diventata lampante. Il controllo รจ verticale. C’รจ una pila che parte dal silicio e arriva alla governance, con in mezzo il cloud, i pesi del modello, il runtime di inferenza, l’orchestrazione, le applicazioni. Puoi avere model card, audit trail e comitati etici impeccabili in cima, e perdere comunque l’accesso al modello perchรฉ una lettera, in un’altra capitale, ha deciso cosรฌ. Una policy perfetta vale poco se il fondo della pila vive sotto la giurisdizione di un altro Stato.

Dove puรฒ intervenire davvero un’azienda privata?

Qui la domanda si fa concreta, e la risposta cambia da livello a livello.

Sul silicio un’azienda privata non interviene. Non progetta i chip, non controlla i grandi produttori, e l’export sui semiconduttori รจ una leva che si muove tra governi. รˆ il piano geopolitico del controllo, quello su cui un’impresa, per quanto grande, resta sostanzialmente spettatrice.

Dal cloud in su la situazione si ribalta. L’infrastruttura puoi sceglierla, on-premise oppure su un cloud sovrano in giurisdizione europea. Il runtime di inferenza gira su software aperto, dentro il tuo perimetro. Per orchestrazione e agenti esistono standard aperti come MCP. Le applicazioni le disegni o le ospiti tu, e la governance, in cima, รจ per definizione tua.

In mezzo c’รจ il livello che decide tutto, il modello e i suoi pesi. Con pesi aperti, scaricati e ospitati sulla tua infrastruttura, il modello รจ tuo e nessuno te lo spegne da remoto. Con un’API proprietaria, per quanto eccellente, dipendi dalla continuitร  di servizio di chi te la fornisce, ed รจ esattamente lรฌ che venerdรฌ รจ caduta la direttiva.

Controllare l’intera pila, dal chip all’applicazione, รจ impraticabile per quasi qualunque organizzazione, e costoso anche solo provarci. La scelta sensata non sta nel possedere tutto, ma nel decidere, livello per livello, cosa tenere dentro il perimetro e cosa affittare sapendo bene che cosa si sta affittando.

Il metodo viene prima della tecnologia

Decidere quali livelli controllare รจ prima di tutto un esercizio di metodo: mappare le dipendenze reali, valutare la maturitร  dell’organizzazione, architettare quali strati portare in casa e con quale prioritร , mettere governance e conformitร , con l’AI Act in testa, dentro il progetto dall’inizio e non come timbro finale. รˆ il lavoro che con ZeroFive provo a fare con un framework a cinque fasi, che parte dall’allineamento strategico e dalla valutazione della maturitร , passa per l’architettura delle prioritร  e l’attivazione della governance, e arriva alla misurazione del valore nel tempo, con un’idea fissa, portare metodo dove l’industria porta hype.

Il metodo dice quali livelli pesano per te. Poi serve la tecnologia per tenerli davvero in mano, e sul livello che fa da bivio, il modello e il runtime, la risposta tecnica ha un nome preciso, l’open source. LocalAI รจ un motore di inferenza aperto, compatibile con le API di OpenAI e indipendente dal modello, pensato per far girare modelli a pesi aperti dentro il perimetro dell’azienda, senza che il dato esca e senza che l’accesso dipenda da una decisione presa da un’altra parte. รˆ il progetto su cui lavoro, e lo cito per quello che รจ in questo discorso, un modo concreto per riportare il modello dalla parte di chi lo usa. Vale anche per chi si occupa di AI generativa in azienda: la scelta della pila viene prima della scelta del fornitore.

La direttiva del 12 giugno rientrerร  quasi certamente, Anthropic stessa la legge come un malinteso, e l’accesso a Fable e Mythos tornerร . La lezione perรฒ resta anche dopo. Per chi costruisce in Europa la prossima domanda da portare in consiglio di amministrazione non riguarda quale modello sia il piรน bravo, ma quanta parte del proprio stack continuerebbe a funzionare il mattino dopo una lettera. Voi quanta parte ne avete?


Fonte primaria: Statement on the US government directive to suspend access to Fable 5 and Mythos 5, Anthropic, 12 giugno 2026. Ricostruzione del meccanismo governativo: NBC News. Contesto regolatorio: ordine esecutivo del 2 giugno 2026.

Mistral vs Llama vs Qwen vs DeepSeek: quale per l’azienda

Tre anni fa, “modello open-source” significava roba di nicchia per ricercatori. Llama 1 di Meta aveva 65 miliardi di parametri, performance discrete sui benchmark, e una licenza che non ti permetteva di usarlo commercialmente. Il resto era praticamente esercizio accademico. Nel maggio 2026 il panorama รจ cambiato in modo radicale. Quattro famiglie di modelli open-weight competono testa a testa con i top di gamma proprietari (Claude Opus, GPT-5, Gemini Pro) su task specifici, e per le aziende italiane che vogliono fare AI privata sono diventate la scelta di default invece dell’eccezione.

Ho ricevuto la stessa domanda due volte questa settimana, una da un CTO di un’azienda manifatturiera lombarda e una da un’innovation manager di una banca italiana di medie dimensioni: “Tutti dicono Llama, ma davvero รจ la scelta giusta per noi?”. La risposta breve รจ “dipende”, e in questo articolo provo a sciogliere quel dipende.

I quattro modelli che vale la pena considerare seriamente oggi sono: Llama di Meta (americano, ampia diffusione, ecosistema enorme), Mistral di Mistral AI (francese, alleato europeo, focus enterprise), Qwen di Alibaba (cinese, performance al top sui benchmark, costi infrastrutturali bassi), DeepSeek (cinese, reasoning forte, prezzi aggressivi). Provo a confrontarli sui cinque criteri che contano davvero per chi deve prendere una decisione enterprise.

La lingua italiana, prima di tutto

Per le aziende italiane c’รจ un problema spesso sottovalutato: la qualitร  della lingua italiana del modello. I benchmark internazionali sono quasi tutti in inglese, e un modello che fa 92 su MMLU in inglese puรฒ fare 78 in italiano. Per chi costruisce un agente AI interno che parla con i propri dipendenti, questa differenza si sente nella qualitร  delle risposte.

I quattro modelli si comportano in modo abbastanza diverso su italiano. Mistral, essendo francese, ha l’italiano nel core training data fin dalle prime versioni, e produce un italiano molto naturale, con sfumature idiomatiche credibili. Llama 3.3 ha migliorato significativamente l’italiano rispetto a Llama 2, ma resta sotto Mistral nelle situazioni complesse (contratti legali, terminologia tecnica specifica). Qwen 4 fa un italiano sorprendentemente buono nelle versioni recenti, soprattutto sui task strutturati, anche se ogni tanto introduce piccoli calchi grammaticali dal cinese che un madrelingua riconosce. DeepSeek รจ il piรน debole sull’italiano della categoria, va bene per task tecnici e codice ma spesso suona “tradotto” sul conversazionale.

La mia regola pratica: se l’agente AI deve parlare con i vostri dipendenti italiani in modo fluido, Mistral o Llama. Se l’agente fa task back-end strutturati (estrazione dati, classificazione, codice), Qwen o DeepSeek vanno benissimo. Se siete bilingue inglese-italiano in azienda, qualsiasi dei quattro va bene.

Qualitร  delle risposte sui task aziendali tipici

I benchmark accademici (MMLU, GSM8K, HumanEval) sono utili come riferimento generale, ma non vi dicono se un modello vi serve in produzione. Per chi vuole capire cosa scegliere per la propria azienda, vale la pena testare quattro categorie di task che tornano spesso.

Sintesi e analisi documentale. Tutti e quattro i modelli, nelle loro versioni 70B+, fanno bene questo task. Mistral Large 3 e Llama 3.3 70B sono praticamente equivalenti sui documenti aziendali italiani. Qwen 4 70B รจ leggermente piรน conciso, puรฒ andare bene o male a seconda dello stile che cercate. DeepSeek V3 fa molto bene su documenti tecnici e meno bene su prosa argomentativa.

Estrazione strutturata. Quando dovete estrarre dati strutturati da testo libero (campi di un contratto, voci di una fattura, entitร  da una mail), i modelli si differenziano per affidabilitร . Qwen 4 e DeepSeek vincono qui, perchรฉ hanno una propensione al rigore strutturale che รจ perfetta per output JSON, function calling, schema fissi. Llama e Mistral fanno discretamente, ma con tasso di hallucination sui campi vuoti piรน alto.

Generazione di codice. Categoria dove DeepSeek brilla con il suo modello specializzato Coder, che compete direttamente con Claude Sonnet sui task di programmazione. Qwen 4 Coder รจ il secondo. Mistral Codestral รจ solido. Llama 3.3 fa il codice meno bene degli altri tre.

Conversazione lunga e ragionamento. Per agenti AI con conversazioni multi-turno complesse, ricerca multi-step, ragionamento articolato, i modelli reasoning sono la categoria giusta. DeepSeek R2 รจ il leader open-weight della categoria, eccellente su reasoning matematico e logico. Qwen 4 con thinking mode รจ il secondo. Mistral e Llama nelle versioni standard sono piรน orientati al chat istantaneo, meno al reasoning profondo.

Hardware necessario e costi infrastrutturali

I quattro modelli pesano in modo diverso sulla vostra infrastruttura. รˆ un fattore che le aziende spesso valutano in secondo piano e che diventa importante quando si passa dalla demo alla produzione su volumi reali.

Llama 3.3 70B in Q4 quantizzato pesa circa 40 GB di RAM/VRAM. Gira bene su Mac Studio M4 Max 128 GB (30-45 tok/s), su server con 2x RTX 4090 (50-70 tok/s), su singola H100 (90-120 tok/s).

Mistral Large 3 (123 miliardi parametri) รจ significativamente piรน pesante. Richiede 70+ GB di memoria, quindi Mac Studio 128 GB o server NVIDIA con almeno 80 GB di VRAM (H100, due 5090 in tandem). Performance: 15-25 tok/s sul Mac, 60-90 tok/s su H100.

Qwen 4 32B-A3B รจ la sorpresa positiva. รˆ un modello MoE (Mixture of Experts) da 32 miliardi totali con solo 3 miliardi attivi per token. Pesa circa 18 GB ma รจ veloce come un modello da 7B in inferenza. Sul Mac Mini M4 Pro 48 GB arriva a 50-70 tok/s con qualitร  di output che compete con modelli 70B densi. รˆ il modello piรน “efficiente per dollaro” che ho visto nel 2026.

DeepSeek V3 รจ grande (671B parametri totali, 37B attivi MoE), richiede infrastruttura server seria. Non gira su consumer Mac. Per molte PMI italiane รจ sovradimensionato.

Calcolando il costo infrastrutturale per servire 100 utenti aziendali simultaneamente in produzione:

  • Qwen 4 32B-A3B: 2.000-4.000 euro hardware
  • Llama 3.3 70B: 5.000-10.000 euro hardware
  • Mistral Large 3: 15.000-30.000 euro hardware
  • DeepSeek V3 full: 40.000+ euro hardware

Licensing e implicazioni geopolitiche

Per le aziende italiane, soprattutto quelle che lavorano con PA o settori regolati, la provenienza geografica del modello inizia a contare.

Llama ha una licenza commerciale aperta che permette praticamente qualsiasi uso (con il limite delle aziende con oltre 700 milioni di utenti attivi, che รจ un caso che riguarda Meta stessa, non voi). รˆ un modello americano, sviluppato da Meta, distribuito sotto Llama Community License.

Mistral รจ francese, distribuito sotto Apache 2.0 per le versioni open-weight (Mistral 7B, Mixtral, alcune varianti). Le versioni piรน recenti come Mistral Large 3 sono proprietarie con API a pagamento ma con opzione enterprise on-premise. Per le aziende italiane che vogliono restare nel perimetro europeo, Mistral รจ la scelta naturale dal punto di vista geopolitico.

Qwen รจ di Alibaba, distribuito sotto Apache 2.0 (le versioni piรน recenti) o Tongyi Qianwen License (alcune varianti). I modelli sono completamente utilizzabili commercialmente. La provenienza cinese puรฒ essere un problema per aziende che lavorano con PA, difesa, settori sensibili. Per la maggior parte delle aziende manifatturiere o servizi italiane non c’รจ alcun problema operativo, ma รจ un fattore che alcuni board considerano.

DeepSeek รจ cinese (Hangzhou), distribuito sotto MIT license (piรน permissiva di Apache 2.0 in alcuni dettagli). Stesse considerazioni geopolitiche di Qwen.

La domanda non รจ “il modello cinese puรฒ rubare i miei dati”: tutti i modelli open-weight girano sul vostro hardware, quindi i dati non escono di un millimetro. La domanda รจ di posizionamento aziendale: alcune RFP italiane di settore difesa o PA cominciano a escludere esplicitamente componenti software cinesi.

Aggiornamenti e supporto della community

Un fattore spesso sottostimato: come evolve il modello nei prossimi anni? Acquistare hardware oggi per girarci sopra un modello che non viene piรน aggiornato รจ un investimento dimezzato.

Llama ha rilasciato versioni nuove ogni 6-9 mesi (Llama 1, 2, 3, 3.1, 3.2, 3.3, e Llama 4 รจ atteso entro fine 2026). Meta investe tantissimo nell’ecosistema, e la community Hugging Face ha le fine-tunate Llama piรน estese al mondo. Roadmap solida.

Mistral rilascia con cadenza simile, ma sta progressivamente spostando i modelli piรน nuovi su licenze proprietarie con accesso commerciale a pagamento. Per chi vuole stare sull’open-weight puro, Mistral si รจ un po’ rallentato come strategia. L’azienda รจ solida perรฒ (round di finanziamento da 2 miliardi nel 2024), quindi non c’รจ rischio sostenibilitร .

Qwen รจ quello che evolve piรน velocemente. Alibaba sta investendo aggressivamente, e Qwen rilascia nuove versioni ogni 2-3 mesi. La velocitร  di iterazione รจ impressionante.

DeepSeek ha sorpreso tutti nel 2025 con la versione R1 che competeva con OpenAI o1 su benchmark di reasoning. Sta continuando a rilasciare aggiornamenti, anche se la sostenibilitร  a lungo termine del progetto รจ meno chiara di Meta o Alibaba.

La scelta concreta per tre profili aziendali italiani

Provo a tradurre i criteri sopra in tre raccomandazioni operative.

Per la PMI italiana media (50-300 dipendenti, AI per processi interni, no settori sensibili): Qwen 4 32B-A3B รจ la scelta di default oggi. Costa poco in hardware, gira veloce su un Mac Studio o un workstation modesto, l’italiano รจ buono per la maggior parte dei task aziendali, ha aggiornamenti frequenti. Se l’agente AI fa molto codice o estrazione strutturata, valutate anche DeepSeek Coder come modello specializzato accanto a Qwen.

Per l’azienda media-grande con focus su lingua italiana e mercati europei (settore retail, media, hospitality, servizi B2C): Mistral Large 3 รจ la scelta giusta. Italiano impeccabile, posizionamento europeo, supporto enterprise dedicato. Costa di piรน in hardware (15-30k euro per servire bene 100+ utenti) ma per chi ha quel budget vale.

Per banche, sanitร , PA, difesa, manifattura strategica (settori regolati con sensibilitร  geopolitica): Llama 3.3 70B o Mistral Large 3. Llama per costo infrastrutturale piรน contenuto e ecosistema ampio, Mistral per posizionamento europeo. Evitate Qwen e DeepSeek se la vostra controparte ha sensibilitร  sul tema “componenti cinesi”.

Il valore di poter cambiare modello senza riscrivere

Una considerazione che vale per tutti i profili sopra: i quattro modelli open-weight evolvono velocemente, e il modello migliore di oggi probabilmente non sarร  quello di fra dodici mesi. Llama 4 รจ atteso a fine 2026, Mistral sta preparando le sue prossime versioni, Qwen e DeepSeek rilasciano ogni pochi mesi.

Le aziende che costruiscono il proprio stack AI con un layer di astrazione (un orchestratore che espone API compatibili OpenAI come LocalAI.io, di cui sono cofondatore) riescono a cambiare il modello sotto senza ritoccare le applicazioni. Le aziende che si legano a un modello specifico in modo profondo (prompt engineerizzati su quirk specifici di Mistral, function calling con sintassi proprietaria di Qwen, fine-tuning legato a Llama 3.3) si ritrovano a fare la migrazione manuale ogni volta che esce un modello migliore. La differenza, su tre anni, vale settimane di lavoro di sviluppo.

LocalAI รจ progettato esattamente per questo: gestisce in parallelo Llama, Mistral, Qwen, DeepSeek e tutti i loro fine-tuned, espone un unico endpoint compatibile OpenAI, permette di fare A/B testing fra modelli, di routare task diversi a modelli diversi (Qwen per estrazione strutturata, Mistral per conversazione italiana, DeepSeek per codice), di aggiornare il modello sotto senza che le applicazioni se ne accorgano. รˆ il single point of integration che rende la vostra architettura AI flessibile invece di rigida.

Per chi vuole capire come si imposta lo stack completo dal modello al deployment, ho scritto una guida hardware completa e una guida economica al TCO recente. Per chi sta facendo la decisione operativa su quale modello partire, c’รจ la pagina Advisory con i formati di lavoro che propongo.

La domanda da farsi oggi non รจ “qual รจ il modello migliore”. รˆ: con quale modello vogliamo iniziare adesso, sapendo che fra sei mesi forse cambieremo? E quanto รจ facile per noi cambiarlo quando arriverร  il momento?

TCO LLM on-premise vs cloud: il calcolo a tre anni

Un CFO italiano mi ha fatto una settimana fa la domanda che ricevo piรน spesso quando parliamo di AI privata: “Se chiamo Claude o GPT pago a token, รจ chiaro. Se mi metto un’infrastruttura in casa, in quanto tempo mi rientrano i soldi rispetto al cloud?”. รˆ la domanda giusta, perchรฉ senza un calcolo TCO LLM on-premise solido nessun investimento in AI privata regge davanti al comitato finanziario.

In questo articolo provo a smontare il calcolo del TCO (Total Cost of Ownership) di un LLM on-premise su un orizzonte di tre anni, mettendolo a confronto con le API cloud dei grandi provider. Lavoro su numeri reali di maggio 2026, su tre scenari aziendali tipici italiani, e provo a includere anche le voci nascoste che troppi business case lasciano fuori. L’obiettivo qui non รจ dimostrare che l’on-premise vince sempre. Provo a dare uno strumento per decidere caso per caso.

La trappola del prezzo a token

Il prezzo per milione di token delle API cloud รจ sceso vertiginosamente negli ultimi 24 mesi. Per dare un’idea: GPT-5.4 a maggio 2026 sta a 2,50 dollari per milione di token in input e 15 dollari in output. Claude Sonnet 4.6 a 3 e 15 dollari. Gemini 3 Flash a 0,50 e 3 dollari. DeepSeek V3 a 0,27 e 1,10 dollari. Sembrano cifre piccole. Sono il motivo per cui i CFO mostrano scetticismo verso l’on-premise: “Ma quanto vuoi che mi costino qualche centinaio di milioni di token al mese?”.

Il problema รจ che “qualche centinaio di milioni di token al mese” non รจ la realtร  di una azienda che usa l’AI sul serio. La realtร  รจ che, quando un sistema AI entra dentro i processi e gli utenti se ne accorgono, il consumo esplode. Un agente AI che fa RAG su documenti aziendali per 100 dipendenti puรฒ facilmente bruciare 500 milioni di token al mese fra input e output, una volta che gli utenti hanno preso confidenza con lo strumento. A questi volumi, i conti cambiano.

Vediamo un esempio. Azienda media italiana, 200 dipendenti, agente AI interno per assistenza alla documentazione tecnica e supporto commerciale. Volume tipico: 1 miliardo di token input + 200 milioni di token output al mese (lo skew input/output รจ alto perchรฉ il RAG ricarica documenti pesanti per ogni query). Con Claude Sonnet 4.6: 3.000 + 3.000 = 6.000 dollari al mese, 72.000 dollari l’anno. Con GPT-5.4: 2.500 + 3.000 = 5.500 dollari al mese, 66.000 dollari l’anno. Con Gemini 3 Flash come scelta low-cost: 500 + 600 = 1.100 dollari al mese, 13.200 dollari l’anno.

La forbice รจ larga, e dipende molto dal modello scelto. Tenete in mente questi numeri perchรฉ ci tornerรฒ.

Il vero conto dell’on-premise

Per il setup on-premise, scomponiamo i costi in cinque voci. Le considero su un orizzonte di 36 mesi, che รจ il periodo di ammortamento tipico dell’hardware AI in Italia.

Hardware. Per servire 200 dipendenti con un modello Llama 3.3 70B in produzione, lo scenario realistico รจ un server con 2x RTX 5090 o singola H100, oppure un Mac Studio M4 Max 128 GB. Costo hardware: 8.000-15.000 euro per il Mac Studio, 25.000-40.000 euro per il server NVIDIA. Su 36 mesi di ammortamento, parliamo di 220-1.100 euro al mese.

Hosting e infrastruttura. L’hardware deve stare da qualche parte. Se รจ on-premise puro, c’รจ il costo del rack, del condizionamento, del power supply ridondato, della connettivitร  enterprise. Stima realistica: 200-500 euro al mese. Se รจ in colocation italiana (per chi non ha sala server propria), 400-800 euro al mese. Se รจ su cloud privato italiano (Aruba, Seeweb, una delle nascenti soluzioni PSN), 600-1.200 euro al mese.

Elettricitร . Una RTX 5090 sotto carico costante consuma 575W. Una H100 consuma 700W. Un Mac Studio M4 Max si ferma a 130W. Calcolando bolletta italiana media a 0,28 euro/kWh, un sistema NVIDIA sotto carico 16 ore al giorno costa 80-110 euro al mese. Un Mac Studio sotto stesso carico, 18 euro al mese. Su tre anni la differenza รจ di 2.000-3.000 euro.

Operations. Qui รจ dove il TCO si rompe per molte aziende. Un sistema AI on-premise richiede manutenzione continua: aggiornamenti dei modelli quando ne escono di migliori, monitoring delle performance, gestione dei picchi di carico, backup, sicurezza, integrazione con i sistemi aziendali. Per una PMI, parliamo di 0,3-0,5 FTE dedicati (dove FTE รจ equivalente a tempo pieno), che in Italia significano 18.000-35.000 euro l’anno solo di personale interno. In alternativa, contratto di managed service con un fornitore specializzato: 1.500-3.000 euro al mese.

Software e licenze. Lo stack open-source (Ollama, LocalAI, Qdrant, n8n) รจ gratuito. Perรฒ spesso servono componenti commerciali per features enterprise: monitoring tipo Datadog o New Relic, SSO con Okta o equivalenti, vector database managed per il RAG se non volete gestirlo voi. Stima media: 500-1.500 euro al mese.

Sommando tutto su 36 mesi, abbiamo questa fascia di costo TCO totale per il setup on-premise descritto sopra: dai 60.000 euro (scenario Mac Studio, ops interno minimo, no managed service) ai 200.000 euro (scenario server NVIDIA, ops managed, full stack enterprise) su 3 anni.

Tre scenari aziendali a confronto

Provo a costruire tre scenari realistici e a fare il calcolo TCO completo cloud-vs-onprem.

Scenario A – Studio professionale, 30 utenti, uso moderato.

Volume mensile stimato: 100 milioni di token input + 20 milioni di token output. Cloud con Claude Sonnet: 600 dollari/mese = 21.600 dollari su 3 anni. Cloud con GPT-5.4: 550 dollari/mese = 19.800 dollari. Cloud con Gemini 3 Flash: 110 dollari/mese = 3.960 dollari.

On-premise: Mac Mini M4 Pro 48 GB. Hardware 1.800 euro, hosting on-site 100 euro/mese, elettricitร  8 euro/mese, ops 0,1 FTE = 6.000 euro/anno. Totale su 3 anni: 1.800 + 3.600 + 290 + 18.000 = 23.690 euro.

Verdetto: per uno studio piccolo che usa modelli economici (Gemini Flash, GPT-4o mini), il cloud resta piรน conveniente. Per chi vuole modelli di fascia alta (Claude Sonnet, GPT-5.4) e tiene ai dati sensibili, l’on-premise comincia a tornare. La discriminante qui non รจ solo il costo. Ci sta dentro la sensibilitร  dei dati gestiti, che pesa in modo diverso a seconda del settore.

Scenario B – Azienda media manifatturiera, 200 utenti, uso intensivo.

Volume mensile: 1 miliardo input + 200 milioni output. Cloud Claude Sonnet: 6.000 dollari/mese = 216.000 dollari su 3 anni. Cloud GPT-5.4: 5.500 dollari/mese = 198.000 dollari. Cloud Gemini Flash: 1.100 dollari/mese = 39.600 dollari.

On-premise: Mac Studio M4 Max 128 GB + cloud privato italiano. Hardware 4.500 euro, hosting cloud privato 800 euro/mese, elettricitร  inclusa nel cloud, ops 0,4 FTE = 24.000 euro/anno, software 1.000 euro/mese. Totale su 3 anni: 4.500 + 28.800 + 72.000 + 36.000 = 141.300 euro.

Verdetto: rispetto al cloud Claude Sonnet o GPT-5.4 (200k+ dollari su 3 anni), l’on-premise vince con margine ampio. Rispetto al cloud Gemini Flash low-cost, il cloud resta piรน economico se non avete vincoli di sovranitร  del dato. Per una manifattura italiana, dove la proprietร  intellettuale dei processi รจ asset strategico, on-premise รจ la scelta da fare anche se costa qualche migliaio di euro in piรน.

Scenario C – Azienda servizi finanziari, 100 utenti, alta sensibilitร .

Volume mensile: 500 milioni input + 100 milioni output. Cloud Claude Sonnet: 3.000 dollari/mese = 108.000 dollari su 3 anni. Perรฒ realisticamente, per una banca o assicurazione italiana, il cloud americano รจ impraticabile per ragioni di compliance.

On-premise: server NVIDIA con 2x RTX 5090 in colocation italiana. Hardware 30.000 euro, hosting colocation 700 euro/mese, elettricitร  100 euro/mese, ops 0,5 FTE + managed service support = 50.000 euro/anno, software enterprise (SSO, audit, monitoring) 2.000 euro/mese. Totale su 3 anni: 30.000 + 25.200 + 3.600 + 150.000 + 72.000 = 280.800 euro.

Verdetto: il TCO รจ significativamente piรน alto del cloud equivalente in token, ma la domanda da farsi qui cambia. Diventa “qual รจ l’alternativa accettabile”. Per finanza e sanitร  italiana, l’on-premise non รจ una scelta di ottimizzazione costi, รจ un vincolo strutturale. Una volta accettato il vincolo, il calcolo diventa quanto investire bene per minimizzare i rischi.

Le voci che nessuno mette nel business case

Tre cose escono spesso fuori solo quando il progetto รจ giร  partito e si rivelano problemi.

La variabilitร  del prezzo cloud. I prezzi delle API LLM sono scesi tantissimo nel 2024 e 2025, ma non c’รจ nessuna garanzia che continuino a scendere allo stesso ritmo. Anzi, alcuni modelli premium (GPT-5.5 Pro a 30 dollari input e 180 output) suggeriscono che la forbice fra modelli economici e modelli avanzati si sta allargando. Un business plan a 3 anni costruito su prezzi attuali puรฒ essere completamente fuori bersaglio fra 18 mesi.

Il rate limiting. I provider cloud applicano limiti alle chiamate per evitare picchi. Sotto carico, una vostra applicazione AI potrebbe non riuscire a servire gli utenti, oppure dover pagare premium per priority access. รˆ un costo che non c’รจ nel listino e si manifesta nei momenti peggiori. Su on-premise, il limite รจ solo l’hardware vostro.

La migrazione obbligata. I provider cloud deprecano modelli ogni 12-18 mesi. Un’applicazione costruita su GPT-4 nel 2024 oggi gira su GPT-5.4 con prompt diversi, comportamenti diversi, output marginalmente diversi. Ogni migrazione costa giorni o settimane di lavoro di prompt engineering e regression testing, che nei business case non finiscono. On-premise, voi decidete quando aggiornare e a quale modello.

Quando l’on-premise vince con margine

Riassumendo i tre scenari con un’occhiata pragmatica al TCO su 36 mesi:

Per uso moderato e modelli economici (Gemini Flash, DeepSeek): cloud resta piรน conveniente, soprattutto se non avete vincoli di compliance. La differenza รจ di qualche migliaio di euro.

Per uso intensivo e modelli di fascia alta (Claude Sonnet, GPT-5.4): on-premise comincia a vincere giร  al primo anno, e a 36 mesi la differenza puรฒ essere di 100-150k euro a favore del setup interno.

Per settori regolati (finanza, sanitร , PA, manifattura strategica): la conversazione si sposta dal TCO assoluto al perimetro architetturale praticabile. Il cloud americano per certi tipi di dato รจ fuori discussione, e il costo dell’on-premise รจ il prezzo della compliance.

Lo strumento che amplifica il ROI dell’on-premise

C’รจ una variabile che cambia tutto il calcolo TCO, e ha a che fare con quanto efficiente รจ lo stack software che gestisce l’infrastruttura. Su questo ho investito personalmente come cofondatore di LocalAI.io. LocalAI รจ il gateway open-source che permette di gestire modelli multipli sullo stesso hardware, con API compatibile OpenAI, di cambiare modello sotto senza ritoccare le applicazioni, di orchestrare RAG e agenti, di fare A/B testing e monitoring.

L’effetto pratico sul TCO รจ significativo. Un’azienda che adotta LocalAI invece di gestire i singoli modelli individualmente tipicamente riduce di 0,2-0,3 FTE il fabbisogno di ops, che su 36 mesi significa 18-32k euro di risparmio. E soprattutto, riduce il costo della migrazione fra modelli a zero: quando esce un Llama 4 o un Qwen 5 migliore di quello che state usando, lo cambiate dalla console di LocalAI, le applicazioni sopra continuano a funzionare.

Per chi vuole approfondire il calcolo applicato al proprio caso specifico, ho scritto la settimana scorsa una guida hardware completa che entra nei dettagli per scenario, e una guida ai 10 motivi strategici per portare l’AI privata al tavolo del board. Per una conversazione specifica sul vostro contesto, c’รจ la pagina Advisory.

Il TCO รจ uno strumento di decisione, non una formula magica. Le aziende che scelgono on-premise non lo fanno per risparmiare qualche migliaio di euro al mese, lo fanno per avere il controllo strutturale di un’asset che sta diventando strategico per il loro business. Le aziende che restano sul cloud lo fanno perchรฉ la flessibilitร  conta piรน del controllo. Entrambe le scelte sono legittime, ed entrambe meritano di essere fatte con i numeri davanti, non con le sensazioni.

La domanda da portarsi nel comitato finanziario dei prossimi mesi รจ semplice. Quanto consumeranno realisticamente i nostri agenti AI fra 24 mesi, quando saranno integrati nei processi e gli utenti li useranno davvero? E a quel volume, qual รจ il TCO piรน basso dove la nostra compliance e la nostra sovranitร  del dato restano garantite?

Mistral in azienda: API, self-hosting, Forge. Cosa scegliere e quanto costa davvero

Diciamo che hai deciso. Mistral รจ la direzione, per i motivi che ho elencato nella guida sulla scelta enterprise, e i modelli giusti li hai identificati con la mappa operativa. Resta la domanda che sposta davvero il progetto dal documento di intenti al go-live: come lo compri, dove lo metti, quanto costa nei prossimi tre anni. Le quattro opzioni sul tavolo sono Le Chat per i team interni, API La Plateforme per i developer, self-hosting on-premise per chi vuole sovranitร  totale, Forge per chi vuole un modello proprietario addestrato sui propri dati. Non vanno lette come alternative tra cui scegliere una, sono livelli architetturali che convivono nelle implementazioni enterprise reali.

Provo a metterle in ordine di complessitร  crescente, con costi realistici per un’azienda italiana media e i criteri per capire dove fermarsi.

Le quattro modalitร  di consumo, in un colpo d’occhio

Le Chat รจ il prodotto consumer e team. Interfaccia chat web, mobile app, integrazioni con Drive e altri storage. La versione Pro a 14,99 dollari al mese per utente รจ equivalente a ChatGPT Plus. La versione Team a 24,99 dollari per utente al mese aggiunge funzioni di collaborazione. La versione Enterprise รจ negoziata con il vendor e include SLA, supporto dedicato, SSO, audit log avanzati. Caso d’uso: dare ai dipendenti un assistente AI senza far passare dati per cloud americano.

La Plateforme รจ il prodotto API. Modello pay-per-token, accesso a tutti i modelli (Large, Medium, Small, Magistral, Devstral, Codestral, Ministral, Voxtral). Free tier con quote giornaliere per prototipazione, fatturazione mensile pay-per-use senza minimi contrattuali. I dati transitano dai data center europei di Mistral, l’azienda dichiara residency UE. Caso d’uso: developer che integrano AI nei prodotti, applicazioni esistenti che aggiungono funzionalitร  AI.

Self-hosting on-premise รจ il deployment dei modelli open-weight sull’infrastruttura aziendale. Scarichi i pesi, li metti su server GPU che possiedi o noleggi, esponi un endpoint compatibile OpenAI agli applicativi interni. Caso d’uso: settori regolati o con vincoli di sovranitร  del dato che escludono qualsiasi cloud, anche europeo.

Forge รจ la piattaforma di training custom annunciata da Mistral a NVIDIA GTC il 17 marzo 2026. Non รจ una soluzione di fine-tuning nรฉ di RAG: supporta pre-training e post-training completi sui dati aziendali, per costruire un modello proprietario dell’azienda. Caso d’uso: organizzazioni con dataset proprietari significativi e necessitร  di un modello che incorpori conoscenza interna profonda. Tra i primi clienti dichiarati ci sono ASML, Ericsson, European Space Agency, Reply, le agenzie governative di Singapore DSO e HTX.

In una banca media tipica le quattro modalitร  coesistono: Le Chat Team per i dipendenti, La Plateforme per i progetti di sviluppo interni, self-hosting per i carichi sensibili, e Forge entra in considerazione solo se c’รจ un dataset proprietario abbastanza grande da giustificarlo (di solito non รจ il caso, su cui torno sotto).

La Plateforme: prezzi reali e cosa costa davvero

I prezzi La Plateforme cambiano spesso, ma a maggio 2026 gli ordini di grandezza sono questi, in dollari per milione di token, secondo i dati ufficiali Mistral e tracker indipendenti come Artificial Analysis e Pricepertoken.

Per Mistral Large 3 si paga circa 2 dollari per milione di token in input e 6 dollari in output. Il dato che conta per il confronto con i concorrenti รจ che l’output a 6 dollari รจ circa il 60% sotto Claude Sonnet (15) e il 50% sotto Gemini Pro (12), e nei task aziendali tipici l’output pesa di piรน dell’input perchรฉ i modelli generano spesso testi piรน lunghi dei prompt.

Per Mistral Medium 3 il pricing รจ intorno a 0,40 dollari in input e 2 dollari in output, posizione di mezzo tra Small e Large che per la maggior parte dei carichi aziendali รจ il miglior rapporto qualitร /prezzo.

Per Mistral Small 4 si scende a 0,15 dollari in input e 0,60 in output, prezzi paragonabili a DeepSeek e tra i piรน bassi del mercato per modelli multimodali di qualitร  accettabile.

Per Ministral 3B si sta intorno a 0,04-0,10 dollari per milione di token, e per Codestral 0,30 in input e 0,90 in output. Magistral Medium รจ circa 2 in input e 5 in output, Magistral Small intorno a 0,50 e 1,50.

Un esempio numerico per fissare l’ordine di grandezza. Un’azienda con duecento dipendenti che usa Mistral Medium come assistente interno via API, con un volume medio di trenta prompt al giorno per dipendente, prompt da 500 token e risposta da 1500 token, su 220 giorni lavorativi l’anno, fa circa 2,2 milioni di prompt/anno per circa 4,4 miliardi di token in totale. Costo annuale stimato intorno ai 5.000-7.000 dollari di API, piรน costi di rete e logging. Per la stessa azienda su Large 3 sarebbe nell’ordine dei 25.000-35.000 dollari. Su Small 4 scenderebbe sotto i 2.000.

C’รจ da aggiungere l’IVA italiana (Mistral fattura escludendo le imposte) e i costi di gestione (FinOps, monitoring, allocazione per centro di costo). Sono ordini di grandezza, non preventivi, ma servono a rompere l’illusione del “tanto l’AI costa poco”: per progetti significativi i numeri annui salgono velocemente, e proprio qui inizia ad avere senso ragionare di self-hosting.

Self-hosting on-premise: i veri costi totali a tre anni

Questo รจ il pezzo che mi viene chiesto piรน spesso, e dove vedo piรน stime a spanne. Provo a essere preciso, perchรฉ la differenza tra un calcolo serio e uno approssimativo รจ quello che fa fallire o riuscire il business case.

Per servire Mistral Medium 3.5 in self-hosting con throughput sufficiente a 500-1000 utenti aziendali concorrenti, servono mediamente due o tre GPU NVIDIA H200 con 141GB di memoria HBM3e ciascuna. Costo di acquisto a giugno 2026, listino e canale italiano, intorno ai 35-45 mila euro per GPU, quindi 80-120 mila euro di sole GPU. Aggiungi il server che le ospita (chassis Supermicro o Dell con due CPU EPYC, RAM, storage NVMe veloce per il caching), altri 25-35 mila euro. Tot hardware iniziale: 110-160 mila euro.

A questo si aggiunge il software stack: motore di inferenza (vLLM o TensorRT-LLM, gratuiti ma con configurazione che richiede competenze), vector database (Qdrant, Weaviate o Pinecone se non self-hosted), orchestratore di richieste (LangChain, LlamaIndex, o custom), monitoring (Prometheus, Grafana). Tutti open-source o a basso costo, ma servono 30-50 giornate-uomo di setup iniziale di un MLOps engineer, che ai prezzi italiani sono altri 18-30 mila euro tra interno e consulenza.

Operations a regime: il consumo elettrico di due H200 in carico medio รจ intorno ai 1500W per coppia, su 24/7 fanno circa 13 MWh/anno, intorno ai 3-4 mila euro/anno di sola elettricitร  in Italia (con prezzi industriali 2026). Manutenzione hardware con contratto vendor, 5-8% del valore l’anno, quindi 6-10 mila euro. Persona dedicata: di solito non serve un FTE intero ma 30-40% del tempo di un MLOps engineer, che diviso significa 25-35 mila euro/anno di costo allocato. Tot ops/anno: 35-50 mila euro.

Sommando: anno 1 = 130-210 mila euro (hardware + setup + ops), anni 2-3 = 35-50 mila euro/anno. Totale a tre anni: circa 200-310 mila euro, con il modello Mistral Medium 3.5 in self-hosting capace di servire un’azienda da 500-1000 dipendenti senza limiti di volume.

Confronto API: la stessa azienda su Mistral Medium via La Plateforme, con i numeri della sezione precedente moltiplicati per scala maggiore, spenderebbe nell’ordine dei 30-60 mila dollari/anno, quindi 90-180 mila dollari su tre anni. Il break-even economico tra le due opzioni si raggiunge tra i 18 e i 30 mesi per volumi di richiesta tipici enterprise. Per volumi piรน alti il break-even scende; per volumi piรน bassi sale.

Ma il punto centrale, per cui le aziende scelgono self-hosting anche oltre il break-even economico stretto, va al di lร  dei costi e tocca la sovranitร  del dato. Per un’organizzazione che ha vincoli regolatori sul “dove” del dato, il TCO va calcolato includendo il valore del rischio compliance evitato, che spesso รจ ordini di grandezza superiore al costo infrastrutturale puro.

Sull’analisi di TCO completa cloud vs on-premise ho scritto in dettaglio nella guida dedicata al TCO LLM, che entra anche sui costi nascosti che molti business case dimenticano.

L’aggancio con LocalAI: come si fa nella pratica

Mistral รจ il modello che vedo piรน frequentemente girare sotto stack open-source di self-hosting nelle implementazioni italiane, e nello specifico sotto LocalAI. Il motivo รจ banale: LocalAI espone un endpoint OpenAI-compatible che permette di sostituire le chiamate openai.chat.completions.create() con chiamate al server locale senza riscrivere applicazioni esistenti, e supporta nativamente il caricamento dei modelli Mistral via Hugging Face.

La configurazione tipica di un’implementazione enterprise italiana รจ questa. Server bare metal in un data center proprietario o presso un provider cloud sovrano (es. ACI, Aruba, WIIT). LocalAI come orchestratore di inferenza, configurato per caricare Mistral Medium 3.5 quantizzato (di solito FP8 o INT8 per ottimizzare memoria GPU senza degrado qualitativo significativo). Vector database Qdrant per il RAG sui documenti aziendali. Endpoint esposto al solo perimetro interno via VPN o rete privata.

I tempi sono concreti. Setup iniziale di un’implementazione standard: 4-6 settimane di sviluppo per portarla in produzione, dato che parta da zero, con un team di un MLOps engineer piรน un developer piรน un security engineer part-time. Stabilizzazione: altre 4-8 settimane per tarare ottimamente il modello sui carichi reali e il prompt engineering interno. Da quel momento, gestione a regime con 30-40% di un MLOps engineer.

Forge: il livello piรน alto della scala, e quando ha davvero senso

Forge รจ la promessa piรน ambiziosa di Mistral: non piรน adattare un modello generico al tuo contesto via fine-tuning o RAG, ma costruire un modello proprietario completo addestrato esclusivamente sui dati aziendali. Pre-training, post-training, reinforcement learning, tutto sull’infrastruttura del cliente. Il modello finale รจ dell’azienda, non di Mistral, e gira dove vuole il cliente.

Il modello commerciale รจ particolare. Forge รจ venduto come piattaforma software con license fee, mentre il compute lo paga l’azienda direttamente (di solito sul proprio cluster GPU o su NVIDIA DGX Cloud). C’รจ l’opzione di “forward-deployed scientist” Mistral che si installano fisicamente in azienda per gestire il progetto, costo extra. รˆ un modello da consulenza enterprise piรน che da SaaS.

Quando ha davvero senso. ASML ha aderito perchรฉ ha decenni di dati proprietari sulla produzione di macchine litografiche per semiconduttori, dataset altamente specialistici che nessun modello generico cattura correttamente. Ericsson per le specifiche di rete 5G e 5G Advanced, knowledge base che vale anni di R&D interna. ESA per dati di missione e analisi spaziale. Questi sono i profili di cliente Forge: organizzazioni con dataset proprietari di grandezza terabyte o petabyte e necessitร  di un modello che incorpori conoscenza specialistica profonda.

Quando non ha senso. Per la quasi totalitร  delle aziende italiane medie (banche regionali, manifatturiere da qualche centinaio di milioni di fatturato, sanitร  privata), Forge รจ eccessivo. Il loro problema non รจ “il modello generico non capisce abbastanza il mio dominio”, รจ “ho bisogno di un modello con sovranitร  del dato che lavori sulla mia knowledge base”. Quel problema lo risolve self-hosting piรน RAG, non Forge. Forge ha senso solo quando il dataset proprietario รจ la fonte primaria di valore competitivo dell’azienda, ed รจ abbastanza grande da giustificare un investimento da diversi milioni di euro nel training.

Un’analisi onesta del mercato, fatta da Nick Patience del Futurum Group a marzo 2026, evidenzia che secondo la Data Intelligence Decision Maker Survey 1H 2026, “il 42% degli intervistati spende piรน della metร  del proprio tempo a mantenere e organizzare i dati esistenti invece di usarli produttivamente”. Il messaggio รจ che Forge presuppone un livello di maturitร  del dato che la maggior parte delle aziende non ha ancora raggiunto. Per la maggior parte dei progetti italiani, Forge รจ da considerare in fase due, non al primo go-live.

Vibe CLI: l’agente di coding nel terminale

Una nota breve su Mistral Vibe, perchรฉ รจ la componente che chiude il quadro per i team di sviluppo. Vibe รจ la CLI agentica di Mistral, lanciata insieme a Devstral 2 a dicembre 2025 e portata a Vibe 2.0 a gennaio 2026 con custom subagents e workflow controls. รˆ paragonabile a Claude Code di Anthropic: un agente di coding che gira nel terminale dello sviluppatore, accede al filesystem del progetto, modifica file multipli mantenendo coerenza architetturale, esegue comandi, fa debugging iterativo.

Per un team di sviluppo italiano che giร  usa Mistral come provider primario, Vibe รจ il complemento naturale al modello via API. Per un team che invece sta valutando se Mistral รจ la scelta giusta anche per il coding agentico, Vibe piรน Devstral 2 sono concorrenti diretti di Claude Code piรน Claude Opus, e i confronti sui benchmark mettono Devstral 2 al 72,2% su SWE-bench Verified, in linea con i top di gamma proprietari ma a costi significativamente inferiori secondo i dati Mistral.

Compliance e governance: cosa chiedere al vendor

Chiudo con la parte che salva i progetti dai problemi a regime, e che spesso non viene trattata nelle slide commerciali del vendor.

AI Act: per i sistemi classificati ad alto rischio dal Capo II del regolamento, Mistral fornisce la documentazione tecnica del modello che alimenta gli adempimenti dell’articolo 11. Per il self-hosting questo รจ particolarmente importante perchรฉ la documentazione include training data approfondito, processi di mitigazione bias, valutazioni di robustezza. Chiedi al vendor il Model Card completo e il documento di valutazione del rischio per ciascun modello che usi.

GDPR: La Plateforme dichiara residency UE. Verifica nel DPA Mistral le clausole su sub-processor, trasferimenti, conservazione dei log. Per self-hosting il tema GDPR si sposta sulla tua infrastruttura, semplificando il quadro legale ma spostando l’onere tecnico sull’azienda.

NIS2: per le aziende soggette a NIS2 dall’ottobre 2024, le clausole di security incident notification con Mistral devono essere allineate. Il self-hosting riduce la superficie di rischio terza ma aumenta la responsabilitร  interna; entrambi gli scenari richiedono presidi di sicurezza adeguati.

Audit log: per qualsiasi implementazione enterprise, esigi log completi delle richieste con retention di almeno 12 mesi. Per self-hosting questo lo configuri tu (ed รจ un vantaggio: controllo totale). Per La Plateforme verifica nel contratto le condizioni di accesso ai log e il loro export.


Su queste decisioni mi รจ capitato di affiancare aziende italiane in tutte e quattro le configurazioni, da Le Chat Team in un’azienda di servizi professionali da centocinquanta persone fino a self-hosting completo con LocalAI in un istituto bancario. Quello che cambia il successo del progetto non รจ mai la tecnologia in sรฉ, รจ la calibratura tra il caso d’uso reale, i vincoli regolatori specifici e la capacitร  organizzativa di sostenere l’architettura scelta nel tempo.

Se stai facendo questa valutazione per la tua organizzazione e ti serve un punto di vista esterno, contattami per una prima conversazione. Il primo passo รจ sempre capire quale combinazione regge il tuo caso reale, non quale รจ “la migliore” in astratto.

Leggi anche: costruire un'infrastruttura AI privata

Hardware per LLM locale 2026: Mac, NVIDIA, costi reali

Tre anni fa, “far girare un LLM in locale” significava possedere una workstation con due NVIDIA H100, sapere cosa fosse vLLM, e accettare che il tutto sarebbe stato comunque piรน lento e meno preciso di una qualsiasi chiamata API a GPT-4. Era un esercizio da ricercatori, da appassionati, da aziende con budget infrastrutturali serissimi.

Nel 2026 il quadro รจ cambiato. Un Mac Mini M4 Pro da 1.799 euro fa girare Llama 3.3 70B a quantizzazione aggressiva, a 5-10 tokens al secondo, sufficiente per la quasi totalitร  dei task aziendali batch. Un Mac Studio M4 Max a 4.000 euro arriva a 30-45 tok/s sui modelli da 70B. Una workstation NVIDIA con RTX 5090 supera i 100 tok/s. E sotto, una nuova categoria di mini PC ottimizzati per AI sta emergendo come alternativa serissima, con NVIDIA DGX Spark, AMD Strix Halo, Framework Desktop.

Da quando ho cofondato LocalAI.io mi capita ogni settimana di rispondere alla stessa domanda da CTO italiani: “Quale hardware per LLM locale mi serve per cominciare?”. La risposta dipende da tre variabili che vanno tenute insieme, e che voglio provare a smontare in questo articolo: che modelli volete far girare, quanti utenti simultanei dovete servire, quanto budget e quanto tempo siete disposti a investire nell’ops.

Cosa determina davvero la velocitร  di un LLM in locale

C’รจ una metrica che vale piรน di tutte le altre quando si parla di inferenza LLM: la banda di memoria. Non la potenza di calcolo, non i TFLOPS, non i CUDA cores. รˆ la banda con cui il chip riesce a leggere i pesi del modello dalla memoria, perchรฉ generare un token nuovo richiede di leggere TUTTI i pesi del modello, ogni volta. Un modello da 70 miliardi di parametri quantizzato a 4 bit pesa 35-40 GB, e ogni token generato รจ una passata completa di quei 40 GB.

Su questo dato si gioca la partita fra Apple Silicon e NVIDIA. Una RTX 4090 ha 1.008 GB/s di banda di memoria. Un M4 Max arriva a 546 GB/s, un M4 Pro a 273 GB/s, un M4 base a 120 GB/s. Significa che, modello per modello, NVIDIA รจ 2-3 volte piรน veloce di Apple Silicon top di gamma sui token al secondo. Perรฒ Apple Silicon ha un asso che NVIDIA non ha: la memoria unificata. Un Mac Studio M4 Max con 128 GB di RAM unificata fa girare modelli che non entrano in nessuna GPU consumer NVIDIA, neanche la 5090 da 32 GB. Per le aziende che vogliono lavorare con modelli da 70B in alto, Apple resta spesso l’unica opzione consumer.

Una nota di realismo importante. Apple sta arrivando con M5 Max e M5 Ultra previsti per fine 2026 con banda di memoria che dovrebbe superare 1 TB/s e tensor core FP8 nativi nel Neural Engine. Se le anticipazioni reggono, il gap di throughput per token con NVIDIA H100 si chiuderร  quasi del tutto sull’inferenza, e l’asso della memoria unificata resterร  comunque sul tavolo.

Quattro fasce hardware e cosa ci fate dentro

Provo a mappare quattro fasce di setup, dalla piรน accessibile alla piรน seria, con i numeri reali di throughput misurati con LLMCheck e altre fonti pubbliche aggiornate a maggio 2026.

Fascia 1: laptop e Mac Mini base, sotto i 1.000 euro. Un MacBook Air M2/M3 con 16 GB, un Mac Mini M4 base 16 GB, un mini PC NUC con CPU recente e 32 GB RAM. Modelli che ci girano bene: Phi-5 Mini, Llama 3.2 3B, Qwen 2.5 7B in quantizzazione Q4. Velocitร  tipica 40-80 tok/s sui modelli piccoli. Adatto a sperimentare, fare RAG su piccoli corpus documentali, sviluppare prototipi. Non adatto a produzione aziendale seria, non adatto a servire piรน utenti simultanei.

Fascia 2: workstation singolo utente, 1.500-3.000 euro. Mac Mini M4 Pro 24 GB o 48 GB. PC desktop con RTX 4070/4080. Modelli che girano: Llama 3.3 14B, Mistral Small, Qwen 4 32B-A3B (modello MoE con 3B parametri attivi, eccellente rapporto qualitร /velocitร  sul Mac), Gemma 4 26B. Velocitร  tipica 25-55 tok/s sui modelli 14-32B. Adatto a uno sviluppatore singolo, a piccolo team che condivide, a applicazioni interne con pochi utenti. Il Mac Mini M4 Pro 48 GB a 1.799 euro รจ il punto di equilibrio prezzo-prestazioni che consiglio piรน spesso oggi a chi inizia.

Fascia 3: workstation potente, 4.000-7.000 euro. Mac Studio M4 Max con 64 GB o 128 GB. PC desktop con RTX 4090 o 5090 (32 GB VRAM). Modelli che girano: Llama 3.3 70B Q4 a 30-45 tok/s sul Mac Studio, Qwen 4 70B, DeepSeek R2 in versione compressa. Adatto a produzione interna seria su 10-50 utenti, a serving di applicazioni RAG complesse, a fine-tuning leggero. รˆ la fascia dove Apple Silicon vince per memoria, NVIDIA vince per pura velocitร , e la scelta dipende molto dal vostro mix specifico di modelli e workload.

Fascia 4: server-class, 15.000 euro in su. Mac Studio M3 Ultra con 256 GB (per workload memoria-bound). Server NVIDIA con due o quattro RTX 5090 in parallelo, oppure singola H100 da 80 GB. Apple offre DGX Spark, NVIDIA i sistemi DGX. Adatto a piccole-medie aziende che vogliono servire il proprio strato AI internamente a centinaia di utenti, a fine-tuning serio, a training di modelli specializzati piccoli. รˆ la zona dove il ragionamento smette di essere consumer-DIY e diventa decisione infrastrutturale aziendale, con tutto quello che comporta in termini di networking, raffreddamento, alimentazione, backup.

Una scelta concreta per ogni profilo aziendale

Vorrei provare a passare dalle tabelle astratte a tre scenari aziendali che ho visto in concreto negli ultimi mesi, e dire cosa consiglierei in ciascuno.

Studio professionale, 10-30 dipendenti, vuole fare AI privata per RAG su documenti interni. Mac Mini M4 Pro 48 GB, modello Llama 3.3 14B o Qwen 4 32B-A3B. Costo totale 1.800 euro una tantum piรน il tempo di setup. Stack: Ollama come motore di inferenza, LocalAI come gateway compatibile OpenAI, un vector database come Qdrant in Docker per il RAG. Tempo medio di setup completo: una giornata di lavoro per uno sviluppatore che sa cosa fa. Sufficiente per 5-15 utenti simultanei con interazioni occasionali, non per una chat sempre attiva di 30 persone.

Azienda manifatturiera, 100-300 dipendenti, vuole un agente AI interno con accesso a documenti tecnici e gestionale. Mac Studio M4 Max 128 GB, modello Llama 3.3 70B Q4. Costo totale 4.000-5.000 euro hardware. Setup piรน articolato: LocalAI per orchestrare modelli multipli (uno per chat conversazionale, uno specializzato sui documenti tecnici), Qdrant o Weaviate per la memoria vettoriale, n8n o Make per le integrazioni con i sistemi aziendali. Tempo di setup completo realistico: una settimana di lavoro di un team da 2 persone. Capacitร : 30-50 utenti simultanei.

Azienda servizi finanziari medio-piccola, 50-150 dipendenti, vuole un sistema AI con vincoli GDPR strettissimi. Qui non รจ solo hardware, รจ architettura completa. Server con 2x RTX 5090 o singola H100 in colocation italiana, modello Qwen 4 70B o Mistral Large, stack di sicurezza completo con SSO, audit log, segmentazione di rete. Costo hardware 20-30k euro, costo annuale di hosting e operations 30-50k. Setup: 4-6 settimane di lavoro di un team specializzato, magari con il supporto di chi conosce il dominio (qui entra il valore dell’advisory). Capacitร : 100-300 utenti simultanei con alto livello di compliance.

Il problema dei costi nascosti

Le aziende che valutano l’AI privata guardando solo al costo dell’hardware sbagliano la metร  del calcolo. L’altra metร  sono tre voci che spesso non finiscono nei business case ma esistono comunque.

La prima รจ l’elettricitร . Una RTX 5090 sotto carico consuma 575 watt. Un Mac Studio M4 Max si ferma a 130 watt. Su un anno di utilizzo continuativo, parliamo di una differenza di 1.500-2.000 euro l’anno solo di bolletta italiana. Il Mac รจ in questo molto piรน efficiente, ed รจ uno dei motivi per cui molte PMI italiane ci stanno arrivando.

La seconda รจ il tempo di setup e di manutenzione. Una RTX 5090 richiede driver CUDA, configurazione di vLLM o llama.cpp, tuning della quantizzazione, debugging di edge case su modelli specifici. Un Mac Mini con Ollama va da zero al primo prompt in dieci minuti. Per un’azienda piccola, il tempo del proprio sviluppatore รจ la voce piรน costosa di tutte: vale la pena pagarla anche 500 euro in piรน all’hardware se questo significa risparmiare due giorni di setup.

La terza รจ il rinnovo. L’hardware AI sta evolvendo velocemente. Un acquisto di oggi รจ probabilmente sostituibile entro 3 anni con qualcosa di significativamente meglio. Vale la pena pensare il setup in modo modulare, dove l’orchestrator (LocalAI), il vector DB, gli agenti, sono indipendenti dal motore di inferenza sottostante, cosรฌ quando arriva la prossima generazione di chip si cambia solo quello.

Il software che fa la differenza

L’hardware รจ metร  del lavoro. L’altra metร  รจ lo stack software che ci gira sopra, ed รจ dove negli ultimi 12 mesi รจ cambiato tutto. Tre componenti vanno scelti bene fin dall’inizio.

Il motore di inferenza. Ollama รจ la scelta piรน semplice per cominciare, perfetto per Mac e PC, ha l’API compatibile OpenAI, supporta MLX su Apple Silicon dalla versione 0.5. Llama.cpp รจ la base sotto Ollama, piรน tecnico, dร  piรน controllo. vLLM รจ per setup server seri con GPU NVIDIA, supporta batching e ha throughput superiore per piรน utenti. MLX รจ il framework Apple ottimizzato per Metal, puรฒ essere 30-50% piรน veloce di Ollama su Mac per alcuni modelli. La scelta dipende dal vostro hardware e dal team che dovrร  manutenerlo.

L’orchestratore. Qui รจ dove entra LocalAI. Senza un orchestratore, ogni applicazione del vostro stack chiama direttamente Ollama o vLLM, e quando volete cambiare modello dovete ritoccare ogni client. Con un orchestratore, esponete un unico endpoint compatibile OpenAI, ci puntate tutte le applicazioni, e potete scambiare il motore sotto, gestire piรน modelli in parallelo, fare A/B testing, aggiungere autenticazione e logging. รˆ il single point of integration che vi salva mesi di refactor quando l’hardware sotto cambia.

Il vector database per il RAG. Qdrant รจ la scelta piรน equilibrata oggi, gira bene su hardware modesto, ha buona documentazione, supporta filtri complessi. Weaviate รจ piรน potente ma piรน pesante. Chroma รจ il piรน leggero per iniziare ma scala meno. La scelta qui dipende dalla dimensione del corpus documentale che pensate di gestire.

Da dove cominciare se siete una PMI italiana

Se siete il CTO di una PMI italiana e state pensando di portare l’AI in casa, il mio consiglio รจ ridurre il primo step alla minima espressione possibile. Comprate un Mac Mini M4 Pro 48 GB. Installateci Ollama in dieci minuti. Scaricateci sopra Llama 3.3 14B o Qwen 4 32B. Apriteci sopra LocalAI come gateway. Provate una settimana con un caso d’uso piccolo, magari un agente che risponde a domande sul vostro manuale aziendale via RAG. Misurate latenza, qualitร  delle risposte, soddisfazione degli utenti.

Se la prova regge, scalate. Se non regge, avete speso 1.800 euro e una settimana di tempo per imparare cosa serve davvero. Confronto con un POC su OpenAI o Anthropic che, fra licenze enterprise e committment iniziale, sarebbe costato spesso di piรน senza darvi controllo dell’infrastruttura.

L’AI privata oggi non รจ piรน un esperimento da ricercatori. รˆ una scelta di architettura accessibile, con costi noti e curva di apprendimento ragionevole, soprattutto per chi parte dai modelli open-weight piรน solidi (Llama, Mistral, Qwen) e da uno stack software maturo (Ollama, LocalAI, Qdrant).

Per chi vuole capire come si costruisce concretamente l’ecosistema sopra l’hardware, ho scritto una guida completa a LocalAI qualche mese fa, e nelle prossime settimane pubblicherรฒ una guida operativa step-by-step all’installazione completa in azienda. Per chi sta valutando il setup giusto rispetto alle proprie necessitร  specifiche, c’รจ la pagina Advisory con i formati di lavoro che propongo.

La domanda da farsi oggi non รจ piรน “siamo pronti per l’AI privata”. รˆ: che modello vogliamo far girare per primo nei nostri processi, e su che hardware lo facciamo girare nei prossimi sei mesi?

I modelli Mistral nel 2026: come scegliere tra Large 3, Medium 3.5, Small 4, Magistral, Devstral

Tra dicembre 2025 e aprile 2026, Mistral ha rilasciato Large 3, Magistral 1.2 in due taglie, Devstral 2 piรน la versione Small, Mistral Small 4, la nuova famiglia Ministral 3 in tre dimensioni, Codestral 25.08, Codestral Embed, Voxtral per l’audio, Mistral Medium 3.5. A spanne, undici modelli in cinque mesi, con nomi che a chi non segue il settore quotidianamente sembrano scelti per confondere. Quale ti serve davvero dipende dal carico che vuoi spostare, e la risposta cambia molto tra “assistente interno per duecento dipendenti” e “agente di coding autonomo nel terminale”.

Questa รจ la mappa che uso quando un’azienda mi chiede di capire l’ecosistema Mistral prima di una decisione di acquisto. Niente classifiche universali, niente “il migliore di tutti”: ogni modello vince in uno scenario specifico, e la scelta diventa banale una volta che hai chiaro il caso d’uso. Per il contesto strategico su perchรฉ un’azienda italiana dovrebbe guardare Mistral prima degli altri, c’รจ la guida pillar sulla scelta enterprise. Qui scendiamo nei singoli modelli.

La mappa dei modelli del 2026

Tre famiglie principali, ognuna con una funzione precisa, piรน due linee verticali specializzate.

Le famiglie generaliste sono tre: Mistral Large 3 (flagship MoE, ammiraglia di gamma), Mistral Medium 3.5 (dense, ottimizzato per self-hosting e workload agentici), Mistral Small 4 (modello unificato reasoning piรน visione piรน coding). Tre opzioni che coprono i casi d’uso generici dal piรน pesante al piรน leggero.

La linea reasoning รจ Magistral 1.2, in due taglie: Magistral Medium per l’enterprise, Magistral Small per il self-hosting permissivo. Si chiama in causa quando il task richiede chain-of-thought esplicito: dimostrazioni matematiche, analisi logiche multi-passo, problemi di programmazione algoritmica.

La linea coding รจ doppia. Devstral 2 (123B parametri) e Devstral Small 2 (24B) per il coding agentico autonomo, Codestral 25.08 e Codestral Embed per l’autocompletamento in IDE e l’embedding di repository.

La linea edge รจ Ministral 3 in tre tagli (3B, 8B, 14B parametri), pensata per girare su dispositivi: telefoni, edge gateway, sistemi embedded.

La linea multimodale รจ Voxtral per audio, text-to-speech e trascrizione, recentemente uscita open-weight con dimensioni che permettono il deploy su smartphone.

Tutti i modelli flagship sono rilasciati sotto Apache 2.0 o licenze permissive equivalenti, con l’unica eccezione di Devstral 2 (Modified MIT, che resta open-source ma con qualche clausola in piรน). I pesi sono pubblicamente scaricabili, il self-hosting funziona davvero, le API La Plateforme sono un’opzione aggiuntiva ma non l’unica.

Mistral Large 3: l’ammiraglia per i carichi generalisti piรน pesanti

Large 3 รจ il modello flagship rilasciato a dicembre 2025 con il codename mistral-large-2512. Architettura Mixture of Experts da 675 miliardi di parametri totali, di cui 41 miliardi attivi a ogni inferenza. Tradotto in operativo: la qualitร  di output di un modello da 675B con il costo computazionale di un modello da 41B, perchรฉ il MoE attiva solo gli esperti rilevanti per ogni token.

Sui benchmark indipendenti, secondo le valutazioni LayerLens/Atlas, Large 3 raggiunge il 73,11% su MMLU-Pro e il 93,60% su MATH-500. รˆ debuttato al secondo posto nella categoria open-source non-reasoning di LMArena. Numeri che lo mettono nella stessa fascia di qualitร  di GPT-4.1 e Claude Sonnet 4.6 per i task generalisti, con un costo per token sull’output che รจ circa 60% sotto Claude e 40% sotto GPT-4.1 a paritร  di volume.

Quando ha senso. Carichi di analisi documentale lunga, ragionamenti complessi su contesti misti, generazione di contenuti tecnici lunghi, supporto a decision-making aziendale che richiede capacitร  di sintesi su corpus eterogenei. รˆ il modello che metti via API La Plateforme quando il task รจ abbastanza complesso da non poter essere delegato a Medium o Small, ma non cosรฌ specialistico da richiedere Magistral.

Quando non ha senso. Self-hosting on-premise, perchรฉ l’infrastruttura per servire un MoE da 675B richiede otto GPU H200 in cluster, configurazione che fa salire l’investimento iniziale oltre il milione di euro e che ha senso solo per organizzazioni che processano milioni di richieste al giorno. Per chi vuole self-hosting il modello giusto รจ Medium 3.5, vedi sotto.

Il contesto รจ 128K token, in linea con GPT-5 e Claude per la versione standard. Non รจ il modello con la finestra piรน ampia (DeepSeek V4 e GPT-5.4 offrono 1M), ma per la quasi totalitร  dei casi enterprise 128K bastano. Quando non bastano, di solito il problema รจ di architettura del prompt, non di limite del modello.

Mistral Medium 3.5: il modello pensato apposta per il self-hosting enterprise

Medium 3.5 รจ uscito il 29 aprile 2026, ed รจ probabilmente il modello piรน importante della famiglia per il contesto italiano. Architettura dense (non MoE), dimensione tale da girare su due o tre GPU NVIDIA H200, ottimizzato esplicitamente per workload agentici e coding, comportamento piรน prevedibile dei MoE.

La parola chiave รจ “prevedibile”. Quando un MoE come Large 3 viene messo in self-hosting, il routing degli esperti introduce una varianza che complica il dimensionamento dell’infrastruttura, la calibrazione del rate limiting, la gestione della latenza percepita. Su un modello dense come Medium 3.5 questi problemi spariscono: ogni richiesta usa tutti i parametri del modello, la latenza รจ costante, l’infrastruttura รจ piรน semplice da governare.

Per un CIO che sta dimensionando un self-hosting on-premise in una banca o in un gruppo manifatturiero, questa prevedibilitร  vale piรน di qualche punto percentuale in piรน sui benchmark. Significa contratti di SLA che si possono firmare, capacity planning che funziona, ops engineering che non passa metร  del tempo a debuggare comportamenti inattesi.

Quando ha senso. Self-hosting on-premise come modello principale aziendale, workload agentici con tool use intensivo, integrazione con LocalAI o stack on-premise simili. รˆ il modello che vedo piรน spesso scelto come default nei progetti enterprise italiani.

Quando non ha senso. Carichi consumer ad altissimo volume dove conta il prezzo al token assoluto: in quel caso Small 4 o Ministral sono piรน economici. Task di reasoning estremo: meglio Magistral 1.2.

Mistral Small 4: l’unificazione del marzo 2026

Small 4 รจ uscito il 16 marzo 2026 con un’idea precisa: prendere tre modelli precedenti (Magistral per il reasoning, Pixtral per il multimodale, Devstral per il coding agentico) e fonderli in un unico sistema che faccia tutte e tre le cose decentemente, invece di richiedere tre modelli separati con tre integrazioni diverse.

Contesto 262K token, prezzo La Plateforme a 0,15 dollari per milione di token in input e 0,60 in output. รˆ il modello piรน economico della fascia “qualitร  decente” di Mistral, e l’unificazione delle capability significa che si puรฒ usare come workhorse per la maggior parte dei task aziendali medi.

Quando ha senso. Il caso d’uso piรน ricorrente รจ l’assistente aziendale interno per medie aziende, dove serve un modello che capisca testo, immagini, codice senza dover orchestrare modelli diversi a seconda del task. Anche carichi di chatbot, customer support assistito, analisi documentale di medio livello.

Quando non ha senso. Carichi che richiedono il massimo della qualitร  su una singola dimensione: Large 3 batte Small 4 sul reasoning generico, Magistral 1.2 lo batte sul reasoning specialistico, Devstral 2 lo batte sul coding agentico autonomo. Small 4 รจ la scelta giusta quando il valore รจ nella semplicitร  architetturale, non nella performance di picco.

Magistral 1.2: la linea reasoning, Medium e Small

Magistral รจ la famiglia di reasoning models di Mistral, equivalente concettuale di OpenAI o3 e o4. Versione 1.2 rilasciata a settembre 2025 con i codename magistral-medium-2509 e magistral-small-2509. Due varianti: Medium per l’enterprise via API, Small (24B parametri) sotto Apache 2.0 per il self-hosting.

La caratteristica distintiva รจ la modalitร  “Flash Answers”, che permette di alternare tra inferenza standard (veloce) e chain-of-thought esplicito (piรน lento ma con tracciamento del ragionamento). Per task come dimostrazioni matematiche, problem-solving algoritmico, analisi giuridica multi-passo, l’output diventa interpretabile, e questo รจ un vantaggio enorme quando devi giustificare una decisione assistita da AI in un contesto regolato.

Sui benchmark di pura matematica OpenAI o3 mantiene un margine, ma il prezzo per token su Magistral รจ significativamente piรน basso e la latenza in Flash mode รจ competitiva. Magistral Small รจ particolarmente interessante: 24 miliardi di parametri, Apache 2.0, gira su una singola GPU H100, ed รจ quindi il modello di reasoning self-hostable piรน capace disponibile a giugno 2026.

Quando ha senso. Compliance finanziaria con tracciamento del ragionamento, supporto a decisioni in settori regolati dove l’audit trail รจ obbligatorio, problem-solving algoritmico, supporto alla redazione giuridica con catena logica esplicita. In tutti questi casi il chain-of-thought tracciabile vale piรน della pura performance bruta.

Quando non ha senso. Carichi conversazionali generici dove il reasoning esplicito introduce latenza inutile. Per quello c’รจ Large 3 o Medium 3.5.

Devstral 2 e Codestral: la linea coding

Devstral 2 รจ uscito a dicembre 2025 insieme alla CLI Mistral Vibe. รˆ il modello coding agentico flagship: 123 miliardi di parametri dense, contesto 256K, raggiunge il 72,2% su SWE-bench Verified secondo Mistral. Per dare un riferimento, รจ uno dei migliori modelli open-weight per coding autonomo disponibili oggi, e secondo i dati Mistral รจ “fino a 7 volte piรน cost-efficient di Claude Sonnet sui task reali”, secondo l’annuncio ufficiale del rilascio.

C’รจ anche Devstral Small 2 a 24 miliardi di parametri, sotto licenza Apache 2.0, che gira su una singola GPU di fascia consumer-pro. La combinazione Devstral 2 piรน Vibe CLI รจ la risposta Mistral a Claude Code di Anthropic: agente di coding che gira nel terminale dello sviluppatore, capace di esplorare codebase, modificare file multipli mantenendo coerenza architetturale, fare debugging iterativo, gestire dipendenze framework.

Codestral รจ la linea complementare. Codestral 25.08 (codice codestral-2508) รจ il modello da 22B parametri specializzato in autocompletamento IDE con supporto nativo Fill-in-the-Middle, contesto 256K, ottimizzato per integrazioni JetBrains, VS Code, LangChain. Codestral Embed รจ invece il modello specifico per generare embedding di codice, utile per indicizzare repository e costruire knowledge base di codice aziendale.

Quando usare cosa. Devstral 2 con Vibe CLI per il coding agentico autonomo, cioรจ per l’agente che scrive feature complete partendo da una specifica. Codestral 25.08 per l’autocompletamento intelligente dentro IDE durante lo sviluppo manuale. Codestral Embed per indicizzare codebase aziendali e fare retrieval. Tre strumenti complementari, non alternativi.

Ministral 3: la linea edge per dispositivo

Ministral 3, rilasciato a dicembre 2025 insieme a Large 3, รจ la famiglia “minuscola” pensata per il deploy su dispositivo. Tre taglie: 3 miliardi di parametri, 8 miliardi, 14 miliardi. La 3B gira su uno smartphone, la 14B su un laptop di fascia alta.

Casi d’uso italiani concreti dove l’ho visto applicato. Industria 4.0 con macchinari offline che devono fare diagnostica locale senza connettivitร  garantita, retail con POS che fanno traduzione real-time in piรน lingue senza chiamare API esterne, settore field service con tecnici che lavorano in cantieri o impianti remoti. In tutti questi scenari Ministral risolve il problema della “AI senza rete”, che con i modelli cloud non si chiude.

Per dare un’idea dei costi: Ministral 3B via La Plateforme costa circa 0,04-0,10 dollari per milione di token, a seconda della versione, il che lo rende uno dei modelli piรน economici del mercato. In self-hosting, gira gratis su hardware che giร  hai.

Voxtral: la linea audio

Voxtral รจ la famiglia audio uscita open-weight a marzo 2026, dimensioni che vanno dal modello da 24 miliardi per uso server fino a varianti compresse che girano su smartphone. Trascrizione, traduzione audio-to-audio, sintesi vocale, comprensione di audio complesso.

Per il contesto enterprise italiano รจ ancora una linea di nicchia, ma vale la pena tenerla in radar per casi specifici: contact center con trascrizione automatica delle chiamate, sanitร  con dettatura medica multilingua, accessibilitร  per servizi PA.

Italiano e multilingua: il discriminante che non viene dai benchmark

I benchmark MMLU e simili sono quasi tutti in inglese. Un modello che fa 92% su MMLU in inglese puรฒ fare 78% sul corrispondente italiano. Per chi costruisce assistenti interni in lingua italiana, questa differenza si sente nella qualitร  delle risposte, e Mistral parte avvantaggiata.

Il motivo รจ strutturale. Mistral รจ francese, addestra su corpus europei multilingua fin dalla prima versione, e l’italiano รจ una delle lingue di confine principali nei dataset di training continentali. Llama 3.3 ha colmato il gap su italiano generico, ma resta sotto Mistral sulla terminologia legale (clausole contrattuali, riferimenti normativi italiani), su quella finanziaria (regolamentazione Consob, normativa bancaria specifica), su quella tecnico-industriale (manuali di processo italiani, certificazioni di settore). Qwen e DeepSeek sono buoni sull’italiano generico ma introducono calchi grammaticali dal cinese che un madrelingua riconosce nei testi lunghi.

Per un’azienda italiana che costruisce un assistente interno destinato a colleghi italiani, questa รจ la differenza tra un agente che “sembra italiano” e uno che รจ italiano. Per il confronto sistematico tra le quattro famiglie open-weight principali, ho giร  pubblicato un confronto operativo Mistral vs Llama vs Qwen vs DeepSeek che entra nel dettaglio delle valutazioni per il mercato italiano.

La griglia di scelta operativa

Per chiudere, la griglia che uso quando un’azienda mi chiede “quale modello Mistral usiamo”.

Se il caso d’uso รจ un assistente interno generico per uso quotidiano dei dipendenti, Mistral Medium 3.5 self-hosted รจ la scelta default. Performance ottime, prevedibilitร  infrastrutturale, costo controllato a tre anni.

Se sono carichi esplorativi o sperimentali a basso volume in cloud, Mistral Large 3 via API La Plateforme. Massima qualitร , paghi solo quello che usi.

Se รจ un workhorse multimodale a basso costo per volumi alti, Mistral Small 4 via API. รˆ il rapporto qualitร /prezzo migliore della famiglia per applicazioni mainstream.

Se serve reasoning tracciabile in settori regolati, Magistral Medium 1.2 via API, oppure Magistral Small in self-hosting se il volume giustifica l’infrastruttura.

Se รจ un agente di coding per il team dev, Devstral 2 con Vibe CLI. Se รจ autocompletamento dentro l’IDE, Codestral 25.08.

Se รจ un’applicazione che deve girare su dispositivo o offline, Ministral 3 nella taglia adatta all’hardware target.

Se รจ audio, Voxtral, sapendo che la linea รจ ancora in maturazione.


Questa mappa funziona per la maggior parte dei casi enterprise, ma le scelte vere si fanno sui dettagli: volumi di richiesta giornaliera, latenza accettabile, vincoli infrastrutturali esistenti, competenze MLOps disponibili, profilo di rischio del settore. Quello che funziona per una banca da mille dipendenti non funziona per una manifatturiera da trecento, anche se entrambe partono dal “vogliamo Mistral”.

รˆ il tipo di scelta tecnica che mi capita di affiancare nei progetti di assessment AI aziendale: capire quale combinazione di modelli regge il caso d’uso reale, evitando di pagare la complessitร  di un Large 3 quando basta Medium 3.5, o di scoprire troppo tardi che il task richiedeva Magistral. Se stai facendo questa valutazione per la tua organizzazione, puoi scrivermi per discuterne.

Per la parte di come acquistare e quanto costa davvero, dall’API a La Plateforme fino al self-hosting on-premise con Forge, c’รจ la guida dedicata su API, self-hosting, Forge in azienda.

Leggi anche: LocalAI

GDPR e LLM: quando un dato aziendale esce di casa

Il 18 marzo 2026 il Tribunale di Roma ha annullato la sanzione da 15 milioni di euro che il Garante per la protezione dei dati personali aveva irrogato a OpenAI nel novembre 2024 per la gestione di ChatGPT. Sentenza 4153/2026, motivazioni non ancora depositate, solo dispositivo. Quella sanzione era diventata, in due anni, il caso simbolo del rapporto fra GDPR e LLM. Adesso รจ caduta, e con lei l’idea che bastasse un provvedimento del Garante a chiarire i confini fra normativa europea e AI generativa americana.

Perรฒ il problema giuridico resta intatto: quando un dipendente di un’azienda italiana scrive il nome di un cliente dentro ChatGPT o Claude per riassumere un contratto, quel dato attraversa l’Atlantico, finisce in un’infrastruttura americana, viene processato da un modello di cui non controlliamo i dataset di training, e torna indietro come output. Sopra questo flusso si sovrappongono GDPR, AI Act, Schrems II, Data Privacy Framework, decisioni dei garanti nazionali, sentenze dei tribunali. Il risultato per chi lavora in azienda รจ una tela densa di vincoli che cambiano spesso, raramente in modo sincronizzato, e ognuno applicabile a casi specifici che non sempre il giurista interno riesce a circoscrivere bene.

Mi capita spesso, lavorando come advisor con CEO e CTO italiani, di sentire la stessa domanda formulata in modi diversi: ma alla fine, posso usare OpenAI sui dati dei miei clienti, o no? La risposta breve รจ che dipende, e quel dipende รจ dove si sta giocando una partita seria fra sovranitร  giuridica europea e dominanza tecnologica americana. Vorrei provare a dare una mappa praticabile, da imprenditore che ha visto il problema dal vivo, non da giurista.

Cosa dice il GDPR di un dato che entra in un LLM

Il GDPR รจ del 2016, รจ entrato in applicazione nel 2018, e nessuno dei suoi articoli รจ stato scritto pensando ai large language model. Perรฒ i suoi principi cardine restano applicabili a qualsiasi trattamento di dati personali, e un prompt che contiene il nome di una persona, l’indirizzo di un’azienda, una mail di un fornitore, una pratica medica, sono tutti dati personali ai sensi dell’articolo 4.

Quattro dimensioni del GDPR si attivano quando un dato personale finisce dentro un LLM cloud: la base giuridica del trattamento (articolo 6), la trasparenza nei confronti dell’interessato (articoli 12-14), la minimizzazione del dato (articolo 5), e il trasferimento internazionale verso paesi terzi (capitolo V, articoli 44-50). Il caso ChatGPT ha attivato tutte e quattro: il Garante italiano contestava a OpenAI di non avere una base giuridica adeguata per addestrare il modello sui dati personali, di non aver dato informativa agli interessati, di non aver implementato sistemi di age verification, e di trasferire dati verso gli Stati Uniti.

Il punto piรน sottile, perรฒ, รจ il quarto. Schrems II ha invalidato nel luglio 2020 il Privacy Shield che fino ad allora regolava il flusso di dati UE-USA. Da quel momento, ogni azienda europea che usa un servizio americano deve fare una valutazione caso per caso del rischio di sorveglianza governativa, deve adottare clausole contrattuali standard rafforzate, deve implementare misure tecniche supplementari come la cifratura end-to-end con chiavi che restano in UE. Nel luglio 2023 รจ arrivato il Data Privacy Framework, terzo tentativo dopo Safe Harbor e Privacy Shield, e Max Schrems ha giร  annunciato che lo porterร  nuovamente davanti alla Corte di Giustizia. La storia, vista dall’esterno, sembra un loop che continua a non chiudersi.

Il caso ChatGPT e cosa รจ successo davvero

Vale la pena ricostruire il caso in tre passaggi, perchรฉ segna lo stato dell’arte del rapporto fra LLM e GDPR in Italia.

Marzo 2023: il Garante blocca temporaneamente ChatGPT in Italia per la prima volta. OpenAI si adegua su quasi tutti i punti contestati, il servizio viene riattivato dopo qualche settimana. Dicembre 2024: il Garante conclude l’istruttoria e sanziona OpenAI per 15 milioni di euro, ordinando anche una campagna informativa di sei mesi. Marzo 2026: il Tribunale di Roma annulla la sanzione, sentenza 4153/2026. Le motivazioni non sono ancora pubbliche al momento in cui scrivo, perรฒ il dispositivo รจ chiaro: la sanzione cade integralmente.

Cosa significa per chi deve decidere oggi se usare ChatGPT, Claude o Gemini sui dati aziendali? Tre cose, secondo me. La prima รจ che lo strumento sanzionatorio del Garante รจ meno solido di quanto sembrasse: i tribunali stanno mostrando di poter ribaltare provvedimenti anche molto strutturati. La seconda รจ che il fatto stesso che il caso sia arrivato fino qui dimostra quanto la materia sia controversa, e che ogni azienda italiana resta esposta a contestazioni se non struttura bene la propria posizione documentale. La terza รจ la piรน importante: l’annullamento della sanzione non significa che il trattamento sia lecito, significa solo che quel provvedimento specifico non reggeva. Il sostrato GDPR resta in piedi, e il prossimo caso puรฒ essere il vostro.

Le quattro verticali italiane dove il problema รจ giร  operativo

Negli ultimi diciotto mesi ho seguito direttamente o di sponda progetti in quattro settori italiani dove l’uso degli LLM cloud sta giร  generando attriti giuridici concreti. Vorrei riportare cosa ho visto succedere.

Banche e finanza. Le grandi banche italiane hanno tutte progetti AI attivi, perรฒ il commitment legale รจ massimo. Le sandbox interne usano modelli open-weight in infrastruttura privata. L’uso di ChatGPT o Claude su dati di clientela รจ proibito per policy nella stragrande maggioranza dei casi. Le DPIA (Data Protection Impact Assessment) sono diventate documenti corposi, con sezioni dedicate ai modelli AI, e gli ispettori di Banca d’Italia stanno cominciando a chiederle. Per le banche medio-piccole, che non hanno il budget per un’infrastruttura AI privata, il dilemma รจ reale: aspettare l’evoluzione normativa, o cominciare con il cloud accettando il rischio. La risposta che vedo emergere รจ terza: AI privata su Mistral, Llama o modelli simili, gestita on-premise o su cloud sovrano italiano.

Sanitร . Qui la sensibilitร  รจ massima per ovvi motivi: i dati sanitari sono categoria particolare ai sensi dell’articolo 9 GDPR. Le aziende sanitarie pubbliche e private che ho visto adottare LLM stanno tutte andando su soluzioni private. Niente ChatGPT, niente Claude.ai dalla finestra del browser. Strumenti AI integrati nei gestionali clinici, con modelli fine-tuned su dataset sanitari e infrastruttura sotto controllo dell’azienda. Il vincolo qui รจ doppio: GDPR piรน normativa specifica sanitaria, e nessun primario รจ disposto a mettere la firma su un trattamento dove il dato esce dal perimetro ospedaliero.

Pubblica amministrazione. Il PSN (Polo Strategico Nazionale) e l’Agenzia per la Cybersicurezza Nazionale stanno dettando linee guida sempre piรน stringenti sull’uso di AI nei processi della PA. La direzione รจ chiara: dati pubblici dei cittadini italiani devono restare in cloud sovrani, su infrastrutture nazionali. Questo apre uno spazio commerciale enorme per soluzioni AI private che possano installarsi dentro il perimetro PSN. Diverse software house italiane si stanno posizionando su questo, e ho il sospetto che nei prossimi diciotto mesi vedremo accelerazione forte.

Manifattura e proprietร  intellettuale. Qui il problema non รจ solo il dato personale, รจ il segreto industriale. Aziende manifatturiere italiane che caricano disegni tecnici, formule, processi produttivi dentro ChatGPT per chiedere ottimizzazioni stanno regalando informazioni potenzialmente strategiche a un fornitore che, per quanto contrattualmente impegnato a non trainare sui dati enterprise, opera comunque sotto giurisdizione americana. Il punto qui sfora dal GDPR, va su trade secret, segreto industriale, sicurezza economica nazionale. Perรฒ รจ una conversazione che adesso i CTO italiani fanno con i CEO, e prima non si faceva.

La banca italiana che voleva sapere dove gira il modello

Racconto una scena reale, leggermente anonimizzata. Lavoro nel 2025 con il team innovazione di una banca italiana medio-grande che sta valutando di adottare un sistema AI generativa per la customer assistance. Il fornitore propone un’integrazione standard con un grande modello cloud americano. Il responsabile compliance, dopo aver letto il contratto, chiede una cosa apparentemente semplice: “Possiamo avere certezza che, quando un nostro consulente filiale interroga il sistema con il nome di un cliente per ricostruire la sua posizione, quel nome non passi per un data center fuori dall’Unione?”. Il fornitore impiega due settimane per rispondere, poi torna con una soluzione ibrida che usa pre-processing locale e poi chiama il modello cloud su dati anonimizzati. Funziona, ma costa il doppio del setup originale, e introduce latenza.

Quella domanda era la domanda giusta, ed รจ la domanda che oggi fanno i clienti sofisticati durante le RFP. Se la vostra applicazione AI non sa rispondere bene a quella domanda, perde la gara. E rispondere bene, sempre piรน spesso, significa: “Il modello gira nella nostra infrastruttura, sotto controllo italiano, mai i dati escono dal perimetro”.

L’unica architettura che chiude il problema alla radice

Ci sono tre modi di gestire la conformitร  GDPR su un’applicazione AI in produzione. Il primo รจ usare un grande LLM cloud americano e costruire un apparato documentale e contrattuale robusto (DPIA, clausole contrattuali, registro dei trattamenti, valutazione TIA per il trasferimento dati). Funziona, ma รจ costoso da mantenere, e ogni cambio di policy del fornitore impone una nuova valutazione. Il secondo รจ usare un LLM cloud europeo, tipo Mistral hostato in Francia. Mitiga il problema del trasferimento extra-UE, ma non lo elimina del tutto perchรฉ Mistral comunque processa dati su infrastruttura cloud condivisa. Il terzo รจ portare il modello in casa, on-premise o su cloud privato sotto controllo aziendale.

Il terzo modo, che fino a due anni fa era proibitivo per ragioni di capex hardware e complessitร  operativa, oggi รจ alla portata di aziende dai 50 dipendenti in su. I modelli open-weight (Llama 3.3, Mistral, Qwen, DeepSeek) sono molto vicini alle prestazioni dei top di gamma cloud sui task aziendali standard. L’hardware necessario per farli girare in locale รจ sceso a una frazione di quello che serviva nel 2023. E lo stack software per orchestrarli sta maturando rapidamente.

Su questo terreno ho investito personalmente, come cofondatore di LocalAI.io. LocalAI รจ un progetto open-source che permette di costruire ecosistemi di AI privata partendo dai modelli open-weight esistenti, con tutto lo stack che serve per portare un prodotto in produzione: gateway compatibile con le API OpenAI, gestione di modelli multipli, RAG, agenti con memoria, deployment on-premise o su cloud privato italiano. รˆ usato in produzione da aziende che hanno deciso di avere il proprio strato AI in casa, e da team che vogliono mantenere la flessibilitร  di cambiare modello senza rifare il prodotto.

La conversazione su GDPR e LLM nel 2026 si รจ spostata. Da terreno legale astratto รจ diventata terreno di architettura concreta. Le aziende italiane che capiscono questo, e che spostano il proprio stack AI dentro un perimetro controllato, eliminano alla radice il 70-80% delle questioni che oggi tengono sveglio il responsabile DPO. Le altre continueranno a discutere clausole contrattuali con i fornitori americani, a stipulare TIA che invecchiano dopo pochi mesi, a sperare che il prossimo accordo UE-USA regga davanti alla Corte di Giustizia. รˆ legittimo, ma รจ un modo molto laborioso di costruire un prodotto AI serio.

Per chi sta vivendo questa decisione, ho scritto la settimana scorsa un articolo che riassume le dieci ragioni per portare l’AI privata al tavolo del board, e dopo questo articolo ne pubblicherรฒ altri sul tema (TCO, scelta del modello open-weight, AI Act ad agosto 2026). Per una conversazione diretta sul vostro caso specifico, c’รจ la pagina Advisory.

La domanda finale, quella che vale la pena tenere davanti quando si decide oggi su un progetto AI aziendale, รจ semplice. Volete che la vostra compliance GDPR dipenda da una sentenza che puรฒ arrivare fra tre anni, da un accordo UE-USA che puรฒ essere annullato fra cinque, da un fornitore americano che puรฒ cambiare le sue policy fra tre mesi? Oppure preferite costruire il vostro prodotto sopra un’infrastruttura che resta sotto il vostro controllo, dove la conformitร  รจ una proprietร  strutturale invece di un esercizio documentale continuo?

Mistral AI nelle aziende italiane? Perchรฉ nel 2026 รจ diventata la scelta enterprise piรน seria d’Europa

Tre conversazioni recenti con CIO italiani sullo stesso identico tema. Una banca media del Nord, un gruppo manifatturiero del Veneto, un’azienda sanitaria privata di Roma. Domande diverse, problema sottostante identico: come spostare carichi AI dal cloud americano senza rallentare i progetti e senza far esplodere il budget infrastrutturale.

Ognuno per la sua ragione ovviamente: la banca per la piena applicazione dell’AI Act dal 2 agosto 2026 sui sistemi ad alto rischio, il gruppo manifatturiero perchรฉ i dati di produzione non possono finire in dataset di training di nessuno, l’azienda sanitaria perchรฉ il GDPR sui dati paziente in cloud extra-UE รจ diventato un mal di testa che non vale i risparmi.

In tutte e tre le conversazioni Mistral AI รจ arrivata sul tavolo con sollecitazioni differenti e suggestioni tecniche, e in due casi su tre รจ giร  la scelta tecnica in valutazione per il prossimo trimestre.

Mistral nel 2026 non รจ piรน interpretabile come “l’alternativa europea sperimentale“. รˆ diventata piuttosto rapidamente la prima risposta seria che si dร  a un CIO italiano quando i vincoli sono compliance e sostenibilitร  dei costi. Provo a spiegare perchรฉ, e quando invece non lo รจ (soprattutto poi sul tema sovranitร  ci torno in dettaglio).

Chi รจ Mistral AI

L’azienda รจ francese, sede a Parigi, fondata nel 2023 da ricercatori usciti da Meta e DeepMind. La distanza tra quel punto di partenza e dove sta oggi vale la pena guardarla con i numeri, perchรฉ definisce il tipo di vendor con cui si tratta.

ARR a 400 milioni di dollari a gennaio 2026, salito da circa 20 milioni un anno prima secondo il CEO Arthur Mensch. Valutazione 13,8 miliardi dopo il round chiuso a fine 2025 con Series C guidata da ASML. Quattro sedi globali oltre Parigi: Stati Uniti, Regno Unito, Singapore. E una traiettoria di prodotto che a marzo 2026 ha visto sei rilasci in quindici giorni, dalla famiglia Small 4 che unifica reasoning vision e coding fino a Forge per il training enterprise.

Sul fronte clienti il segnale italiano รจ arrivato a febbraio e marzo. Il 26 febbraio Accenture ha annunciato una partnership strategica pluriennale per scalare AI enterprise sicure in Europa, con Mauro Macchi, CEO Accenture EMEA, a confermare l’investimento. Il 18 marzo รจ arrivato l’accordo con Reply, focalizzato proprio su “soluzioni di intelligenza artificiale generativa locali, personalizzabili, sicure e pronte per l’utilizzo in contesti enterprise”, come dichiarato dal CTO Filippo Rizzante. Reply lavora con Mistral nel training e nella valutazione dei modelli per pubblica amministrazione, difesa, financial services e sanitร , oltre a telco ed energia. I settori dove la conformitร  non รจ un’opzione e la sovranitร  del dato รจ un requisito di gara.

Quando un’azienda italiana media decide oggi di mettere Mistral nel proprio stack, non sta scommettendo su una startup. Sta acquistando da un vendor che ASML, Ericsson, ESA, due agenzie governative di Singapore, Accenture e Reply hanno giร  qualificato in scenari produttivi reali.

Apache 2.0 come scelta strategica non per ideologia

Il vero discriminante di Mistral non รจ la qualitร  del modello: su quel terreno la competizione con OpenAI, Anthropic e Google รจ una corsa serrata che cambia ogni tre mesi o forse meno. Il vero discriminante รจ la licenza con cui i modelli vengono distribuiti. Apache 2.0, permissiva, commerciale, senza clausole che escludano usi specifici. Mistral Large 3, Magistral Small, Devstral, Ministral: tutti rilasciati con licenza Apache 2.0 o equivalente.

Per un CIO questo significa tre cose pratiche.

La prima รจ l’assenza di lock-in del vendor. Se domani Mistral aumenta i prezzi API, cambia condizioni contrattuali, viene acquisita da un attore non gradito, viene esclusa da un programma di compliance europea, il modello continua a girare. I pesi del modello sono scaricabili, replicabili, ospitabili dove serve. Non esiste un equivalente in OpenAI, Anthropic o Google: nessuno dei tre rilascia i pesi dei propri modelli flagship. Quando si firma un contratto con loro si firma una dipendenza permanente dall’infrastruttura del fornitore.

La seconda รจ il self-hosting che funziona davvero. Non quello finto di “Azure OpenAI in region europea”, dove il dato si muove in un perimetro Microsoft ma il modello resta proprietร  di OpenAI e la trasparenza sul training data resta zero. Con Mistral si puรฒ prendere Mistral Medium 3.5, metterlo su server bare metal in un data center italiano, e avere il controllo completo del flusso: i dati non escono mai dall’infrastruttura, i log restano interni, le richieste non transitano per servizi terzi. Per settori regolati la differenza รจ strutturale: permette di chiudere il progetto AI in conformitร  invece di doverlo riprogettare quando arriva l’audit.

La terza รจ la possibilitร  di auditare il modello per i requisiti dell’AI Act. Per i sistemi classificati ad alto rischio dall’articolo 6 del regolamento europeo, da agosto 2026 servono evidenze documentali su training data, processo di sviluppo, gestione dei bias, robustezza. Con un modello open-weight si puรฒ esaminare quello che effettivamente gira, fare valutazioni indipendenti, produrre la documentazione che chiede AgID. Con un modello chiuso si dipende dalla buona fede e dai certificati del vendor, che vanno bene fino a quando non vanno bene.

Apache 2.0 non รจ un argomento ideologico. รˆ un’architettura di rischio enterprise.

Mistral contro la concorrenza

I benchmark MMLU-Pro e LMArena occupano metร  delle slide nei pitch dei vendor AI, ma non sono il criterio giusto per scegliere quale modello mettere in produzione in un’azienda europea. Lo sono per il singolo task scientifico in laboratorio, non per la decisione di acquisto.

I criteri che muovono davvero la firma di un contratto enterprise in Italia sono cinque, e ho provato a mettere i quattro vendor principali su ognuno.

Sulla residency dei dati nel perimetro UE, Mistral vince netto: La Plateforme gira interamente in data center europei, e il self-hosting permette residency totale. OpenAI offre region europee ma con metadati che possono uscire, Claude di Anthropic non ha ancora residency europea garantita per tutti i tier, Google Gemini ha region UE ma resta soggetto a Cloud Act statunitense.

Sul self-hosting reale, solo Mistral lo offre con i modelli flagship. OpenAI, Anthropic e Google non lo permettono, possono offrirti al massimo deployment in cloud privato gestito da loro.

Sull’italiano nel training data come prioritร  di prodotto, Mistral parte avvantaggiata perchรฉ l’italiano รจ una lingua di confine della Francia, presente nelle fonti europee usate per il training fin dai primi modelli. OpenAI e Google hanno italiano buono ma derivato, Claude si difende. Il dettaglio si sente quando i casi d’uso sono terminologia legale e finanziaria, o linguaggio medico italiano: Mistral produce testi che un madrelingua riconosce come scritti in italiano, non tradotti.

Sul supporto enterprise europeo, Mistral ha staff in Europa con fusi compatibili, contratti redatti su norma europea, capacitร  di firmare DPA conformi al GDPR senza emendamenti acrobatici. Gli altri tre vendor possono offrirlo, ma รจ sempre una negoziazione caso per caso.

Sul presidio fisico in Europa, Mistral ha sede e team principale a Parigi, con presenza commerciale diretta nei principali mercati europei. Per un’azienda italiana questo si traduce in interlocutori reggiungibili, processi di escalation prevedibili, riunioni di servizio fattibili senza notti negli US.

Cinque criteri, Mistral vince su tutti, gli altri tre vendor perdono almeno su due ciascuno. Questo non significa che siano scelte sbagliate in assoluto, significa che se il caso d’uso รจ italiano e regolato Mistral parte da un vantaggio strutturale che gli altri devono recuperare a forza di concessioni contrattuali.

Quando Mistral non รจ la scelta giusta

Una guida che racconta solo i vantaggi di un vendor รจ un brochure di vendita, non un’analisi. Ci sono tre scenari in cui oggi consigliare Mistral รจ sbagliato, e vale la pena chiamarli con il loro nome.

Il primo รจ il reasoning scientifico al limite dello stato dell’arte. Se l’applicazione รจ ricerca farmaceutica avanzata, analisi giuridica multi-giurisdizione su corpus immensi, problemi matematici di livello olimpionico, oggi Claude Opus 4.7 e GPT-5 hanno ancora un margine sul reasoning piรน sofisticato che Magistral 1.2 sta accorciando ma non ha annullato. Per quei casi la differenza di qualitร  giustifica i costi e i compromessi sulla sovranitร .

Il secondo รจ la startup early-stage con un team piccolo e zero ops engineering. Mistral via API รจ semplice, ma quando ha senso passare a self-hosting servono competenze di MLOps che una startup di sei persone non ha. In quei contesti il managed service di OpenAI risparmia mesi di lavoro, e i vincoli di sovranitร  sono meno stringenti perchรฉ il dato del cliente arriva dopo che il prodotto esiste. Mistral diventa la scelta giusta nel passaggio dalla fase early alla fase di scaling enterprise.

Il terzo รจ il prodotto consumer chat brand-aware. ChatGPT ha vinto la guerra del marchio sul mercato consumer, e per molti casi d’uso l’utente vuole proprio ChatGPT, non un assistente generico. Le Chat di Mistral รจ un ottimo prodotto, ma se l’obiettivo รจ uno chatbot brand-coherent per consumer italiani che valga come acquisition channel, l’ecosistema di OpenAI, le sue integrazioni e il suo nome restano un asset che Mistral non eguaglia.

Dire questo apertamente fa parte del lavoro di advisor. Quando un vendor vince sempre su tutto, in un’analisi seria, qualcosa non torna.

I tre scenari italiani dove Mistral รจ la risposta giusta

Mi รจ capitato negli ultimi mesi di affiancare aziende che hanno fatto questa scelta, e gli scenari ricorrenti sono tre. Sono quelli che ho davanti piรน spesso quando mi chiamano per un assessment AI, e probabilmente sono anche i tuoi.

La banca media italiana. Mille o duemila dipendenti, focus retail e PMI, sistemi core legacy ma con un’innovation unit che da due anni sperimenta AI. Il problema concreto รจ doppio: agosto 2026 porta l’AI Act sui sistemi ad alto rischio, che per le banche include credit scoring, prevenzione frodi, customer journey con decisioni automatiche, e contemporaneamente il rapporto sui costi cloud LLM cresce del 40% trimestre su trimestre.

La configurazione Mistral tipica รจ ibrida. Mistral Medium 3.5 in self-hosting su due nodi NVIDIA H200 per i carichi sensibili (customer support che tocca dati cliente, sistemi decisionali, generazione documenti contrattuali), Mistral Large 3 via La Plateforme per i carichi esplorativi dove la sovranitร  รจ meno critica. Investimento infrastruttura nell’ordine dei 400-500 mila euro una tantum piรน contratti di supporto, con un break-even sui costi API che si raggiunge tra il diciottesimo e il ventiquattresimo mese per un volume di richieste tipico di un istituto da mille dipendenti.

Il gruppo manifatturiero del Nord. Tre o quattro stabilimenti, ricavi nella fascia 200-500 milioni, prodotti su misura con brevetti propri e know-how di produzione che รจ il vero asset competitivo. Il problema รจ che i prompt che farebbero davvero la differenza, quelli che mettono in pari l’AI generativa con un ingegnere senior, contengono dati di produzione, specifiche tecniche riservate, parametri di processo. Caricarli su cloud americano significa metterli in dataset di training futuri, anche con le clausole “data privacy” piรน tirate, perchรฉ il rischio anche solo di esposizione fa giร  scattare i policy interni.

La configurazione Mistral tipica qui รจ on-premise pura. Mistral Small 4 o Medium 3.5 su un singolo server NVIDIA H100 in azienda, integrato con la documentazione tecnica via vector database, esposto agli ingegneri di processo come assistente di reparto. Investimento infrastruttura nell’ordine dei 150-200 mila euro, gestione delegata a un partner sistemistico locale, zero traffico esterno per i carichi core. ROI atteso non in risparmio diretto ma in compressione dei tempi di sviluppo prodotto e di problem-solving sulla linea, dove ogni giorno guadagnato vale ordini di grandezza superiori al costo dell’infrastruttura.

La sanitร  privata romana o milanese. Strutture da 200-500 dipendenti, mix di ambulatorio specialistico, diagnostica, ricovero breve. Il problema รจ la combinazione GDPR articolo 9 sui dati particolari piรน AI Act sui sistemi ad alto rischio in sanitร , su cui le interpretazioni del Garante diventano piรน restrittive ogni sei mesi. Inviare dati paziente, anche pseudonimizzati, a un LLM cloud americano significa preparare la difesa legale prima del progetto.

La configurazione Mistral tipica qui รจ ibrida controllata. Mistral Medium 3.5 self-hosted per tutto quello che tocca dati paziente (refertazione assistita, prima lettura immagini diagnostiche, transcript di visite), Mistral Large 3 via API solo per carichi senza dati personali (knowledge base medica, formazione interna, comunicazione marketing). L’infrastruttura interna costa di piรน, intorno ai 300 mila euro per il setup iniziale, ma รจ la sola architettura che permette di sostenere un’ispezione del Garante senza dover dichiarare data breach preventivi.

In tutti e tre i casi, la scelta di Mistral non รจ ideologica, รจ strutturale. รˆ quello che permette di fare il progetto AI in conformitร  con i vincoli esistenti, senza spostare il problema avanti di sei mesi nella speranza che le normative diventino piรน morbide.

Il percorso pragmatico di impianto

Per un’azienda che oggi sta valutando se Mistral รจ una scelta sensata, il percorso che funziona รจ di circa quattro settimane, e non richiede investimenti significativi prima di aver capito se l’opzione regge.

La prima settimana รจ di assessment dei carichi AI attuali. Mappa di tutte le sperimentazioni in corso, identificazione dei carichi che toccano dati sensibili, classificazione preliminare rispetto all’AI Act, stima del costo annualizzato delle API LLM attuali. Da questa mappa esce la lista dei carichi candidabili a Mistral, che spesso non รจ il 100% del totale ma una porzione mirata.

La seconda settimana รจ di prova pilota. Le Chat Pro Team a 24,99 euro al mese per utente per dare ai team interni un assistente che gira su infrastruttura europea, in parallelo qualche giorno-uomo di un developer sui modelli via La Plateforme per validare la qualitร  sui prompt aziendali reali. Costo totale della prova nell’ordine dei 1.500 euro, output un go/no-go tecnico su Mistral con dati propri, non sui benchmark di marketing.

La terza settimana รจ di design dell’architettura target. Decisione tra le tre opzioni principali: solo API La Plateforme (low setup, costi ricorrenti), ibrida API piรน self-hosting parziale (setup medio, ottimizzazione costi a 18 mesi), self-hosting completo (setup alto, sovranitร  massima). La scelta dipende dal mix dei carichi mappati al primo passo e dal profilo di rischio del settore.

La quarta settimana รจ di business case e decisione. Confronto a tre anni tra l’architettura proposta e lo status quo, considerando costi infrastrutturali, costi API, costi di gestione, valore della sovranitร  nel risk management, fattibilitร  di compliance AI Act. Da qui esce o non esce la decisione di buy.

Questo schema funziona per la maggior parte delle aziende italiane sopra i cento dipendenti. Sotto quella soglia, di solito la complessitร  organizzativa del self-hosting non si giustifica e Mistral resta interessante via Le Chat e API, senza la parte infrastrutturale.

Queste valutazioni non sono mai solo tecniche. La scelta giusta dipende da come รจ strutturato il data flow aziendale, dai vincoli regolamentari specifici del settore, dalle competenze interne disponibili, dai progetti AI giร  in corso. Ogni azienda ha la sua mappa dei rischi e dei vantaggi, e i parametri che ho indicato sono ordini di grandezza che vanno calibrati sul caso reale.

รˆ esattamente il tipo di analisi che mi capita di fare quando un’azienda mi chiede di affiancarla nel ridisegno della propria architettura AI. Se stai facendo questo ragionamento per la tua organizzazione, puoi contattarmi qui per una prima conversazione.

Per chi vuole scendere nel dettaglio dei modelli specifici di Mistral e capire quale conviene per ciascun caso d’uso, ho dedicato un approfondimento su come scegliere tra i modelli Mistral nel 2026 dove confronto Large 3, Medium 3.5, Small 4, Magistral, Devstral e Ministral con i criteri tecnici e di costo. Per chi invece sta valutando le opzioni di acquisto, dall’API a La Plateforme fino al self-hosting on-premise con Forge, c’รจ la guida dedicata su API, self-hosting, Forge: cosa scegliere e quanto costa davvero.

Fine della consulenza? McKinsey cambia il rate dei partner

Tutti hanno notato la cifra, forse, ammesso che abbiate ascoltato il podcast. E quasi tutti hanno parlato di fine della consulenza guardando il dato sbagliato.

A gennaio 2026, sul podcast All In, Bob Sternfels (global managing partner di McKinsey) ha dichiarato che la sua azienda conta 60.000 dipendenti, di cui 25.000 agenti AI a fianco di 40.000 umani, con l’obiettivo di raggiungere la paritร  entro fine anno. La notizia รจ stata ripresa in tutto il mondo come prova che la consulenza strategica sta automatizzandosi piรน in fretta di qualsiasi altro settore knowledge-intensive.

C’รจ chi ha tirato fuori il termine “fine della consulenza” e chi, dall’altra parte, ha sminuito ricordando che i concorrenti EY e PwC parlano di poche unitร  di agenti capaci di fare il lavoro pesante senza bisogno di scalare a 25.000.

Trovo che entrambe le narrazioni siano interessanti, e in larga parte sbagliate. La notizia vera, secondo me, รจ arrivata pochi giorni fa, a metร  maggio, quando il Financial Times ha riferito che McKinsey sta riducendo la quota cash della remunerazione dei partner per spostarne una parte maggiore in equity. รˆ una notizia di compensation, apparentemente tecnica, ed รจ quella che racconta cosa sta cambiando davvero in quel settore.

Provo a spiegare perchรฉ.

Cambiano le compensation

Per capire l’importanza del cambio compensation serve un veloce ripasso di come รจ strutturata storicamente una grande consulenza strategica. McKinsey, BCG, Bain, e le big four nella loro componente advisory, sono partnership professionali. Il modello economico รจ semplice e ha retto per decenni: si vendono ore di consulente, organizzate in progetti, fatturate a rate molto alte, calcolate su un mix di seniority. Il partner del progetto guadagna due cose: uno stipendio base relativamente contenuto, e una quota dei profitti annuali che dipende dal volume e dalla marginalitร  dei progetti che ha portato a casa. La quota di profitto รจ cash, distribuita ogni anno, e rappresenta storicamente la parte piรน sostanziosa della remunerazione.

Questo modello si regge su un assunto: che i ricavi siano sufficientemente prevedibili anno per anno. Se conosci piรน o meno quanto fatturerai e con quanta marginalitร , puoi distribuire la maggior parte dei profitti subito ai partner senza creare instabilitร  finanziaria. Per anni questo รจ stato vero. I clienti grandi rinnovavano contratti, le tariffe orarie crescevano insieme all’inflazione, i progetti grandi si ripetevano. Non c’era bisogno di tenere capitale in azienda, perchรฉ il flusso di cassa era stabile.

Adesso quel flusso sta diventando volatile, per due ragioni che la mossa McKinsey rende esplicite. Primo: l’AI sta comprimendo le ore necessarie per fare il lavoro. Se un team che prima fatturava 5.000 ore per un progetto adesso ne fattura 2.000 perchรฉ 3.000 le fanno gli agenti, la base imponibile del fatturato si riduce. Secondo: il pricing si sta spostando dal time & materials all’outcome-based. Anzichรฉ vendere ore, McKinsey sta provando sempre di piรน a vendere risultati specifici, legando una parte significativa del compenso al raggiungimento di obiettivi misurabili per il cliente. Risultato? I ricavi diventano piรน discontinui e piรน rischiosi.

In un modello a remunerazione cash di anno in anno, la combinazione di queste due tendenze รจ esplosiva. Un cattivo anno svuota la partnership. Quindi bisogna tenere piรน capitale in azienda, distribuirne meno subito, dare ai partner una partecipazione che si valorizza nel tempo invece di pagarli a profitti annuali. Da qui lo spostamento in equity.

Perchรฉ la notizia conta piรน del numero degli agenti

Se prendi il numero 25.000 agenti, รจ una cifra grande ma di marketing. Conta cosa fanno e quanto valore generano davvero, e su questo le testimonianze esterne sono variegate. Il global engineering chief di EY, Steve Newman, ha commentato in modo pungente che “alcuni dei migliori risultati che abbiamo arrivano da una manciata di agenti che fanno il lavoro pesante” e che il numero di agenti, di per sรฉ, non si traduce automaticamente in valore. EY parla di “una manciata” di agenti che producono il valore reale, BCG dichiara che l’AI consulting sarร  il 20% dei suoi ricavi 2024, Accenture ha riorganizzato cinque unitร  nella nuova “reinvention services”. Ogni big sta giocando una partita diversa.

Il cambio compensation, invece, รจ una decisione strutturale che dice una cosa precisa: McKinsey ha smesso di scommettere sulla prevedibilitร  del proprio business e ha cominciato a gestirsi come un’azienda con ricavi volatili. รˆ la mossa di un’azienda che si sta riorganizzando per affrontare un decennio diverso, non per gestire una transizione di breve.

Tradotto in linguaggio operativo: la consulenza piรน elite del mondo ha appena ammesso pubblicamente che il proprio modello di ricavo non sta piรน funzionando come prima. Per un settore che vive di certezze trasmesse al cliente, รจ un’ammissione importante.

E chi fruisce della consulenza cosa deve valutare?

Per chi guida un’azienda italiana e ha rapporti consolidati con grandi societร  di consulenza, ci sono tre conseguenze pratiche da iniziare a osservare nei prossimi mesi.

La prima รจ sui pricing. Il modello time & materials non scomparirร  del tutto, ma diventerร  sempre piรน residuale. Nelle nuove proposte ti aspetterai sempre piรน spesso una struttura mista: una parte fissa contenuta, una parte legata al raggiungimento di KPI predefiniti. รˆ una buona notizia per chi compra, perchรฉ allinea gli incentivi del consulente con il valore generato. รˆ anche una sfida nuova, perchรฉ obbliga a definire ex ante quali sono gli outcome misurabili, e questo richiede una capacitร  di scoping che molte aziende clienti non hanno ancora sviluppato.

La seconda รจ sulla struttura dei team. Se le ore si riducono e gli agenti AI fanno parte del lavoro analitico, il team di progetto che ti arriva sarร  piรน snello. Meno junior, piรน senior consultant che orchestrano agenti. Per il cliente, questo cambia la dinamica di interazione quotidiana, perchรฉ spariscono i punti di contatto routinari, gli incontri operativi di follow-up, le revisioni intermedie che fino a ieri tenevano il progetto incollato alla tua organizzazione. C’รจ un rischio di disconnessione che va gestito con governance esplicita.

La terza รจ sui contenuti. Quando una consulenza ti vende un outcome, ha incentivo a portarti la soluzione che funziona, non quella che fattura di piรน. รˆ un’inversione che storicamente molti clienti hanno sperato e raramente ottenuto. La domanda diventa: come misuriamo davvero l’outcome? Se la definizione del successo la scrive il consulente, sarร  tarata in modo da renderlo raggiungibile. Se la scrivi tu cliente, devi avere chiaro cosa stai chiedendo, e questa รจ di nuovo una capacitร  interna che va costruita.

Il pezzo che mi convince meno

Una cosa che leggo in molti commentatori, e che secondo me รจ prematura, รจ che la consulenza tradizionale stia per essere disintermediata dagli stessi modelli AI che le grandi societร  stanno usando. La logica รจ: se McKinsey usa Claude per fare le sue analisi, perchรฉ io cliente non posso usare Claude direttamente e saltare McKinsey?

La logica funziona, ma solo per una fetta del lavoro che la consulenza fa. La parte di sintesi documentale, ricerca di mercato strutturata, benchmark settoriale, รจ effettivamente sempre piรน replicabile in autonomia con un buon prompt e un team interno competente. Quella parte sta scomparendo dalla value proposition delle consulenze, e infatti i partner di McKinsey lo stanno giร  dicendo apertamente.

Ma c’รจ una parte che resta scarsa e che non si comprime: l’autoritร  simbolica del consulente esterno nelle decisioni difficili. Quando un board deve prendere una decisione che spaccherร  il management, una societร  di consulenza serve a fornire copertura politica piรน che analitica. Quando una famiglia proprietaria deve fare la transizione generazionale, serve una voce terza che dia legittimitร  alla scelta. Quando un CFO deve giustificare una ristrutturazione, serve un report con un logo riconoscibile. Tutto questo l’AI non lo sostituisce, perchรฉ non รจ informazione, รจ autoritร . E l’autoritร  si costruisce con persone, relazioni, presenza fisica nei posti che contano.

Il cambio compensation di McKinsey, in questa lettura, ha senso. La consulenza non sparisce ma si sdoppia. Una parte commodity, sempre piรน automatizzata e a basso margine. Una parte high-touch, fatta di partner senior che vendono autoritร  e relazioni in situazioni dove conta piรน chi parla di cosa dice. รˆ sulla seconda parte che si concentreranno gli equity stake. La prima parte, in qualche anno, sarร  gestita quasi interamente da agenti, e questo i partner di McKinsey lo sanno bene.

Fine della consulenza o solo del suo vecchio modello?

Se questo รจ lo scenario, allora chi prende consulenza in Italia farebbe bene a chiedersi due cose, oggi. La prima: sto pagando per la parte commodity o per la parte high-touch? Se il mio rapporto con la consulenza รจ prevalentemente fatto di deliverable analitici, ricerche, benchmark, decking, allora sto pagando una cosa che fra tre anni potrรฒ fare da solo con un team minuscolo armato di buoni agenti, magari su un’infrastruttura di AI privata sotto il mio controllo. Conviene cominciare ad attrezzarsi adesso, prima che il mercato si riallinei. La seconda: sto comprando vera autoritร  decisionale, e se sรฌ, da chi? Perchรฉ la promessa di autoritร  del brand consulenza tradizionale dipende dalla stabilitร  del modello che la sosteneva. Se il modello cambia, anche l’autoritร  si rinegozia.

Da imprenditore che vede passare diverse aziende attraverso questi rapporti, dico che il vero rischio non รจ essere disintermediati. Il rischio รจ continuare a pagare la consulenza come se non stesse cambiando, mentre dall’altra parte i partner di McKinsey hanno giร  accettato che il loro mondo รจ cambiato e si stanno organizzando di conseguenza. Quando il fornitore si ristruttura prima del cliente, il cliente paga il conto della ristrutturazione del fornitore. รˆ sempre andata cosรฌ. Lo รจ ancora di piรน adesso, con tutta questa AI in mezzo.

Se volete ragionare su come attrezzarvi, lavoro esattamente su questo nei percorsi di advisory.

Manus AI, la guida completa per le aziende: agente, costi, governance

Cosa significa “agente autonomo” davvero

Per capire Manus AI c’รจ una distinzione che sembra banale e invece fa tutta la differenza. ChatGPT, Claude, Gemini sono assistenti conversazionali: il ciclo รจ prompt-risposta, e chi guida il processo resta sempre l’utente, che decompone il problema, lancia richieste in sequenza, ricompone i risultati a mano. Manus rompe questo schema. Riceve un brief in linguaggio naturale, costruisce un piano di esecuzione visibile, e parte da solo, pianifica i passi, apre un browser, esegue ricerche, scarica file, esegue codice, salva risultati, consegna un artefatto finale.

A raccontarlo cosรฌ sembra una sfumatura semantica, in pratica รจ un cambio di paradigma, ed รจ la prima cosa da mettere a fuoco su Manus AI. La documentazione ufficiale di Manus parla di “virtual colleague with its own computer”, e l’immagine rende. L’agente vive in una sandbox Linux Ubuntu completa, con shell, file system persistente, browser Chromium, interpreti Python e Node.js, e puรฒ perfino esporre servizi web all’esterno. La parte tecnica piรน interessante, raccontata in dettaglio dal post di E2B che fornisce l’infrastruttura, รจ che ogni sessione gira su microVM Firecracker, le stesse macchine virtuali leggere sviluppate da AWS per Lambda. Il risultato pratico รจ che l’agente puรฒ lavorare per decine di minuti, anche un’ora, mantenendo lo stato tra un passo e l’altro, persino quando il dispositivo dell’utente รจ spento.

Questo cambia il modo in cui si chiede a Manus di fare qualcosa. Un prompt per ChatGPT richiede precisione sulla forma della risposta, perchรฉ il modello deve restituire un testo subito. Un brief per Manus richiede precisione sull’obiettivo finale e sui criteri di successo, perchรฉ il modello prenderร  decine di micro-decisioni autonome durante l’esecuzione, senza poter chiedere conferma a ogni passaggio. รˆ una scrittura piรน vicina a quella che useresti per un consulente esterno che riceve un brief e torna dopo due giorni con il dossier, non a quella che useresti per un assistente in chat. Tengo questa analogia per tutta la guida, perchรฉ รจ la chiave mentale che fa funzionare lo strumento.

Le due modalitร  e il pannello “Manus’s Computer”

Il prodotto si articola su due modalitร . Chat Mode funziona come un assistente conversazionale tradizionale, costa pochissimi crediti, serve a domande veloci, sintesi rapide, ricerca puntuale. Agent Mode รจ la modalitร  autonoma vera, dove Manus prende il brief, costruisce il task plan, e parte. La differenza in termini di costi รจ netta, e va capita prima di iniziare a usare il prodotto in modo regolare, perchรฉ Chat Mode resta per molti utenti il novanta per cento dell’uso quotidiano.

L’elemento piรน distintivo dell’interfaccia รจ “Manus’s Computer”, un pannello laterale che mostra in tempo reale tutto ciรฒ che l’agente sta facendo: quali pagine apre, cosa cerca, quali file scrive, quali comandi lancia nel terminale. Per chi viene da anni di chatbot dove tutto รจ invisibile, รจ un’esperienza diversa, si vede l’agente lavorare, si intercettano gli errori prima che compromettano l’intero task, si interviene spostandolo da una direzione sbagliata. Una review su Cybernews lo descrive come guardare un ricercatore al lavoro con una checklist davanti, ed รจ fedele.

Il punto delicato รจ che questa trasparenza si paga con una maggiore responsabilitร  di supervisione. Manus puรฒ sbagliare click sul browser, fraintendere un’istruzione, costruire un piano errato, e senza un occhio sul “Computer” l’agente consuma crediti per minuti producendo un output che alla fine non serve. La logica corretta รจ dargli un brief chiaro, lasciarlo lavorare, ma tenere sotto controllo i primi passi del piano. Se il piano iniziale regge, di solito l’esecuzione regge. Se รจ sbagliato, meglio fermarsi e riformulare. La regola pratica, ad ogni nuovo task, รจ chiedersi quanti strumenti diversi userei se facessi io questo lavoro: se la risposta รจ uno, basta Chat Mode, se sono tre o piรน, vale la pena passare ad Agent Mode.

Come si scrive un brief per un agente autonomo

Un brief per Manus non รจ un prompt per ChatGPT, ed รจ la singola cosa che fa la differenza tra task riusciti e task abbandonati a metร  esecuzione. Un prompt conversazionale รจ una richiesta puntuale a cui il modello risponde subito. Un brief per Manus รจ la descrizione di un risultato finale e dei criteri per riconoscerlo come riuscito.

Un esempio, partendo da una richiesta sbagliata: “fammi una ricerca sui competitor”. Manus parte, ma il piano รจ generico, l’output incerto, i crediti consumati senza un punto di arrivo chiaro. Lo stesso task in versione corretta: “produci un dossier su cinque competitor italiani nel settore X, per ognuno raccogli sede legale, fatturato ultimi due esercizi disponibili da bilanci pubblici, posizionamento dichiarato sul sito, principali clienti citati in case study, presenza su LinkedIn dei C-level. Output: un file markdown con cinque schede da una pagina ciascuna, link a tutte le fonti, e una tabella riassuntiva finale”. Stessa richiesta sostanziale, risultato completamente diverso.

La differenza รจ che il secondo brief specifica quattro cose che il primo lasciava implicite: il perimetro del task, i dati da raccogliere, la struttura dell’output, le fonti accettabili. Manus eccelle quando questi quattro vincoli sono chiari, perchรฉ puรฒ costruire un piano di esecuzione lineare. Quando uno solo dei quattro manca, l’agente deve indovinare, e gli indovinelli costano crediti. La documentazione ufficiale suggerisce di pensare a sรฉ stessi come a un manager che assegna un compito a un collaboratore esterno, ed รจ un’analogia che vale la pena adottare mentalmente prima ancora di iniziare a digitare. C’รจ anche una funzione che conviene conoscere dalla prima sessione: l’agente puรฒ essere fermato in qualsiasi momento, e si interviene chiedendo correzioni puntuali, suggerendo alternative, fornendo credenziali quando il sito richiede login. Questa pausabilitร  รจ uno dei tratti che distinguono Manus dagli agenti puramente background.

Piani, crediti, costi: il modello economico

Manus usa un sistema a crediti, e questo cambia profondamente l’esperienza rispetto agli abbonamenti illimitati di ChatGPT Plus o Claude Pro. Il piano gratuito offre trecento crediti che si rigenerano ogni ventiquattr’ore, piรน mille crediti starter una tantum, con accesso al Chat Mode e a Manus 1.6 Lite in Agent Mode. Basta per testare il prodotto e capire se ha senso salire di piano.

I piani Pro partono da venti dollari al mese per quattromila crediti, salgono a quaranta dollari per ottomila crediti con accesso al Wide Research, e arrivano a duecento dollari per il piano top che porta i crediti mensili a quarantamila e abilita la generazione batch di slide e siti. Il piano Team parte da venti dollari per seat con un minimo di due membri, e introduce funzionalitร  di workspace condiviso. La fatturazione annuale taglia circa il 17 per cento. Per i numeri aggiornati c’รจ la pagina ufficiale dei piani, ma il dato che conta per ragionare sui costi รจ un altro: i crediti mensili non si accumulano da un mese all’altro, mentre quelli acquistati come add-on restano disponibili finchรฉ l’abbonamento รจ attivo. Una review su Spectrum AI Lab lo conferma analizzando le regole di rollover.

Il dato concreto che serve per dimensionare il budget: un task di ricerca semplice consuma intorno ai cinquanta-sessanta crediti, un’analisi dataset di media complessitร  ne brucia trecento, un dossier di Wide Research approfondito arriva a quattro o diecimila crediti in una singola esecuzione. Manus non stima il costo di un task prima di lanciarlo, e in caso di crediti insufficienti si ferma a metร  esecuzione senza addebiti automatici di overage. Per le aziende il budgeting va dunque fatto a posteriori nelle prime settimane, finchรฉ il team non sviluppa un’intuizione sui costi tipici dei propri task ricorrenti. Un consiglio che do sempre: tenere un piccolo log dei task lanciati, con brief, esito, crediti consumati, perchรฉ dopo dieci o quindici task emergono i pattern, alcuni tipi di richiesta rendono bene e altri sono sistematicamente difficili, e quel log diventa la base per capire dove Manus sostituisce ore di lavoro e dove invece produce solo overhead di supervisione.

I limiti veri delle prime sessioni

Manus non รจ perfetto, e conviene saperlo in partenza per evitare delusioni mal indirizzate. I problemi piรน comuni nelle prime sessioni sono tre. L’agente a volte fraintende il brief e parte in una direzione sbagliata, fa click errati sul browser scegliendo elementi che sembravano giusti, e in task lunghi perde il filo del piano iniziale divergendo verso obiettivi secondari.

Il primo problema si risolve scrivendo brief piรน precisi. Il secondo รจ una limitazione tecnica, mitigata dal browser visivo che permette di vedere gli errori e correggerli, ma resta una causa frequente di crediti consumati senza output utile. Il terzo รจ il piรน insidioso, e si gestisce dividendo i task lunghi in sotto-task piรน piccoli, ognuno con un output ben definito, invece di chiedere all’agente di completare in una singola esecuzione una pipeline articolata. Una review approfondita su Lindy nota che Manus funziona bene su task con percorso lineare e meno bene su quelli con logica condizionale ramificata, ed รจ un’osservazione utile per calibrare le aspettative fin dall’inizio.

I task su cui rodarsi senza rischiare frustrazione, nelle prime settimane, sono tre. La ricerca strutturata multi-fonte, dove Manus apre decine di pagine e le legge integralmente, producendo risultati migliori di un assistente conversazionale. L’estrazione dati da fonti web, dove l’agente apre la pagina, esegue lo scraping, scrive uno script di parsing se serve, salva il CSV, e risolve in cinque o dieci minuti quello che a mano ne richiederebbe quaranta. La generazione di documenti formattati a partire da input strutturati, dove dato un file Excel con i risultati di una survey l’agente produce un report con grafici, executive summary, sezioni per ogni domanda. Questi tre pattern coprono buona parte del valore quotidiano di Manus per un manager, e funzionano come esercizi di apprendimento.

Projects e Connectors: l’agente che entra nello stack di lavoro

Fino a metร  2025 Manus aveva un problema strutturale: ogni sessione partiva da zero. L’agente non sapeva nulla del lavoro precedente, delle abitudini del team, delle conversazioni in corso, e andava istruito ogni volta. A dicembre 2025 รจ arrivata la prima risposta strutturale sotto forma di Projects con Connectors, ed รจ il momento in cui Manus smette di essere un tool per task estemporanei e inizia a operare dentro il proprio contesto.

Un Project รจ un workspace persistente che conserva istruzioni di base, file di riferimento, cronologia delle conversazioni correlate. Invece di spiegare ogni volta a Manus chi siete, cosa fa la vostra azienda, qual รจ il tono di voce, quali sono i clienti chiave, queste informazioni vivono dentro il Project e l’agente le richiama all’inizio di ogni nuovo task. La pagina ufficiale del lancio descrive l’idea di trasformare task ripetibili in spazi persistenti. L’impatto si manifesta in tre direzioni: la qualitร  degli output, perchรฉ con il contesto giร  caricato Manus produce risultati piรน allineati al brand e al settore, il risparmio di crediti, perchรฉ spariscono i passi che l’agente farebbe per capire il contesto, e la possibilitร  di delegare task ricorrenti a chi nel team ha meno familiaritร  con lo strumento, perchรฉ il Project incapsula la complessitร .

Qui si gioca la partita vera dei Connectors. Un Project puรฒ collegarsi nativamente, via protocollo MCP, ai servizi che giร  si usano: Gmail, Notion, Stripe, HubSpot, Slack, Google Calendar, Hugging Face, Google Drive, GitHub, e l’elenco continua a crescere. MCP รจ lo standard aperto che Anthropic ha proposto nel 2024 e che si sta affermando come lingua franca per l’integrazione tra agenti e tool esterni, un tema legato a doppio filo a come si evita il vendor lock-in nei progetti AI enterprise. Un esempio concreto: con il connettore Gmail attivo si puรฒ chiedere a Manus di leggere le email ricevute negli ultimi cinque giorni dai clienti enterprise, identificare quelle con una richiesta esplicita di follow-up, produrre una sintesi per prioritร . Manus legge davvero la posta, applica i filtri, restituisce la sintesi. Con Slack attivo si puรฒ chiedere di guardare il canale vendite delle ultime due settimane e riassumere le obiezioni ricorrenti dalle call. A maggio 2026 Manus ha aggiunto i Connector Recommendations, che identificano quando un task richiede un servizio non ancora collegato e suggeriscono di attivarlo dall’interfaccia, riducendo l’attrito di scoprire a metร  task che mancava una credenziale.

La tentazione iniziale รจ creare un Project generico chiamato “lavoro” e usarlo per tutto. Funziona male, e dopo qualche settimana produce confusione. La logica corretta รจ creare Project ristretti per dominio o per processo, uno per la competitive intelligence, uno per la produzione di contenuti, uno per l’analisi del customer feedback, ognuno con istruzioni mirate e connettori selezionati. Sui connettori conviene restare minimali, perchรฉ ogni connettore amplia la superficie di accesso ai dati: un Project di ricerca pubblica non ha bisogno di Gmail collegato, uno di produzione contenuti non ha bisogno di Stripe. La regola del privilegio minimo si applica anche qui, e protegge da scenari dove l’agente, in un momento di confusione, accede a dati che non doveva toccare.

Wide Research, la funzione dove Manus stacca gli altri

Ci sono task per cui un chatbot non basta, e per cui anche una “deep research” come quella di ChatGPT o Perplexity resta in superficie. Sono i dossier che richiedono di aprire decine di pagine, leggerle integralmente, estrarre dati strutturati, confrontarli, citarli con riferimenti puntuali. Wide Research รจ la funzione di Manus AI pensata esattamente per questo, disponibile sui piani Pro da quaranta dollari mensili in su, ed รจ uno dei punti dove il prodotto mostra il suo vantaggio competitivo piรน chiaro.

L’agente entra in una sessione estesa, lavora per quaranta-ottanta minuti, apre decine o centinaia di pagine, mantiene uno stato persistente, salva risultati intermedi, consegna un dossier corposo. La differenza con le ricerche standard riguarda la durata, certo, ma soprattutto la profonditร  di lettura: invece di fermarsi agli snippet dei primi risultati, l’agente apre davvero le pagine e le legge per intero. Sul confronto con la “deep research” di altri vale la pena guardare i numeri con cautela. Un’analisi su The Planet Tools che ha testato Manus su GAIA, il benchmark di riferimento per agenti AI, riporta uno score dell’86,5 per cento sul livello uno, 70,1 sul livello due, 57,7 sul livello tre, contro il 74,3, 69,1 e 47,6 di OpenAI Deep Research. I benchmark di prodotto vanno presi con le pinze, ma indicano una direzione: su task di ricerca multi-step strutturati Manus si comporta in modo competitivo, e in alcuni scenari supera la concorrenza piรน affermata.

Le regole sul brief valgono qui con un’intensitร  maggiore, perchรฉ un brief vago per un task da cinquanta crediti produce uno spreco accettabile, mentre per un task da cinquemila crediti produce uno spreco doloroso. I quattro elementi che fanno la differenza sono il perimetro, la struttura dell’output, le fonti accettabili, i criteri di successo. Wide Research rende particolarmente bene su tre terreni. La competitive intelligence strutturata, dove l’agente apre siti aziendali, comunicati, press release, e produce dossier che a un analista umano richiederebbero due o tre giornate. La due diligence light, che non sostituisce quella formale ma serve a valutare preliminarmente una controparte, raccogliendo informazioni pubbliche, segnalando red flag, ricostruendo la storia del management, con la capacitร  di citare puntualmente le fonti costruendo un audit trail della ricerca. Il market scan e la ricerca regolatoria, dove serve coprire molte fonti istituzionali, paper, comunicati di authority, banche centrali, organismi europei.

Sui costi conviene dare cifre concrete, perchรฉ il modello a crediti rende facile sottostimare l’investimento finchรฉ non ci si trova il budget mensile bruciato a metร  mese. Un dossier di complessitร  media consuma tra i mille e i tremila crediti, uno ad alta complessitร  arriva a quattromila o diecimila in un’unica esecuzione. Sul piano Pro da quaranta dollari con ottomila crediti mensili, un task ben dimensionato occupa il dieci per cento del budget, mentre uno fuori scala puรฒ cannibalizzare un mese intero. Il calcolo che vale la pena fare รจ quanto tempo umano risparmia il dossier: se un’analisi da otto ore viene prodotta in trenta minuti con duemila crediti, il ROI รจ evidente, se invece il dossier รจ di qualitร  scarsa e va integrato a mano per quattro ore, il calcolo si ribalta. Per i dossier davvero importanti, quelli destinati a riunioni con stakeholder esterni o a decisioni di investimento, conviene un pilot in piccolo: stessa struttura ma su due o tre soggetti invece di dieci, si valuta la qualitร , si calibra il brief, poi si lancia il task completo.

Wide Research รจ la scelta sbagliata quando la fonte primaria รจ una sola e giร  nota, e allora conviene caricare il documento in Chat Mode o in un Project e ragionarci sopra. Lo รจ quando la ricerca richiede accesso a database proprietari come Bloomberg, Crunchbase Pro, Pitchbook, perchรฉ Manus non ha accesso nativo e produrrร  un dossier basato su fonti pubbliche piรน povere. E non funziona quando la domanda รจ soggettiva e richiede un giudizio interpretativo che presuppone esperienza di settore, perchรฉ valutare se un’azienda รจ un buon target di acquisizione รจ una sintesi di mercato, finanza, competitive e fit culturale che richiede chi conosce il contesto strategico interno. Wide Research prepara il terreno, non prende la decisione.

Scheduled Tasks e Cloud Computer: l’agente che lavora anche di notte

C’รจ un momento, in chi inizia a usare Manus seriamente, in cui ci si accorge che il vero collo di bottiglia si sposta: dalla capacitร  dell’agente al tempo dell’utente che deve lanciare i task. Le riunioni occupano la mattina, le revisioni il pomeriggio, e i task ricorrenti che si volevano lanciare ogni settimana si fanno una volta sรฌ e due no, finchรฉ si smette. Qui Manus ha investito di piรน nell’ultimo anno, e a fine aprile 2026 ha consegnato il salto piรน rilevante del suo percorso prodotto.

Scheduled Tasks permette di programmare l’esecuzione di un task a cadenza fissa, ogni mattina, ogni lunedรฌ, il primo del mese, ogni tre ore. L’agente lancia il task in autonomia, esegue, salva i risultati, eventualmente invia notifiche. Per chi รจ abituato a Zapier o n8n l’idea รจ familiare, per chi viene solo da chatbot รจ un cambio di prospettiva. Una review su Work Management lo descrive come la funzione che fa sembrare Manus piรน un operations tool che una novitร  AI, ed รจ fedele, perchรฉ il valore non sta nel singolo task pianificato ma nell’accumularsi di task ricorrenti che insieme costruiscono una piccola infrastruttura di business intelligence che gira da sola. I limiti vanno conosciuti: sul piano gratuito due Scheduled Tasks attivi, sui piani Pro il limite sale a venti task concorrenti e pianificati.

Il salto qualitativo รจ il Manus Cloud Computer, lanciato il 30 aprile 2026, descritto dalla stampa specializzata come il primo prodotto mainstream che dร  a un agente un “permanent home”. Fino ad allora ogni sessione viveva in una sandbox effimera che si chiudeva al termine del task, mentre con Cloud Computer l’agente ha una macchina virtuale dedicata, sempre accesa, che mantiene stato, file, database, processi attivi anche tra un task e l’altro. Una rassegna su AI Automation Global descrive l’impatto come il passaggio dal 2025, anno del chat agent, al 2026, anno dell’agent runtime, un posto dove gli agenti vivono, reagiscono a eventi, accumulano effetti collaterali. Cloud Computer รจ disponibile in tre tier, accessibile da desktop e mobile, ed รจ proposto come no-code: si descrive l’obiettivo in linguaggio naturale e Manus provisiona e mantiene la macchina sottostante. Per le funzioni IT abituate a parlare di VM, container, processi supervisor, l’astrazione conta, perchรฉ non si gestisce piรน infrastruttura, si gestisce intento.

Gli scenari dove Scheduled Tasks ripaga rapidamente sono concreti. Il monitoring competitivo giornaliero, un task che ogni mattina controlla i siti dei competitor selezionati e invia un digest entro le otto, cosรฌ il manager arriva in ufficio giร  allineato. Il digest settimanale di customer feedback, che ogni lunedรฌ apre i ticket della settimana precedente, identifica i topic ricorrenti, segnala i feedback critici. La rassegna stampa di nicchia, che per chi lavora in public affairs o comunicazione scandaglia testate specializzate e account di settore producendo una rassegna ragionata, un sostituto credibile per certi scenari di servizi piรน costosi. Un caso descritto su NoCode MBA mostra come un setup simile per tracciare advertiser su newsletter di settore abbia intercettato lead prima della concorrenza.

I task pianificati hanno insidie diverse da quelli in tempo reale. Un task lanciato a mano lo supervisioni e se va male lo fermi, uno pianificato gira di notte e se sbaglia produce output sbagliati per giorni prima che qualcuno se ne accorga. Tre regole tengono conto di questa asimmetria. Essere conservativi sul perimetro, perchรฉ un task ricorrente deve fare poco ma bene, non รจ il contesto per un Wide Research da quattromila crediti ma per task semplici da cento o duecento. Configurare il fail-fast, in modo che se le fonti non sono accessibili l’agente notifichi l’errore invece di produrre output silenziosamente sbagliato. Fare una review periodica, una volta al mese, per vedere quali task generano valore e quali sono diventati rumore di fondo, perchรฉ la tendenza naturale รจ accumulare task senza mai potarli e dopo sei mesi ci si ritrova con quindici Scheduled Tasks di cui tre servono davvero.

Il valore vero emerge quando queste funzioni si combinano. Un Project con istruzioni mirate, connettori attivi sui propri tool, Scheduled Tasks che girano in autonomia, Cloud Computer che mantiene stato persistente, insieme diventano un’infrastruttura leggera di automazione che assomiglia a quello che le aziende grandi costruiscono con team IT dedicati. Un Project di sales intelligence con HubSpot attivo, dove ogni mattina un task apre i deal stagnanti da piรน di trenta giorni, controlla l’attivitร  recente dei contatti su LinkedIn, identifica trigger di vita come un cambio ruolo o un post recente, suggerisce a quale account dare follow-up prioritario, con il Cloud Computer che mantiene memoria di lungo termine sui contatti per non ripetere segnalazioni giร  fatte. Due anni fa questo livello richiedeva un team di RevOps con Salesforce, Outreach, Clay, Apollo e un consulente di setup, oggi richiede un piano Manus Pro e una settimana di configurazione. C’รจ un caveat che ricordo sempre: tutta questa infrastruttura passa da una piattaforma esterna che ha accesso a dati aziendali sensibili, e il livello di automazione raggiunto รจ proporzionale alla quantitร  di credenziali condivise, un tema che chi ha vincoli di sovranitร  del dato risolve spostando lo strato AI dentro il perimetro, come racconto a proposito di infrastrutture di AI privata.

Collab, Desktop App e Design View: quando diventa risorsa di squadra

Per buona parte del 2025 Manus era un prodotto individuale. Un singolo utente apriva un task, lo seguiva, ne raccoglieva l’output, e per i team che volevano usarlo insieme l’unica strada era condividere screenshot e riprodurre a mano la stessa esecuzione. Da fine 2025 il prodotto ha coperto questo limite con un set di funzioni dedicate al lavoro di squadra.

Manus Collab apre i workspace alla collaborazione multi-utente con un solo link. Si genera, si condivide, e chi lo riceve entra nel workspace, vede lo stato dei task, partecipa alle conversazioni con l’agente, contribuisce al brief, accede agli output. Per chi viene da Notion, Linear, Figma, il pattern รจ familiare. L’effetto si misura sul sistemico piรน che sulla singola funzione: quando due persone lavorano insieme su un task le iterazioni si moltiplicano, una scrive il brief, l’altra lo affina, una valuta l’output intermedio, l’altra chiede correzioni, e la qualitร  finale supera quella che si otterrebbe in solitaria. Una review su Lindy nota che il lavoro di squadra รจ uno dei terreni dove i prodotti agentici stanno colmando il distacco rispetto agli strumenti collaborativi tradizionali. Un Manus solitario รจ uno strumento, un Manus condiviso puรฒ diventare un processo aziendale.

La Desktop App per Mac e Windows, descritta nella documentazione come “My Computer”, porta tre vantaggi pratici. L’accesso ai file locali senza upload manuale, cosรฌ si lavora su documenti e fogli che vivono sulla propria macchina senza prima caricarli nel cloud. La persistenza visiva, perchรฉ l’app resta aperta in background e le notifiche sui task completati arrivano nel sistema operativo invece di disperdersi tra mille schede. E il senso di professionalitร  dello strumento, meno banale di quanto sembri, perchรฉ un’applicazione dedicata cambia il modo in cui un team percepisce un tool e abbassa la resistenza all’adozione strutturata. Resta una limitazione che conviene conoscere: anche con l’app desktop, l’esecuzione dell’agente avviene nella sandbox cloud, non sulla macchina locale, ed รจ un vincolo di sicurezza che vale per tutti gli agenti autonomi sul mercato.

Design View รจ il modulo dedicato alla generazione e all’editing di immagini, lanciato con una novitร  tecnica: integra Nano Banana Pro, il modello di generazione visuale di Google noto per la qualitร  delle iterazioni successive a partire dalla stessa immagine sorgente. Si carica o si genera un’immagine, e si chiedono modifiche in linguaggio naturale, cambia lo sfondo, togli la persona sulla destra, trasforma il giorno in notte, ogni modifica produce una nuova versione e il workspace mantiene la storia delle iterazioni. Per il marketing serve a produrre varianti per A/B test, social, landing page senza passare ogni volta dal design team per modifiche minori, per il design diventa uno sketchbook collaborativo, per la comunicazione interna permette di personalizzare template senza competenze grafiche. La qualitร  di Nano Banana Pro รจ alta sulle modifiche iterative dello stesso soggetto, meno costante quando si chiede una composizione completamente nuova, quindi conviene trattarlo come strumento di editing piรน che di creazione, affidando le brand asset di valore alto a designer professionisti.

C’รจ un tratto che accomuna gli scenari di squadra, e vale la pena fissarlo. Il valore di Manus per i team non sta nella sostituzione del lavoro umano, sta nella riduzione del tempo morto tra una decisione e la sua materializzazione. Cambia il throughput del processo creativo o produttivo, non la qualitร  finale dell’output, che resta dipendente dalla professionalitร  di chi lavora. Per aziende dove il time-to-market dei contenuti o delle materializzazioni visuali รจ un fattore competitivo, รจ una differenza che si misura in giornate di lavoro recuperate ogni settimana.

API e Custom MCP Server: integrare l’agente nei sistemi aziendali

C’รจ una fascia di lettori per cui usare Manus come prodotto finito non basta. Sono i CTO, gli IT manager, i lead developer che devono valutare se e come integrarlo dentro flussi esistenti, sopra database proprietari, dentro pipeline che girano su altri stack. Per questi profili la domanda non รจ come si usa Manus, รจ come si costruisce qualcosa con Manus. Due strade complementari, l’API per integrazioni server-to-server e i Custom MCP Server per esporre i sistemi interni all’agente.

L’API Manus permette a un sistema esterno di lanciare task sull’agente, ricevere risultati, gestire l’esecuzione in modo programmatico. La logica รจ quella di qualunque API moderna, chiave di accesso, endpoint, JSON in input e output, gestione asincrona dei task lunghi. Un caveat onesto: la documentazione tecnica sull’API รจ ancora in consolidamento e non ha la completezza di provider piรน maturi come OpenAI o Anthropic. Una guida su Skywork che ha analizzato pattern di integrazione con Stripe, Slack, Notion e Google Sheets nota che Manus si concentra sulla generazione rapida di app complete ma non documenta pubblicamente un developer SDK, un marketplace di plugin o un framework webhook strutturato. In pratica le integrazioni oggi si fanno in due modi, tramite middleware costruito ad hoc che riceve eventi dai propri sistemi e li traduce in chiamate Manus, oppure tramite polling per i servizi senza webhook affidabili. Entrambi richiedono uno sviluppatore esperto, e nessuno dei due รจ plug-and-play come l’esperienza dei Connectors nativi.

I Custom MCP Server fanno l’opposto: permettono a Manus di chiamare i sistemi aziendali interni come se fossero strumenti standard. Per le aziende strutturate รจ la direzione piรน potente, perchรฉ evita il problema della completezza dell’API e sfrutta lo standard aperto MCP. Si costruisce un server, ospitabile in cloud privato, on-premise o hybrid, che espone una serie di tool al protocollo, ognuno con un nome, una descrizione, parametri tipizzati, e un’implementazione che parla con i sistemi interni, per esempio “trova cliente per codice fiscale”, “estrai ultime fatture”, “aggiorna stato pratica”, “verifica disponibilitร  magazzino”. Si configura Manus per usare il server, e da quel momento l’agente opera sui sistemi proprietari dentro qualunque task autonomo. La documentazione integrazioni di Manus indica proprio questa possibilitร  di esporre CRM interni, database, API legacy in modo nativo. Per chi conosce il pattern del tool function calling negli LLM tradizionali, รจ la stessa cosa elevata a protocollo aperto e portabile, dove il server scritto per Manus puรฒ in linea di principio essere usato da altri agenti compatibili MCP, evitando il lock-in tecnologico.

Tre pattern ricorrono nelle integrazioni serie. Il ticket-enrichment, dove un sistema di ticketing genera un ticket, un trigger chiama Manus che con un Custom MCP Server sul CRM interno analizza il contenuto, identifica il cliente, recupera lo storico, classifica la richiesta, propone una prioritร  e un primo draft di risposta, e il ticket arricchito torna all’operatore umano con contesto giร  pronto. Il monitoring-and-routing, dove una pipeline di ingestion raccoglie input eterogenei e un task Manus li classifica, identifica i casi che richiedono attenzione umana, indirizza gli altri verso processi automatici, lo smistamento intelligente che dieci anni fa richiedeva regole if-then complesse. Il report-and-distribute, dove un task pianificato genera report periodici partendo da CRM, ERP, BI, li compone in documenti formattati, li distribuisce via email, Slack, Notion, una sostituzione credibile di parte del lavoro che oggi fanno manualmente i business analyst.

Tre temi tecnici vanno affrontati prima dello sviluppo. Webhook e polling sono i due modelli per la reattivitร , i webhook efficienti ma con endpoint pubblici e gestione delle retry, il polling piรน semplice ma con latenza e carico costante, e nella maggior parte dei casi conviene un layer ibrido. La gestione delle credenziali รจ il punto sensibile, perchรฉ con i Custom MCP Server le credenziali ai sistemi interni vivono nel server stesso, che diventa il punto critico di sicurezza, da isolare in rete dedicata, con credentials manager come Vault o i secrets manager cloud, con rotazione regolare e log di ogni accesso. L’idempotenza รจ il terzo, perchรฉ un task Manus puรฒ essere ritentato dopo errore o ricevere lo stesso input due volte, e i tool esposti devono produrre lo stesso risultato se chiamati due volte con gli stessi parametri, evitando doppie scritture. Sulla scelta tra costruire e comprare, il criterio รจ quello classico: si costruisce custom quando ci sono sistemi proprietari unici, requisiti di sicurezza specifici, volumi che ammortizzano lo sviluppo, e si compra il prodotto quando il caso d’uso รจ coperto dai Connectors nativi e il team non ha competenze per mantenere integrazioni custom. La variante intermedia piรน frequente รจ “buy the platform, build the connectors”, Manus come piattaforma chiavi in mano per il novanta per cento dei casi standard e un Custom MCP Server dedicato per i sistemi proprietari critici.

Adozione enterprise: governance, sicurezza, costi, proprietร 

Un decisore che ha capito cosa fa il prodotto si trova davanti alle domande che contano quando si passa da “uno sperimenta nel team” a “lo adottiamo come strumento aziendale”. Quanto costa su scala team, quali garanzie di sicurezza offre, dove finiscono i dati, qual รจ il contesto di proprietร  e governance, quando vale la pena e quando no.

Su scala team la logica di Manus AI รจ la stessa degli utenti individuali, con dinamiche di scala da comprendere. Il piano Team parte da venti dollari al mese per seat con un minimo di due membri, e introduce workspace condiviso, single sign-on, funzionalitร  di amministrazione, una pool di crediti gestita collettivamente. Per un’azienda con dieci utilizzatori attivi il costo base รจ duecento dollari al mese, piรน gli eventuali add-on per i picchi. Il calcolo che conta รจ quello dei crediti, non quello del seat, perchรฉ i casi piรน costosi, Wide Research, Cloud Computer attivo, task autonomi lunghi, concentrano buona parte del budget se non si stabilisce una disciplina interna. I crediti mensili non si accumulano, quelli da add-on restano finchรฉ l’abbonamento รจ attivo, e questa asimmetria spinge a una calibrazione fine, meglio un piano leggermente sotto il fabbisogno medio integrato con add-on quando serve, che un piano sovradimensionato che spreca crediti ogni mese.

Tre limiti operativi impattano l’organizzazione. Il limite di task concorrenti, uno solo sul gratuito, venti su Pro, scalabile con i seat ma con un tetto sul Team, che emerge quando un team di otto persone tenta di lanciare ognuno un Wide Research nello stesso pomeriggio e alcuni restano in coda. Il limite di Scheduled Tasks attivi, dove la disciplina di tenere pochi task ben fatti รจ anche un’auto-limitazione virtuosa. Il limite di Wide Research, dove le sessioni hanno durate massime e i crediti possono saturare il budget mensile, tanto che per team con bisogno frequente di dossier il piano top da duecento dollari diventa quello sostenibile.

Su sicurezza, data residency e audit trail Manus ha una maturitร  intermedia, i meccanismi di base ci sono ma la documentazione enterprise non รจ ancora al livello dei provider piรน consolidati. Tutto ciรฒ che passa per la sandbox cloud, file caricati, contenuti delle conversazioni, output prodotti, viene processato dalla piattaforma, e per dati non particolarmente sensibili รจ coerente con qualunque SaaS moderno. Per dati regolamentati, categorie particolari GDPR, segreto bancario, dati sanitari, classificati pubblici, questa รจ la prima asimmetria da considerare, perchรฉ Manus non รจ oggi un prodotto certificato per la gestione di dati ad alta sensibilitร , e per questi scenari va verificato puntualmente cosa il proprio framework di compliance consente. Sulla data residency, l’infrastruttura sottostante gira su provider cloud americani, e per aziende italiane ed europee in PA centrale o in settori finanziari di rilevanza sistemica, con vincoli espliciti di sovranitร  del dato, questo รจ un nodo da valutare caso per caso. Per la maggior parte delle aziende private il framework di trasferimento internazionale copre adeguatamente, ma l’analisi va documentata formalmente. Sull’audit trail il prodotto registra conversazioni ed esecuzioni e offre l’accesso alla cronologia, sufficiente per l’accountability interna, mentre per audit formali le funzionalitร  avanzate come log immutabili, export strutturato, integrazione SIEM, sono in consolidamento e vanno verificate con il vendor.

C’รจ poi un punto di proprietร  e governance del prodotto che merita di essere riportato con precisione, perchรฉ si รจ mosso parecchio negli ultimi mesi. Manus nasce da Butterfly Effect, societร  fondata in Cina con radici a Pechino e Wuhan, poi reincorporata a Singapore nel 2025. A dicembre 2025 Meta ha annunciato l’acquisizione di Manus, riportata intorno ai due miliardi di dollari, dichiarando che avrebbe accelerato l’innovazione AI per i propri prodotti consumer ed enterprise. L’operazione ha attratto scrutinio sia negli Stati Uniti sia in Cina, e il 27 aprile 2026 la National Development and Reform Commission cinese ha bloccato l’acquisizione, chiedendo alle parti di annullarla, in una mossa che la stampa internazionale ha collegato alle preoccupazioni di Pechino sul trasferimento di tecnologia avanzata e talento. Meta ha risposto che la transazione era pienamente conforme alle leggi applicabili e che si attende una risoluzione appropriata della questione. Allo stato attuale lo scenario resta aperto e non del tutto chiarito, anche perchรฉ parte del personale risultava giร  integrato nei team Meta. Per le aziende che valutano l’adozione il punto non รจ prendere posizione su una vicenda geopolitica, รจ registrare che il prodotto attraversa una fase di evoluzione e incertezza societaria, con i lati positivi degli investimenti continui e i lati di consapevolezza sui possibili cambiamenti di pricing e di policy. Per settori con vincoli stringenti sulla provenienza geografica dei fornitori cloud, PA centrale, difesa, sanitร , banking sistemico, questo va verificato con le funzioni di compliance interne, mentre per il resto del mercato privato il tema รจ meno stringente di quanto a volte appaia.

La griglia decisionale: quando Manus AI รจ la scelta giusta

Resta da mettere insieme tutto in criteri sintetici, da combinare con il contesto specifico di ogni azienda. La domanda preliminare, prima ancora di aprire l’account, riguarda il proprio flusso di lavoro: ha task multi-passo che oggi vengono eseguiti a mano per mancanza di alternative, oppure รจ giร  strutturato intorno a strumenti specializzati che coprono ogni segmento?

Una griglia grossolana ma utile parte dal tempo. Se il task richiede meno di cinque minuti di lavoro umano, Manus รจ un’overkill costosa ed รจ meglio un assistente conversazionale. Se richiede tra cinque minuti e un’ora, e attraversa piรน strumenti o piรน fonti, Manus puรฒ essere la scelta giusta. Se richiede piรน di un’ora di lavoro complesso ma altamente strutturato, vale la pena valutare se non sia piรน adatto a una pipeline costruita con API e tooling dedicato. Manus รจ la scelta giusta quando l’azienda ha bisogno regolare di task multi-passo oggi eseguiti a mano, quando il team ha competenze digitali medio-alte e puรฒ investire un mese o due nella curva di apprendimento, quando i casi d’uso prevalenti riguardano ricerca approfondita, generazione di documenti formattati, monitoraggio continuo, supporto a customer operations e sales, e quando i dati toccati non sono in fasce di sensibilitร  elevata oppure si รจ disposti a costruire un Custom MCP Server che isoli il perimetro.

รˆ invece da rivalutare con attenzione quando l’azienda opera in settori altamente regolati con vincoli di sovranitร  del dato espliciti, quando il team non ha la disponibilitร  per investire nella curva di apprendimento e cerca un tool da accendere e usare, quando i casi d’uso sono prevalentemente conversazionali e iterativi, per i quali un assistente tradizionale รจ piรน adatto, e quando il budget รจ strutturalmente sotto i venti dollari mensili per utente, perchรฉ il modello a crediti rende il piano gratuito limitante per un uso professionale serio.

In molti casi reali la risposta sta nel mezzo, ed รจ una valutazione sfumata che conviene chiudere con un pilot strutturato, un trimestre di prova con un team ristretto di tre o cinque power user, obiettivi misurabili sul tempo umano risparmiato e sulla qualitร  degli output, e una decisione formale a fine trimestre se estendere all’organizzazione o fermarsi. รˆ l’approccio che evita sia il rifiuto pregiudiziale sia l’adesione entusiastica non sostenibile, ed รจ quello che la maggior parte delle aziende che adottano con successo nuovi tool AI sta usando in questa fase. C’รจ anche un criterio organizzativo che vedo spesso sottovalutato: le aziende che adottano Manus con successo sono quelle che dedicano una persona o un piccolo team alla curva di apprendimento iniziale, prima di estendere l’uso al resto dell’organizzazione, perchรฉ lanciarlo dall’alto come tool generalista, senza un nucleo di power user che sviluppi pattern riconoscibili, tende a produrre frustrazione e abbandono.

Tutto questo ragionamento, dalla scelta del modello fino all’architettura di governance, รจ esattamente il tipo di valutazione che mi capita di affiancare quando un’azienda mi chiede un assessment sulla propria adozione AI. Se Manus entra in un disegno piรน ampio di sovranitร  del dato e infrastruttura interna, vale la pena leggerlo insieme alle scelte di stack che ho raccontato altrove, dal perchรฉ Mistral รจ diventata la scelta enterprise piรน seria d’Europa per chi vuole l’AI dentro il proprio perimetro, fino a cosa cambia per il GDPR quando un dato esce dall’azienda e si appoggia a una piattaforma esterna come Manus. In Pelle Digitale ho provato a descrivere come l’interfaccia digitale media il nostro rapporto con il lavoro e con noi stessi, e un agente autonomo come Manus รจ il caso limite di questa mediazione, uno strumento che non risponde piรน soltanto, agisce. Per una conversazione diretta sul vostro caso specifico c’รจ la pagina Advisory.

A inizio percorso lasciavo aperta una domanda, e la richiudo qui dopo aver attraversato tutto il prodotto. Aprire un account, dedicare due settimane all’esperimento concreto, scegliere tre task realistici del proprio lavoro e provarli con la disciplina vista in queste pagine, perchรฉ la risposta sul valore di Manus per il proprio contesto arriva solo dall’esperienza diretta e nessuna guida puรฒ sostituirla. Senza dubbio รจ in quella prova concreta che si gioca la differenza tra chi avrร  cavalcato l’onda degli agenti autonomi e chi la guarderร  passare?

Leggi anche: ecosistema di AI privata