Modelli Mistral 2026: guida operativa per scegliere

Tra dicembre 2025 e aprile 2026, Mistral ha rilasciato Large 3, Magistral 1.2 in due taglie, Devstral 2 più la versione Small, Mistral Small 4, la nuova famiglia Ministral 3 in tre dimensioni, Codestral 25.08, Codestral Embed, Voxtral per l’audio, Mistral Medium 3.5. A spanne, undici modelli in cinque mesi, con nomi che a chi non segue il settore quotidianamente sembrano scelti per confondere. Quale ti serve davvero dipende dal carico che vuoi spostare, e la risposta cambia molto tra “assistente interno per duecento dipendenti” e “agente di coding autonomo nel terminale”.

Questa è la mappa che uso quando un’azienda mi chiede di capire l’ecosistema Mistral prima di una decisione di acquisto. Niente classifiche universali, niente “il migliore di tutti”: ogni modello vince in uno scenario specifico, e la scelta diventa banale una volta che hai chiaro il caso d’uso. Per il contesto strategico su perché un’azienda italiana dovrebbe guardare Mistral prima degli altri, c’è la guida pillar sulla scelta enterprise. Qui scendiamo nei singoli modelli.

La mappa dei modelli del 2026

Tre famiglie principali, ognuna con una funzione precisa, più due linee verticali specializzate.

Le famiglie generaliste sono tre: Mistral Large 3 (flagship MoE, ammiraglia di gamma), Mistral Medium 3.5 (dense, ottimizzato per self-hosting e workload agentici), Mistral Small 4 (modello unificato reasoning più visione più coding). Tre opzioni che coprono i casi d’uso generici dal più pesante al più leggero.

La linea reasoning è Magistral 1.2, in due taglie: Magistral Medium per l’enterprise, Magistral Small per il self-hosting permissivo. Si chiama in causa quando il task richiede chain-of-thought esplicito: dimostrazioni matematiche, analisi logiche multi-passo, problemi di programmazione algoritmica.

La linea coding è doppia. Devstral 2 (123B parametri) e Devstral Small 2 (24B) per il coding agentico autonomo, Codestral 25.08 e Codestral Embed per l’autocompletamento in IDE e l’embedding di repository.

La linea edge è Ministral 3 in tre tagli (3B, 8B, 14B parametri), pensata per girare su dispositivi: telefoni, edge gateway, sistemi embedded.

La linea multimodale è Voxtral per audio, text-to-speech e trascrizione, recentemente uscita open-weight con dimensioni che permettono il deploy su smartphone.

Tutti i modelli flagship sono rilasciati sotto Apache 2.0 o licenze permissive equivalenti, con l’unica eccezione di Devstral 2 (Modified MIT, che resta open-source ma con qualche clausola in più). I pesi sono pubblicamente scaricabili, il self-hosting funziona davvero, le API La Plateforme sono un’opzione aggiuntiva ma non l’unica.

Mistral Large 3: l’ammiraglia per i carichi generalisti più pesanti

Large 3 è il modello flagship rilasciato a dicembre 2025 con il codename mistral-large-2512. Architettura Mixture of Experts da 675 miliardi di parametri totali, di cui 41 miliardi attivi a ogni inferenza. Tradotto in operativo: la qualità di output di un modello da 675B con il costo computazionale di un modello da 41B, perché il MoE attiva solo gli esperti rilevanti per ogni token.

Sui benchmark indipendenti, secondo le valutazioni LayerLens/Atlas, Large 3 raggiunge il 73,11% su MMLU-Pro e il 93,60% su MATH-500. È debuttato al secondo posto nella categoria open-source non-reasoning di LMArena. Numeri che lo mettono nella stessa fascia di qualità di GPT-4.1 e Claude Sonnet 4.6 per i task generalisti, con un costo per token sull’output che è circa 60% sotto Claude e 40% sotto GPT-4.1 a parità di volume.

Quando ha senso. Carichi di analisi documentale lunga, ragionamenti complessi su contesti misti, generazione di contenuti tecnici lunghi, supporto a decision-making aziendale che richiede capacità di sintesi su corpus eterogenei. È il modello che metti via API La Plateforme quando il task è abbastanza complesso da non poter essere delegato a Medium o Small, ma non così specialistico da richiedere Magistral.

Quando non ha senso. Self-hosting on-premise, perché l’infrastruttura per servire un MoE da 675B richiede otto GPU H200 in cluster, configurazione che fa salire l’investimento iniziale oltre il milione di euro e che ha senso solo per organizzazioni che processano milioni di richieste al giorno. Per chi vuole self-hosting il modello giusto è Medium 3.5, vedi sotto.

Il contesto è 128K token, in linea con GPT-5 e Claude per la versione standard. Non è il modello con la finestra più ampia (DeepSeek V4 e GPT-5.4 offrono 1M), ma per la quasi totalità dei casi enterprise 128K bastano. Quando non bastano, di solito il problema è di architettura del prompt, non di limite del modello.

Mistral Medium 3.5: il modello pensato apposta per il self-hosting enterprise

Medium 3.5 è uscito il 29 aprile 2026, ed è probabilmente il modello più importante della famiglia per il contesto italiano. Architettura dense (non MoE), dimensione tale da girare su due o tre GPU NVIDIA H200, ottimizzato esplicitamente per workload agentici e coding, comportamento più prevedibile dei MoE.

La parola chiave è “prevedibile”. Quando un MoE come Large 3 viene messo in self-hosting, il routing degli esperti introduce una varianza che complica il dimensionamento dell’infrastruttura, la calibrazione del rate limiting, la gestione della latenza percepita. Su un modello dense come Medium 3.5 questi problemi spariscono: ogni richiesta usa tutti i parametri del modello, la latenza è costante, l’infrastruttura è più semplice da governare.

Per un CIO che sta dimensionando un self-hosting on-premise in una banca o in un gruppo manifatturiero, questa prevedibilità vale più di qualche punto percentuale in più sui benchmark. Significa contratti di SLA che si possono firmare, capacity planning che funziona, ops engineering che non passa metà del tempo a debuggare comportamenti inattesi.

Quando ha senso. Self-hosting on-premise come modello principale aziendale, workload agentici con tool use intensivo, integrazione con LocalAI o stack on-premise simili. È il modello che vedo più spesso scelto come default nei progetti enterprise italiani.

Quando non ha senso. Carichi consumer ad altissimo volume dove conta il prezzo al token assoluto: in quel caso Small 4 o Ministral sono più economici. Task di reasoning estremo: meglio Magistral 1.2.

Mistral Small 4: l’unificazione del marzo 2026

Small 4 è uscito il 16 marzo 2026 con un’idea precisa: prendere tre modelli precedenti (Magistral per il reasoning, Pixtral per il multimodale, Devstral per il coding agentico) e fonderli in un unico sistema che faccia tutte e tre le cose decentemente, invece di richiedere tre modelli separati con tre integrazioni diverse.

Contesto 262K token, prezzo La Plateforme a 0,15 dollari per milione di token in input e 0,60 in output. È il modello più economico della fascia “qualità decente” di Mistral, e l’unificazione delle capability significa che si può usare come workhorse per la maggior parte dei task aziendali medi.

Quando ha senso. Il caso d’uso più ricorrente è l’assistente aziendale interno per medie aziende, dove serve un modello che capisca testo, immagini, codice senza dover orchestrare modelli diversi a seconda del task. Anche carichi di chatbot, customer support assistito, analisi documentale di medio livello.

Quando non ha senso. Carichi che richiedono il massimo della qualità su una singola dimensione: Large 3 batte Small 4 sul reasoning generico, Magistral 1.2 lo batte sul reasoning specialistico, Devstral 2 lo batte sul coding agentico autonomo. Small 4 è la scelta giusta quando il valore è nella semplicità architetturale, non nella performance di picco.

Magistral 1.2: la linea reasoning, Medium e Small

Magistral è la famiglia di reasoning models di Mistral, equivalente concettuale di OpenAI o3 e o4. Versione 1.2 rilasciata a settembre 2025 con i codename magistral-medium-2509 e magistral-small-2509. Due varianti: Medium per l’enterprise via API, Small (24B parametri) sotto Apache 2.0 per il self-hosting.

La caratteristica distintiva è la modalità “Flash Answers”, che permette di alternare tra inferenza standard (veloce) e chain-of-thought esplicito (più lento ma con tracciamento del ragionamento). Per task come dimostrazioni matematiche, problem-solving algoritmico, analisi giuridica multi-passo, l’output diventa interpretabile, e questo è un vantaggio enorme quando devi giustificare una decisione assistita da AI in un contesto regolato.

Sui benchmark di pura matematica OpenAI o3 mantiene un margine, ma il prezzo per token su Magistral è significativamente più basso e la latenza in Flash mode è competitiva. Magistral Small è particolarmente interessante: 24 miliardi di parametri, Apache 2.0, gira su una singola GPU H100, ed è quindi il modello di reasoning self-hostable più capace disponibile a giugno 2026.

Quando ha senso. Compliance finanziaria con tracciamento del ragionamento, supporto a decisioni in settori regolati dove l’audit trail è obbligatorio, problem-solving algoritmico, supporto alla redazione giuridica con catena logica esplicita. In tutti questi casi il chain-of-thought tracciabile vale più della pura performance bruta.

Quando non ha senso. Carichi conversazionali generici dove il reasoning esplicito introduce latenza inutile. Per quello c’è Large 3 o Medium 3.5.

Devstral 2 e Codestral: la linea coding

Devstral 2 è uscito a dicembre 2025 insieme alla CLI Mistral Vibe. È il modello coding agentico flagship: 123 miliardi di parametri dense, contesto 256K, raggiunge il 72,2% su SWE-bench Verified secondo Mistral. Per dare un riferimento, è uno dei migliori modelli open-weight per coding autonomo disponibili oggi, e secondo i dati Mistral è “fino a 7 volte più cost-efficient di Claude Sonnet sui task reali”, secondo l’annuncio ufficiale del rilascio.

C’è anche Devstral Small 2 a 24 miliardi di parametri, sotto licenza Apache 2.0, che gira su una singola GPU di fascia consumer-pro. La combinazione Devstral 2 più Vibe CLI è la risposta Mistral a Claude Code di Anthropic: agente di coding che gira nel terminale dello sviluppatore, capace di esplorare codebase, modificare file multipli mantenendo coerenza architetturale, fare debugging iterativo, gestire dipendenze framework.

Codestral è la linea complementare. Codestral 25.08 (codice codestral-2508) è il modello da 22B parametri specializzato in autocompletamento IDE con supporto nativo Fill-in-the-Middle, contesto 256K, ottimizzato per integrazioni JetBrains, VS Code, LangChain. Codestral Embed è invece il modello specifico per generare embedding di codice, utile per indicizzare repository e costruire knowledge base di codice aziendale.

Quando usare cosa. Devstral 2 con Vibe CLI per il coding agentico autonomo, cioè per l’agente che scrive feature complete partendo da una specifica. Codestral 25.08 per l’autocompletamento intelligente dentro IDE durante lo sviluppo manuale. Codestral Embed per indicizzare codebase aziendali e fare retrieval. Tre strumenti complementari, non alternativi.

Ministral 3: la linea edge per dispositivo

Ministral 3, rilasciato a dicembre 2025 insieme a Large 3, è la famiglia “minuscola” pensata per il deploy su dispositivo. Tre taglie: 3 miliardi di parametri, 8 miliardi, 14 miliardi. La 3B gira su uno smartphone, la 14B su un laptop di fascia alta.

Casi d’uso italiani concreti dove l’ho visto applicato. Industria 4.0 con macchinari offline che devono fare diagnostica locale senza connettività garantita, retail con POS che fanno traduzione real-time in più lingue senza chiamare API esterne, settore field service con tecnici che lavorano in cantieri o impianti remoti. In tutti questi scenari Ministral risolve il problema della “AI senza rete”, che con i modelli cloud non si chiude.

Per dare un’idea dei costi: Ministral 3B via La Plateforme costa circa 0,04-0,10 dollari per milione di token, a seconda della versione, il che lo rende uno dei modelli più economici del mercato. In self-hosting, gira gratis su hardware che già hai.

Voxtral: la linea audio

Voxtral è la famiglia audio uscita open-weight a marzo 2026, dimensioni che vanno dal modello da 24 miliardi per uso server fino a varianti compresse che girano su smartphone. Trascrizione, traduzione audio-to-audio, sintesi vocale, comprensione di audio complesso.

Per il contesto enterprise italiano è ancora una linea di nicchia, ma vale la pena tenerla in radar per casi specifici: contact center con trascrizione automatica delle chiamate, sanità con dettatura medica multilingua, accessibilità per servizi PA.

Italiano e multilingua: il discriminante che non viene dai benchmark

I benchmark MMLU e simili sono quasi tutti in inglese. Un modello che fa 92% su MMLU in inglese può fare 78% sul corrispondente italiano. Per chi costruisce assistenti interni in lingua italiana, questa differenza si sente nella qualità delle risposte, e Mistral parte avvantaggiata.

Il motivo è strutturale. Mistral è francese, addestra su corpus europei multilingua fin dalla prima versione, e l’italiano è una delle lingue di confine principali nei dataset di training continentali. Llama 3.3 ha colmato il gap su italiano generico, ma resta sotto Mistral sulla terminologia legale (clausole contrattuali, riferimenti normativi italiani), su quella finanziaria (regolamentazione Consob, normativa bancaria specifica), su quella tecnico-industriale (manuali di processo italiani, certificazioni di settore). Qwen e DeepSeek sono buoni sull’italiano generico ma introducono calchi grammaticali dal cinese che un madrelingua riconosce nei testi lunghi.

Per un’azienda italiana che costruisce un assistente interno destinato a colleghi italiani, questa è la differenza tra un agente che “sembra italiano” e uno che è italiano. Per il confronto sistematico tra le quattro famiglie open-weight principali, ho già pubblicato un confronto operativo Mistral vs Llama vs Qwen vs DeepSeek che entra nel dettaglio delle valutazioni per il mercato italiano.

La griglia di scelta operativa

Per chiudere, la griglia che uso quando un’azienda mi chiede “quale modello Mistral usiamo”.

Se il caso d’uso è un assistente interno generico per uso quotidiano dei dipendenti, Mistral Medium 3.5 self-hosted è la scelta default. Performance ottime, prevedibilità infrastrutturale, costo controllato a tre anni.

Se sono carichi esplorativi o sperimentali a basso volume in cloud, Mistral Large 3 via API La Plateforme. Massima qualità, paghi solo quello che usi.

Se è un workhorse multimodale a basso costo per volumi alti, Mistral Small 4 via API. È il rapporto qualità/prezzo migliore della famiglia per applicazioni mainstream.

Se serve reasoning tracciabile in settori regolati, Magistral Medium 1.2 via API, oppure Magistral Small in self-hosting se il volume giustifica l’infrastruttura.

Se è un agente di coding per il team dev, Devstral 2 con Vibe CLI. Se è autocompletamento dentro l’IDE, Codestral 25.08.

Se è un’applicazione che deve girare su dispositivo o offline, Ministral 3 nella taglia adatta all’hardware target.

Se è audio, Voxtral, sapendo che la linea è ancora in maturazione.

Questa mappa funziona per la maggior parte dei casi enterprise, ma le scelte vere si fanno sui dettagli: volumi di richiesta giornaliera, latenza accettabile, vincoli infrastrutturali esistenti, competenze MLOps disponibili, profilo di rischio del settore. Quello che funziona per una banca da mille dipendenti non funziona per una manifatturiera da trecento, anche se entrambe partono dal “vogliamo Mistral”.

È il tipo di scelta tecnica che mi capita di affiancare nei progetti di assessment AI aziendale: capire quale combinazione di modelli regge il caso d’uso reale, evitando di pagare la complessità di un Large 3 quando basta Medium 3.5, o di scoprire troppo tardi che il task richiedeva Magistral. Se stai facendo questa valutazione per la tua organizzazione, puoi scrivermi per discuterne.

Per la parte di come acquistare e quanto costa davvero, dall’API a La Plateforme fino al self-hosting on-premise con Forge, c’è la guida dedicata su API, self-hosting, Forge in azienda.