Tre anni fa, “far girare un LLM in locale” significava possedere una workstation con due NVIDIA H100, sapere cosa fosse vLLM, e accettare che il tutto sarebbe stato comunque più lento e meno preciso di una qualsiasi chiamata API a GPT-4. Era un esercizio da ricercatori, da appassionati, da aziende con budget infrastrutturali serissimi.
Nel 2026 il quadro è cambiato. Un Mac Mini M4 Pro da 1.799 euro fa girare Llama 3.3 70B a quantizzazione aggressiva, a 5-10 tokens al secondo, sufficiente per la quasi totalità dei task aziendali batch. Un Mac Studio M4 Max a 4.000 euro arriva a 30-45 tok/s sui modelli da 70B. Una workstation NVIDIA con RTX 5090 supera i 100 tok/s. E sotto, una nuova categoria di mini PC ottimizzati per AI sta emergendo come alternativa serissima, con NVIDIA DGX Spark, AMD Strix Halo, Framework Desktop.
Da quando ho cofondato LocalAI.io mi capita ogni settimana di rispondere alla stessa domanda da CTO italiani: “Quale hardware per LLM locale mi serve per cominciare?”. La risposta dipende da tre variabili che vanno tenute insieme, e che voglio provare a smontare in questo articolo: che modelli volete far girare, quanti utenti simultanei dovete servire, quanto budget e quanto tempo siete disposti a investire nell’ops.
Cosa determina davvero la velocità di un LLM in locale
C’è una metrica che vale più di tutte le altre quando si parla di inferenza LLM: la banda di memoria. Non la potenza di calcolo, non i TFLOPS, non i CUDA cores. È la banda con cui il chip riesce a leggere i pesi del modello dalla memoria, perché generare un token nuovo richiede di leggere TUTTI i pesi del modello, ogni volta. Un modello da 70 miliardi di parametri quantizzato a 4 bit pesa 35-40 GB, e ogni token generato è una passata completa di quei 40 GB.
Su questo dato si gioca la partita fra Apple Silicon e NVIDIA. Una RTX 4090 ha 1.008 GB/s di banda di memoria. Un M4 Max arriva a 546 GB/s, un M4 Pro a 273 GB/s, un M4 base a 120 GB/s. Significa che, modello per modello, NVIDIA è 2-3 volte più veloce di Apple Silicon top di gamma sui token al secondo. Però Apple Silicon ha un asso che NVIDIA non ha: la memoria unificata. Un Mac Studio M4 Max con 128 GB di RAM unificata fa girare modelli che non entrano in nessuna GPU consumer NVIDIA, neanche la 5090 da 32 GB. Per le aziende che vogliono lavorare con modelli da 70B in alto, Apple resta spesso l’unica opzione consumer.
Una nota di realismo importante. Apple sta arrivando con M5 Max e M5 Ultra previsti per fine 2026 con banda di memoria che dovrebbe superare 1 TB/s e tensor core FP8 nativi nel Neural Engine. Se le anticipazioni reggono, il gap di throughput per token con NVIDIA H100 si chiuderà quasi del tutto sull’inferenza, e l’asso della memoria unificata resterà comunque sul tavolo.
Quattro fasce hardware e cosa ci fate dentro
Provo a mappare quattro fasce di setup, dalla più accessibile alla più seria, con i numeri reali di throughput misurati con LLMCheck e altre fonti pubbliche aggiornate a maggio 2026.
Fascia 1: laptop e Mac Mini base, sotto i 1.000 euro. Un MacBook Air M2/M3 con 16 GB, un Mac Mini M4 base 16 GB, un mini PC NUC con CPU recente e 32 GB RAM. Modelli che ci girano bene: Phi-5 Mini, Llama 3.2 3B, Qwen 2.5 7B in quantizzazione Q4. Velocità tipica 40-80 tok/s sui modelli piccoli. Adatto a sperimentare, fare RAG su piccoli corpus documentali, sviluppare prototipi. Non adatto a produzione aziendale seria, non adatto a servire più utenti simultanei.
Fascia 2: workstation singolo utente, 1.500-3.000 euro. Mac Mini M4 Pro 24 GB o 48 GB. PC desktop con RTX 4070/4080. Modelli che girano: Llama 3.3 14B, Mistral Small, Qwen 4 32B-A3B (modello MoE con 3B parametri attivi, eccellente rapporto qualità/velocità sul Mac), Gemma 4 26B. Velocità tipica 25-55 tok/s sui modelli 14-32B. Adatto a uno sviluppatore singolo, a piccolo team che condivide, a applicazioni interne con pochi utenti. Il Mac Mini M4 Pro 48 GB a 1.799 euro è il punto di equilibrio prezzo-prestazioni che consiglio più spesso oggi a chi inizia.
Fascia 3: workstation potente, 4.000-7.000 euro. Mac Studio M4 Max con 64 GB o 128 GB. PC desktop con RTX 4090 o 5090 (32 GB VRAM). Modelli che girano: Llama 3.3 70B Q4 a 30-45 tok/s sul Mac Studio, Qwen 4 70B, DeepSeek R2 in versione compressa. Adatto a produzione interna seria su 10-50 utenti, a serving di applicazioni RAG complesse, a fine-tuning leggero. È la fascia dove Apple Silicon vince per memoria, NVIDIA vince per pura velocità, e la scelta dipende molto dal vostro mix specifico di modelli e workload.
Fascia 4: server-class, 15.000 euro in su. Mac Studio M3 Ultra con 256 GB (per workload memoria-bound). Server NVIDIA con due o quattro RTX 5090 in parallelo, oppure singola H100 da 80 GB. Apple offre DGX Spark, NVIDIA i sistemi DGX. Adatto a piccole-medie aziende che vogliono servire il proprio strato AI internamente a centinaia di utenti, a fine-tuning serio, a training di modelli specializzati piccoli. È la zona dove il ragionamento smette di essere consumer-DIY e diventa decisione infrastrutturale aziendale, con tutto quello che comporta in termini di networking, raffreddamento, alimentazione, backup.
Una scelta concreta per ogni profilo aziendale
Vorrei provare a passare dalle tabelle astratte a tre scenari aziendali che ho visto in concreto negli ultimi mesi, e dire cosa consiglierei in ciascuno.
Studio professionale, 10-30 dipendenti, vuole fare AI privata per RAG su documenti interni. Mac Mini M4 Pro 48 GB, modello Llama 3.3 14B o Qwen 4 32B-A3B. Costo totale 1.800 euro una tantum più il tempo di setup. Stack: Ollama come motore di inferenza, LocalAI come gateway compatibile OpenAI, un vector database come Qdrant in Docker per il RAG. Tempo medio di setup completo: una giornata di lavoro per uno sviluppatore che sa cosa fa. Sufficiente per 5-15 utenti simultanei con interazioni occasionali, non per una chat sempre attiva di 30 persone.
Azienda manifatturiera, 100-300 dipendenti, vuole un agente AI interno con accesso a documenti tecnici e gestionale. Mac Studio M4 Max 128 GB, modello Llama 3.3 70B Q4. Costo totale 4.000-5.000 euro hardware. Setup più articolato: LocalAI per orchestrare modelli multipli (uno per chat conversazionale, uno specializzato sui documenti tecnici), Qdrant o Weaviate per la memoria vettoriale, n8n o Make per le integrazioni con i sistemi aziendali. Tempo di setup completo realistico: una settimana di lavoro di un team da 2 persone. Capacità: 30-50 utenti simultanei.
Azienda servizi finanziari medio-piccola, 50-150 dipendenti, vuole un sistema AI con vincoli GDPR strettissimi. Qui non è solo hardware, è architettura completa. Server con 2x RTX 5090 o singola H100 in colocation italiana, modello Qwen 4 70B o Mistral Large, stack di sicurezza completo con SSO, audit log, segmentazione di rete. Costo hardware 20-30k euro, costo annuale di hosting e operations 30-50k. Setup: 4-6 settimane di lavoro di un team specializzato, magari con il supporto di chi conosce il dominio (qui entra il valore dell’advisory). Capacità: 100-300 utenti simultanei con alto livello di compliance.
Il problema dei costi nascosti
Le aziende che valutano l’AI privata guardando solo al costo dell’hardware sbagliano la metà del calcolo. L’altra metà sono tre voci che spesso non finiscono nei business case ma esistono comunque.
La prima è l’elettricità. Una RTX 5090 sotto carico consuma 575 watt. Un Mac Studio M4 Max si ferma a 130 watt. Su un anno di utilizzo continuativo, parliamo di una differenza di 1.500-2.000 euro l’anno solo di bolletta italiana. Il Mac è in questo molto più efficiente, ed è uno dei motivi per cui molte PMI italiane ci stanno arrivando.
La seconda è il tempo di setup e di manutenzione. Una RTX 5090 richiede driver CUDA, configurazione di vLLM o llama.cpp, tuning della quantizzazione, debugging di edge case su modelli specifici. Un Mac Mini con Ollama va da zero al primo prompt in dieci minuti. Per un’azienda piccola, il tempo del proprio sviluppatore è la voce più costosa di tutte: vale la pena pagarla anche 500 euro in più all’hardware se questo significa risparmiare due giorni di setup.
La terza è il rinnovo. L’hardware AI sta evolvendo velocemente. Un acquisto di oggi è probabilmente sostituibile entro 3 anni con qualcosa di significativamente meglio. Vale la pena pensare il setup in modo modulare, dove l’orchestrator (LocalAI), il vector DB, gli agenti, sono indipendenti dal motore di inferenza sottostante, così quando arriva la prossima generazione di chip si cambia solo quello.
Il software che fa la differenza
L’hardware è metà del lavoro. L’altra metà è lo stack software che ci gira sopra, ed è dove negli ultimi 12 mesi è cambiato tutto. Tre componenti vanno scelti bene fin dall’inizio.
Il motore di inferenza. Ollama è la scelta più semplice per cominciare, perfetto per Mac e PC, ha l’API compatibile OpenAI, supporta MLX su Apple Silicon dalla versione 0.5. Llama.cpp è la base sotto Ollama, più tecnico, dà più controllo. vLLM è per setup server seri con GPU NVIDIA, supporta batching e ha throughput superiore per più utenti. MLX è il framework Apple ottimizzato per Metal, può essere 30-50% più veloce di Ollama su Mac per alcuni modelli. La scelta dipende dal vostro hardware e dal team che dovrà manutenerlo.
L’orchestratore. Qui è dove entra LocalAI. Senza un orchestratore, ogni applicazione del vostro stack chiama direttamente Ollama o vLLM, e quando volete cambiare modello dovete ritoccare ogni client. Con un orchestratore, esponete un unico endpoint compatibile OpenAI, ci puntate tutte le applicazioni, e potete scambiare il motore sotto, gestire più modelli in parallelo, fare A/B testing, aggiungere autenticazione e logging. È il single point of integration che vi salva mesi di refactor quando l’hardware sotto cambia.
Il vector database per il RAG. Qdrant è la scelta più equilibrata oggi, gira bene su hardware modesto, ha buona documentazione, supporta filtri complessi. Weaviate è più potente ma più pesante. Chroma è il più leggero per iniziare ma scala meno. La scelta qui dipende dalla dimensione del corpus documentale che pensate di gestire.
Da dove cominciare se siete una PMI italiana
Se siete il CTO di una PMI italiana e state pensando di portare l’AI in casa, il mio consiglio è ridurre il primo step alla minima espressione possibile. Comprate un Mac Mini M4 Pro 48 GB. Installateci Ollama in dieci minuti. Scaricateci sopra Llama 3.3 14B o Qwen 4 32B. Apriteci sopra LocalAI come gateway. Provate una settimana con un caso d’uso piccolo, magari un agente che risponde a domande sul vostro manuale aziendale via RAG. Misurate latenza, qualità delle risposte, soddisfazione degli utenti.
Se la prova regge, scalate. Se non regge, avete speso 1.800 euro e una settimana di tempo per imparare cosa serve davvero. Confronto con un POC su OpenAI o Anthropic che, fra licenze enterprise e committment iniziale, sarebbe costato spesso di più senza darvi controllo dell’infrastruttura.
L’AI privata oggi non è più un esperimento da ricercatori. È una scelta di architettura accessibile, con costi noti e curva di apprendimento ragionevole, soprattutto per chi parte dai modelli open-weight più solidi (Llama, Mistral, Qwen) e da uno stack software maturo (Ollama, LocalAI, Qdrant).
Per chi vuole capire come si costruisce concretamente l’ecosistema sopra l’hardware, ho scritto una guida completa a LocalAI qualche mese fa, e nelle prossime settimane pubblicherò una guida operativa step-by-step all’installazione completa in azienda. Per chi sta valutando il setup giusto rispetto alle proprie necessità specifiche, c’è la pagina Advisory con i formati di lavoro che propongo.
La domanda da farsi oggi non è più “siamo pronti per l’AI privata”. È: che modello vogliamo far girare per primo nei nostri processi, e su che hardware lo facciamo girare nei prossimi sei mesi?