Apple, l’AI, il contesto ed il paradosso dell’innovazione e della pazienza.

In questi giorni, il web e i mercati reagiscono con tono deluso al keynote del WWDC 2025: niente AI. Nessuna “AI Apple”. Nessun modello proprietario, nessun assistente rivoluzionario, nessuna dichiarazione forte. Solo aggiornamenti di sistema, funzioni incrementali, nuove integrazioni.

Eppure, se si osserva la storia di Apple con uno sguardo lungo, non dovrebbe sorprenderci. Perché Apple (quasi mai) ha fatto la prima vera mossa. Ma ha sempre fatto quella definitiva.

Il paradosso dell’innovazione tardiva

1998: iMac

  • Contesto: i PC erano grigi, complicati, pieni di cavi e direi anche con un’estetica scadente.
  • Apple: un solo cavo, design colorato e minimale, USB-only, plug and play. Non inventa il computer, ma reinventa il concetto di accessibilità e desiderabilità.
  • E gli altri: Tutti i brand iniziano a spingere su design più curato, semplicità d’uso e porte standardizzate.

2001: iPod

  • Contesto: il trend era quello di scaricare (tonnellate) musica da Napster, e ascoltarla in mobilità nei lettori MP3 presenti all’epoca, con storage limitati, interfacce “fisiche” molto più vicine ai vecchi Walkman.
  • Apple:1000 canzoni in tasca” e iTunes. Ecosistema + semplicità + design + sincronizzazione, tutto in uno, ma soprattutto legalità nell’esperienza di ascolto della musica.
  • Dopo Apple: Creative, Sony e altri provano a replicare. Ma senza un software come iTunes, l’esperienza resta frammentata.

2007: iPhone

  • Contesto: Nokia, Blackberry, Palm dominavano il mercato.
  • Apple: interfaccia multitouch fluida, niente tastiera fisica. Il telefono diventa piattaforma.
  • Dopo Apple: Android cambia direzione, Nokia crolla, Microsoft inizia un declino nel mondo OS e smartphone. La definizione delle linee guida progettuali per le app impone agli altri ecosistemi un cambio di approccio e miglioramento dell’esperienza.

2008: App Store

  • Contesto: gli smartphone erano dispositivi chiusi, con software preinstallato o accessibile solo da accordi B2B.
  • Apple: lancia l’App Store, aprendo l’iPhone agli sviluppatori indipendenti con un modello di revenue sharing (70/30), strumenti di sviluppo (SDK), linee guida di design e un processo di review centralizzato.
  • Dopo Apple: si crea un’economia digitale completamente nuova, con centinaia di migliaia di sviluppatori e aziende che costruiscono business basati su mobile app. Google risponde con Android Market (poi Play Store), ma con meno controllo qualitativo. Nokia e Microsoft non riescono a costruire ecosistemi sostenibili e perdono il mercato.

2010: iPad

  • Contesto: netbook, ebook reader, tablet marginali.
  • Apple: crea una nuova categoria tra laptop e smartphone. Mobilità, leggerezza, interfaccia su misura per una esperienza lavorativa o di intrattenimento in una zona intermedia tra smarthone e desktop.
  • Dopo Apple: Google, Samsung e Amazon rincorrono con Android, ma senza una UX verticale e coerente non riescono a imporsi allo stesso modo.

2012: Apple TV

  • Contesto: la smart TV era un terreno confuso, con interfacce poco fluide e offerte disaggregate.
  • Apple: rilancia Apple TV con focus su entertainment integrato, AirPlay, App Store per TV, e un’interfaccia coerente con l’ecosistema iOS, creando una continuità di esperienza tra device personale e connessione con spazio casalingo
  • Dopo Apple: Google ristruttura Android TV e lancia Google TV; Amazon investe su Fire TV. Inizia la corsa all’integrazione tra servizi OTT, assistenti vocali e dispositivi domestici.

2014: Apple Watch

  • Contesto: smartwatch esistenti (Pebble, Galaxy Gear), ma ancora di nicchia.
  • Apple: focus su salute, notifiche, lifestyle e perfetta integrazione con l’iPhone.
  • Dopo Apple: Android Wear si adegua, nascono ecosystem health-first (Fitbit, Garmin), ma Apple conquista il segmento premium e sanitario e nel segmento watch (non smart) diventa significativa.

2016: AirPods

  • Contesto: cuffiette Bluetooth presenti ma scomode e poco integrate.
  • Apple: esperienza seamless, pairing istantaneo, ricarica magnetica nella custodia.
  • Dopo Apple: tutti i produttori lanciano TWS, ma nessuno raggiunge la stessa immediatezza d’uso. L’accoppiamento istantaneo diventa lo standard aspirazionale.

2016–2020: Rimozione jack audio, BLE, NFC e FaceID

  • Contesto: standard tecnici consolidati ma poco evoluti ed integrati nella vita di tutti i giorni.
  • Apple: elimina il jack audio con coraggio strategico; spinge il Bluetooth Low Energy e l’NFC per pagamenti rapidi e sicuri (Apple Pay); introduce il Face ID come nuova soglia d’ingresso, abilitando il Wallet e la digitalizzazione dell’identità.
  • Dopo Apple: Samsung inizialmente critica la scelta, poi segue; Android integra NFC payment (fino a prima usato solo per trasferimento dati); il riconoscimento facciale diventa standard.

2023: Vision Pro

  • Contesto: Oculus, HTC Vive e altri visori AR/VR già sul mercato.
  • Apple: introduce lo Spatial Computing, interfaccia oculare e gestuale, contenuti immersivi. Più di un visore, un ambiente personale computazionale, integrato nell’ecosistema di tutti gli altri device.
  • Dopo Apple: I competitor cominciano a rivedere le proprie roadmap su AR/VR, integrando eye tracking e ricalibrando il focus sulla produttività immersiva. Samsung e Android, lanciano un dispositivo che utilizza il concetto di powerbank esterno al visore, come introdotto da Apple (elemento contestato da tutti al momento dell’uscita)

2025: LiquidGlass e l’apprendimento dell’interazione futura

  • Contesto: UX mobile ancora dominante, esperienze AR/VR in fase esplorativa.
  • Apple: inizia a spostare il paradigma verso una realtà aumentata integrata e continua. LiquidGlass (che vorrei segnalare che è in Beta, e come tutte le Beta serve anche a capire e migliorare) non è solo un’interfaccia: è un processo di apprendimento distribuito. L’interazione diventa trasparente e coerente con il reale, predisponendo l’esperienza a quello che evolverà in Vision pro e Glass futuri.
  • Dopo Apple: Le Big Tech iniziano a parlare di ambient intelligence e ambient interface. La UX non è più visibile, ma comportamentale.

E poi, Bonus, per non parlare degli impatti della fotocamera e rivoluzione visiva

  • Contesto: Le fotocamere sugli smartphone erano accessorie e non centrali.
  • Apple: trasforma la fotocamera in uno strumento creativo e relazionale (foto, video, FaceTime, AR), con attenzione a software computazionale e qualità.
  • Dopo Apple: tutti i competitor iniziano a investire su AI photography, miglioramento software e sensori evoluti (Samsung ne fa oggi il suo cavallo di battaglia). Il comparto foto/video diventa motore d’acquisto.

L’arte dell’integrazione (e della pazienza)

Apple non è (quasi mai) la prima a inventare una tecnologia. Apple è (quasi sempre) la prima a integrarla in modo tale da trasformarla in un comportamento diffuso, semplice, desiderabile.

Ed il vantaggio competitivo non è solo tecnologico. È esperienziale . Come disse Simon Sinek in un celebre TED Talk: “People don’t buy what you do; they buy why you do it.”

Ogni volta che Apple entra in gioco:

  • rende coerente l’esperienza tra hardware, software e servizi.
  • elimina attriti cognitivi e le frizioni tecniche.
  • costruisce un ecosistema dove ogni prodotto ha senso solo dentro il tutto, nel bene e nel male.

E lo fa con una sensibilità unica per l’interfaccia, per i dettagli invisibili, per il linguaggio. E soprattutto per il contesto.

Il contesto come intelligenza

È proprio qui che entra in gioco l’approccio di Apple all’AI. Nel paper The Illusion of Thinking, Apple “smonta” l’idea che un modello linguistico sia automaticamente “intelligente”, sottolineando come spesso generi illusioni di comprensione prive di reale utilità.

Il report è stato ampiamente criticato: molti lo hanno definito una cantonata, un errore di valutazione, uno studio fuorviante. Ma pochissimi hanno discusso le basi di partenza, dichiarate con chiarezza, e soprattutto lo scopo di quell’analisi. Il vero problema è che tutti hanno guardato il dito, ma non dove Apple sta provando a indicare.

Perché la vera domanda non è “quanto è potente un modello generativo”, ma “quanto può essere utile, efficiente e controllabile nel contesto di un dispositivo reale, personale, limitato in termini di risorse ma sempre acceso e connesso”.

È in quella direzione che Apple a mio avviso sta guardando: l’AI non come entità remota da interrogare, ma come presenza diffusa che si adatta al nostro ambiente e lo anticipa. Una AI capace di vivere sul dispositivo, nel sistema, tra i nostri dati, in modo contestuale, sicuro e trasparente.

Apple non testa modelli per battere benchmark a mio avviso, ma per capire cosa serve davvero quando l’AI deve vivere localmente, sui dispositivi, e adattarsi alla complessità quotidiana dell’utente.

Non si tratterà di avere un assistente. Ma di essere assistiti, senza accorgersene. Non un prompt. Ma un’anticipazione. Non una feature. Ma una nuova grammatica dell’interazione.

L’AI di Apple, secondo me, sarà:

  • invisibile ma presente ovunque: non un’app, ma un layer distribuito.
  • integrata in tutti i livelli di interazione: voce, testo, occhio, gesture.
  • privata per design: non solo marketing, ma architettura.
  • sicura e personale: ancorata al device, non alla nuvola.
  • contestuale e adattiva: in grado di capire se sto lavorando, chattando, leggendo o cucinando.

Questa AI abiliterà un’esperienza di continuità autentica:

  • mi sposto da iPhone ad Apple TV e il contenuto mi segue.
  • inizio una nota su Mac, la finisco a voce su iPad.
  • faccio una ricerca con lo sguardo, continuo con la voce.
  • mentre scrivo una mail, l’AI capisce che sto rispondendo a un problema ricorrente e mi suggerisce un documento interno già condiviso.
  • se sto preparando una presentazione e ho aperto le note di una call precedente, l’AI mi mostra i punti chiave e mi propone slide generate su misura.
  • quando accedo all’auto, sa che ho una conference call tra 15 minuti e mi propone il collegamento via CarPlay.
  • sto parlando con una persona e chiedo di salvare il numero di telefono e mentre me lo dice si attiva.
  • ricevo un messaggio da un cliente, e senza cercare nulla mi propone le tre risposte più coerenti con il mio tono passato.
  • mentre guardo un documento, capisce che sto preparando una riunione e compone in background una scaletta, collegando contenuti, date e allegati già usati.
  • apro il calendario e mentre inserisco un appuntamento, l’AI nota un conflitto implicito (es. tempo di spostamento insufficiente) e propone alternative logistiche.
  • se ascolto una conference call in cuffia, capisce che ho cambiato lingua e inizia la traduzione simultanea senza interruzioni.

E potrei continuare con cose , che in parte già facciamo, con diversi strumenti, con diverse app, ma in un posto, in modo sempre più naturale, integrato e non visibile.

Invece di una AI che si mostra, Apple costruirà una AI che si dissolve nell’esperienza. Che sa cosa fare, quando farlo e soprattutto quando non disturbare.

E mentre tutti cercano di farci credere che l’AI sia un oggetto, Apple studia come farla diventare un ambiente.

Tutti vogliono sapere cosa Apple dirà sull’AI. Io sto aspettando di vedere cosa ci farà fare.

Introduzione sintetica ai Modelli di Base On-Device e Server di Apple

Apple ha presentato Apple Intelligence alla Worldwide Developers Conference 2024. Questo sistema di intelligenza “personale”, praticamente un assistente sempre attivo sul device, sarà integrato completamente in iOS 18, iPadOS 18 e macOS Sequoia e compatibile su device Iphone 15 pro e successivi. Il sistema Apple Intelligence utilizza modelli generativi avanzati, specializzati per compiti quotidiani come la scrittura e la revisione di testi, la sintesi e la priorizzazione delle notifiche, la creazione di immagini per le conversazioni e l’esecuzione di azioni in-app per semplificare le interazioni tra le app.

Ho letto e studiato il paper pubblicato e presente a questo indirizzo con l’obiettivo di chiarirmi e chiarire meglio come funziona questo tipo di approccio.

Modelli di base

Prima di tutto partiamo dai modelli utilizzati. Apple Intelligence si basa su due modelli principali: un modello linguistico on-device con circa 3 miliardi di parametri e un modello più grande basato su server. Entrambi i modelli sono progettati per offrire prestazioni elevate, segregare alcune funzioni demandabili al device e altre ad un sistema fuori dal device e garantire di conseguenza un utilizzo responsabile dei dati e dell’AI, oltre a mio avviso del consumo e impatto.

Modello On-Device

Caratteristiche tecniche:

  • Parametri: Circa 3 miliardi di parametri.
  • Architettura: Basato su architettura Transformer, ottimizzata per l’esecuzione locale su dispositivi Apple.
  • Quantizzazione: Utilizza tecniche di riduzione della precisione, a bassa risoluzione (2-bit e 4-bit) così da ridurre i requisiti di memoria e migliorare l’efficienza energetica.
  • Ottimizzazioni:
    • Grouped-Query Attention (GQA): Riduce i requisiti di memoria e migliora la velocità di inferenza.
    • Palletizzazione: Implementa una configurazione mista di 2-bit e 4-bit per ottenere prestazioni comparabili a quelle dei modelli non compressi.
    • Talaria: Strumento interattivo di analisi della latenza e del consumo energetico per ottimizzare la selezione del bit rate in ogni operazione.
    • Quantizzazione di attivazioni e embedding: Riduce ulteriormente i requisiti di memoria senza compromettere la qualità del modello.

Utilizzo: Il modello on-device è integrato direttamente nei dispositivi Apple (iPhone, iPad e Mac) per gestire compiti quotidiani come:

  • Scrittura e Revisione di Testi: Assistenza nella stesura e modifica di email, messaggi e documenti.
  • Sintesi e Prioritizzazione delle Notifiche: Riassume e organizza le notifiche per migliorare la gestione delle comunicazioni.
  • Esecuzione di Azioni In-App: Automatizza attività e interazioni tra le app per rendere l’uso del dispositivo più intuitivo.

Modello Server-Based

Caratteristiche tecniche:

  • Parametri: Modello con un numero di parametri significativamente maggiore rispetto al modello on-device, progettato per operare sui server Apple Silicon.
  • Architettura: Anche questo modello si basa sull’architettura Transformer, ma è ottimizzato per l’elaborazione su larga scala nei data center.
  • Vocabulario: Utilizza una dimensione del vocabolario più ampia (100.000 token) rispetto al modello on-device (49.000 token), includendo token aggiuntivi per lingue e termini tecnici.
  • Ottimizzazioni:
    • Parallelismo: Impiega parallelismo a livello di dati, tensor, sequenza e Fully Sharded Data Parallel (FSDP) per scalare l’addestramento su vari hardware.
    • Reinforcement Learning from Human Feedback (RLHF): Utilizza algoritmi avanzati di ottimizzazione delle politiche per migliorare la qualità delle risposte del modello.
    • Rejection Sampling Fine-Tuning: Metodo di campionamento con un comitato di insegnanti per migliorare la capacità di seguire istruzioni.

Utilizzo: Il modello server-based è utilizzato per gestire compiti più complessi e intensivi in termini di calcolo, beneficiando delle capacità avanzate dei data center di Apple. Esempi di utilizzo includono:

  • Generazione di Contenuti Complessi: Creazione di testi dettagliati e specifici su richiesta degli utenti.
  • Analisi Avanzata dei Dati: Esecuzione di elaborazioni intensive come l’analisi approfondita dei dati.
  • Supporto ai Servizi Cloud: Fornisce potenza di calcolo per applicazioni e servizi che richiedono un’elaborazione continua e intensiva.

Integrazione nei Processi di Apple Intelligence

Apple Intelligence integra questi modelli in un sistema coeso per offrire una vasta gamma di funzionalità intelligenti. Questo processo coinvolge:

  1. Identificazione del Compito: Riconosce il tipo di attività che l’utente sta cercando di eseguire e decide se può essere gestita localmente o richiede il supporto del modello server-based.
  2. Selezione del Modello: Determina quale modello utilizzare in base alla complessità e ai requisiti del compito. Compiti quotidiani semplici vengono gestiti dal modello on-device, mentre compiti complessi vengono indirizzati al modello server-based.
  3. Esecuzione e Ottimizzazione: Il modello selezionato esegue il compito utilizzando ottimizzazioni specifiche per garantire velocità e precisione.
  4. Risposta e Feedback: Fornisce i risultati all’utente e raccoglie feedback per migliorare continuamente i modelli.
  5. Aggiornamenti e Manutenzione: I modelli sono costantemente aggiornati per migliorare le prestazioni e mantenere la sicurezza.

Questa architettura garantisce che Apple Intelligence possa offrire un’esperienza utente fluida, potente e sicura, sfruttando al meglio le capacità sia dei dispositivi locali che dell’infrastruttura cloud di Apple.

3. Sviluppo responsabile dell’IA

Apple segue una serie di principi di AI responsabile che guidano lo sviluppo di Apple Intelligence:

  • Empowerment degli utenti:
    • Apple si impegna a identificare aree in cui l’intelligenza artificiale può essere utilizzata responsabilmente per creare strumenti che rispondano a bisogni specifici degli utenti.
    • Rispetta le modalità in cui gli utenti scelgono di utilizzare questi strumenti per raggiungere i loro obiettivi, garantendo che l’IA sia uno strumento di potenziamento piuttosto che di controllo.
  • Rappresentazione autentica degli utenti:
    • L’obiettivo di Apple è creare prodotti che rappresentino autenticamente gli utenti di tutto il mondo, evitando di perpetuare stereotipi e bias sistemici.
    • Apple lavora continuamente per identificare e mitigare qualsiasi forma di bias nei loro modelli di intelligenza artificiale, assicurando una rappresentazione equa e inclusiva.
  • Design attento:
    • Apple prende precauzioni in tutte le fasi del processo di sviluppo dell’IA, inclusi il design, l’addestramento dei modelli, lo sviluppo delle funzionalità e la valutazione della qualità.
    • Si impegna a identificare e prevenire potenziali usi impropri o dannosi degli strumenti di IA, migliorando proattivamente questi strumenti attraverso il feedback degli utenti.
  • Protezione della privacy:
    • Apple utilizza processi on-device e infrastrutture come il Private Cloud Compute per proteggere la privacy degli utenti.
    • Non utilizza i dati personali privati degli utenti o le loro interazioni per addestrare i modelli di base, applicando filtri per rimuovere informazioni identificabili come numeri di previdenza sociale o di carte di credito.

4. Addestramento dei modelli

I modelli di base di Apple sono addestrati utilizzando il framework AXLearn, un progetto open-source basato su JAX e XLA, che permette un addestramento efficiente e scalabile.

  • Efficienza e Scalabilità:
    • AXLearn consente l’addestramento su vari hardware e piattaforme cloud, inclusi TPU e GPU sia in cloud che on-premise.
    • Apple utilizza tecniche come data parallelism, tensor parallelism, sequence parallelism e Fully Sharded Data Parallel (FSDP) per scalare l’addestramento su più dimensioni.
  • Strategia Ibrida dei Dati:
    • Apple combina dati annotati manualmente con dati sintetici e implementa procedure di curation e filtraggio rigorose per garantire la qualità del training data.
    • Apple filtra informazioni personali e contenuti di bassa qualità dal corpus di addestramento, utilizzando un classificatore basato su modelli per identificare documenti di alta qualità.
  • Algoritmi di Post-Training:
    • Rejection Sampling Fine-Tuning: Apple utilizza un algoritmo di campionamento con un comitato di insegnanti per migliorare la capacità del modello di seguire le istruzioni.
    • Reinforcement Learning from Human Feedback (RLHF): Un algoritmo avanzato che utilizza la politica di discesa speculare e un estimatore di vantaggio leave-one-out per migliorare la qualità delle risposte del modello.

5. Ottimizzazione

Apple applica una serie di tecniche innovative per ottimizzare i modelli, sia on-device che su server, garantendo velocità e efficienza.

  • Grouped-Query Attention (GQA): Questa tecnica riduce i requisiti di memoria e migliora le prestazioni di inferenza.
  • Quantizzazione:
    • Low-Bit Palletization: Utilizza una configurazione mista di 2-bit e 4-bit per ottenere prestazioni comparabili ai modelli non compressi, mantenendo la qualità.
    • Talaria Tool: Strumento interattivo per analizzare latenza e consumo energetico, ottimizzando il bit rate per ogni operazione.
    • Quantizzazione di Attivazioni e Embedding: Riduce ulteriormente i requisiti di memoria senza compromettere la qualità del modello.
  • Cache KV: Ottimizza l’aggiornamento della cache Key-Value sui motori neurali per migliorare l’efficienza.

6. Adattamento dei modelli

Apple utilizza adattatori, piccoli moduli di rete neurale, per specializzare i modelli per compiti specifici, mantenendo inalterati i parametri originali del modello base.

  • Adattatori (Adapters):
    • Gli adattatori sono integrati nei vari strati del modello pre-addestrato, consentendo una specializzazione dinamica per il compito attuale.
    • I parametri degli adattatori sono rappresentati con 16 bit e richiedono solo pochi megabyte di memoria.
    • Gli adattatori possono essere caricati dinamicamente e gestiti in memoria in modo efficiente, garantendo la reattività del sistema operativo.
  • Infrastruttura per l’Addestramento degli Adattatori:
    • Apple ha creato un’infrastruttura efficiente per addestrare, testare e distribuire rapidamente gli adattatori quando il modello base o i dati di addestramento vengono aggiornati.

7. Valutazione delle prestazioni

Apple valuta le prestazioni dei modelli tramite benchmark e valutazioni umane, concentrandosi sull’utilità per l’utente finale.

  • Benchmarking:
    • Apple utilizza un set completo di prompt reali per testare le capacità generali del modello, coprendo categorie come brainstorming, classificazione, codifica, ragionamento matematico e sicurezza.
    • Le valutazioni dimostrano che i modelli Apple spesso superano i modelli comparabili in termini di accuratezza e capacità di seguire le istruzioni.
  • Valutazioni di Specifiche Funzionalità:
    • Apple utilizza adattatori per ottimizzare le prestazioni su compiti specifici, come la sintesi di email, messaggi e notifiche.
    • Le valutazioni includono anche test su set diversificati di input rappresentativi dei casi d’uso reali.

8. Risultati di performance

Le valutazioni mostrano che i modelli Apple sono preferiti dai valutatori umani rispetto ai modelli concorrenti in vari compiti.

  • Comparazione con Modelli Competitor:
    • I modelli on-device di Apple con ~3 miliardi di parametri superano modelli più grandi come Phi-3-mini, Mistral-7B, Gemma-7B e Llama-3-8B.
    • I modelli server di Apple si confrontano favorevolmente con modelli commerciali come GPT-3.5, GPT-4 e Llama-3-70B, risultando più efficienti e sicuri.
  • Risultati di Sicurezza:
    • Apple utilizza prompt diversificati e avversariali per testare le prestazioni dei modelli su contenuti dannosi e argomenti sensibili, raggiungendo tassi di violazione inferiori rispetto ai modelli open-source e commerciali.
  • Benchmark di Instruction-Following (IFEval):
    • I modelli Apple dimostrano capacità superiori nel seguire istruzioni dettagliate rispetto ai modelli di dimensioni comparabili.
  • Benchmark di Scrittura e Sintesi:
    • I modelli Apple sono valutati positivamente nelle capacità di sintesi e composizione, ottenendo punteggi elevati nelle valutazioni interne.

Apple Intelligence, presentata alla WWDC 2024, è profondamente integrata nei dispositivi Apple e offre capacità potenti in ambito linguistico, visivo e di azione, sviluppate responsabilmente e guidate dai valori fondamentali di Apple. I modelli di base e gli adattatori garantiscono prestazioni elevate e sicure, migliorando l’esperienza utente in vari compiti quotidiani. Apple continuerà a condividere ulteriori informazioni sulla famiglia di modelli generativi, inclusi modelli linguistici, di diffusione e di programmazione.

A questo indirizzo è possibile leggere i paper integrale e la documentazione ufficiale. Vale la pena sse avete interesse e tempo di leggere tutto lo studio che in questo post ho sinteticamente riportato.