Quando il clima influenza l’ecosistema delle API, c’è qualcosa che non va.

Per chi non lo sapesse – ma non ci credo nemmeno un po’ – Instagram (e non solo loro) da questa mattina è completamente KO.

Colpa di Amazon, si dice.

Da quello che ho letto, tanti instagrammers hanno scoperto il problema di Instagram verso la mezza mattinata di oggi, quando, ripresi dalla serata del venerdì o ancora impegnati nella vita familiare del sabato mattina, dopo aver impugnato lo smartphone per scattare qualche foto, hanno trovato un messaggio che diceva che il servizio non era disponibile. Tutti hanno cominciato a twittare che qualcosa non andava, che non era possibile caricare foto e così, tra il turbamento, lo shock, l’ansia da scatto frenetico mancato e la sindrome da InstagrammersSenzaInstagram, si è diffusa la notizia del problema.

World wide, Instagram è down. E la colpa è di Amazon.

A me non è andata esattamente così. O meglio, lo shock l’ho avuto anche io, ma per colpa delle API. Quelle di Followgram.

Praticamente le notifiche del problema di Instagram le ho iniziate a ricevere dalle ore 5.30 di questa mattina, mentre dormivo: prima ricevo un DM su Twitter da un brasiliano che mi dice di avere problemi ad autenticarsi. Poi dalle ore 5.45 circa, iniziano ad arrivare in sequenza segnalazioni e mentions sull’account di Followgram da parte di utenti che segnalano malfunzionamenti sul sito e lamentano di non poter accedere.

E così, ancora cotto di sonno, mi alzo, controllo la posta, poi uservoice, guardo twitter e trovo una quantità industriale di segnalazioni relative al malfunzionamento di Followgram. Tra un tweet ed un altro, leggo che si tratta di un problema di Amazon che ha colpito anche altri siti (Pinterest, Netflix and Heroku). Faccio due verifiche, il server è su, il Db anche, il dominio si vede… e Amazon?!? Ma dai, è perfetto e non ha problemi. Siamo up e running: Amazon fino ad ora non ci ha mai tradito, è sempre su, e poi noi siamo tranquilli, abbiamo anche una VPS dove manteniamo un clone per sicurezza, perchè ci piace dormire tranquilli, non su Amazon.

Ma allora che problema c’è? In effetti, Amazon è giù. Ma non il nostro che si trova in un’altra area: è giù quello che sta in Virginia, dove è passata una mega tempesta che ha spento tutto. E si, Instagram è proprio lì. “Solo lì”.

Peccato che se noi siamo su, e loro sono giù, anche noi siamo giù. O meglio, un pò meno giù di loro (magra consolazione), ma allo stesso tempo incasinati perchè strettamente legati alle loro API: non cresciamo, non eroghiamo il servizio, non acquisiamo nuovi utenti, non fatturiamo.

Ed ecco qui la riflessione: quando il clima influenza l’ecosistema delle API, c’è qualcosa che non va.

C’è qualcosa che non va perchè se hai un modello di business o un servizio basato su altri (nel nostro caso tramite API di Instagram), sei praticamente come un apetta lavoratrice legata all’Ape regina. Se quella non funziona (o peggio ancora muore), tu sei nei casini. E non pochi.

C’è qualcosa che non va, soprattutto, perchè, come giustamente ha detto anche Alessio nel suo post, la Cloud sembra perfetta ma non lo è ancora e non ci si può ancora fidare al 100%. Ed il problema, secondo me, non è solo un problema tecnologico, ma di strategia, perchè ogni azienda, ogni applicazione, ogni progetto ha una sua struttura, un suo dna, un suo funzionamento e i suoi tempi di batch, allineamento, backup e gestione dei dati e nessuna infrastruttura potrà mai, singolarmente, sostituire in modo standard ogni singolo modello.

La dimostrazione l’abbiamo avuta oggi con Amazon e Instagram: un’applicazione comprata per milioni di dollari che non è raggiungibile per quasi 20h consecutive perchè il suo carrier è andato giù per una tempesta. Praticamente Amazon è stato il Single Point of Failure di Instagram.

All’inizio del post ho detto, non a caso, “Colpa di amazon, si dice”. Il si dice fa riferimento al fatto che tutti stanno guardando al problema di Amazon, ma nessuno (o quasi nessuno, leggete il post di Ingrid Lunden su techcrunch) sta pensando al fatto che Instagram, ribadisco, progetto pagato milioni di dollari, non abbia un piano di Disaster Recovery e Business Continuity tale da garantire il funzionamento anche a fronte di una tempesta e non abbia saputo garantire ai suoi utenti e al suo ecosistema di API e applicazioni, un ripristino immediato o in tempi ragionevoli.

Credo che questo tema, la business continuity, sia un tema caldo da affrontare su molti progetti di startup che sottovalutano ampiamente il concetto di continuità operativa.

Alla fine, la cosa positiva di oggi è che, non sapendo stare fermo ad aspettare, mi son messo a lavorare su altro.