Site icon Gioxx.org

EX172491 – Can’t access email, l’apocalisse di Microsoft Office 365 (Aggiornato)

EX172491 - Can't access email 1

È il titolo comparso intorno alle 10:20 (ora italiana) di ieri nell’area amministrativa di Office 365 (a voler fare i pignoli si parla di 2019-01-24 09:17 (UTC)). Una manciata di minuti prima della comparsa dell’anomalia il team di primo livello ha cominciato a ricevere segnalazioni dagli utenti che non accedevano più al loro Outlook e in generale alla posta elettronica di Exchange in Cloud (quindi anche via OWA). Il tempo di aprire un ticket in Microsoft ed ecco spuntare fuori il primo aggiornamento sull’area amministrativa del servizio, sarebbe stato il primo di tanti: “We’re investigating a potential issue and checking for impact to your organization. We’ll provide an update within 60 minutes.“.

La chiamano “Riduzione del servizio“, si traduce con “Panico totale e corsa ai ripari” perché nonostante ciò che si continua a sbraitare in giro, la posta elettronica è e rimane al centro dell’universo per tutti coloro che svolgono un lavoro d’ufficio, intersecandosi anche in altri settori che tramite essa portano a termine compiti automatizzati e non (penso alla realtà di un grande gruppo come quello per cui lavoro, ma di nomi presi in pieno volto oggi se ne potrebbero fare parecchi altri, assai conosciuti) dove persino il mestiere più manuale è comunque preso “di striscio” dal colpo. L’incidente frontale ti fa capire quanto una struttura in Cloud, seppur curata e tenuta sempre d’occhio, possa rivelarsi un grandissimo Point of Failure davanti al quale tu sei completamente impotente, a prescindere dalla preparazione tecnica che puoi avere e che potresti mettere in campo.

Microsoft Office 365 è un servizio ormai utilizzatissimo, ne è dimostrazione la quantità di discussioni generatasi su svariati Social Network, forum di discussione e blog specializzati con relative aree commenti. Non sono stati esenti dall’ondata di segnalazioni anche quegli strumenti che negli ultimi tempi stanno predendo sempre più piede, come Outage.report (qui la pagina di Office 365: outage.report/office-365) o DownDetector (downdetector.it/problemi/office-365).

Day 1

Dopo una giornata di completo buio, le prime mail hanno cominciato a raggiungere Outlook e Mail (l’applicazione nativa di iOS) intorno alle 21:00 ora italiana. Poca roba, troppo poca davvero, il disservizio infatti persisteva nonostante un fix annunciato e implementato da Microsoft. Ti riporto i messaggi di aggiornamenti fino al primo passo verso la luce (il primo è quello più recente, nda):

1/24/2019 10:53:52 PM
1/24/2019 9:55:54 PM
1/24/2019 8:53:18 PM
1/24/2019 7:55:12 PM
1/24/2019 6:00:42 PM
1/24/2019 4:08:31 PM
1/24/2019 1:57:40 PM
1/24/2019 12:09:46 PM
1/24/2019 10:54:10 AM
1/24/2019 10:18:04 AM

We’re investigating a potential issue and checking for impact to your organization. We’ll provide an update within 60 minutes.

Day 2

Seppur a fatica, le email hanno continuato ad arrivare nella casella di posta elettronica e quindi nei vari client configurati e connessi. Il tutto scoppia nuovamente nel corso della mattinata italiana, con un evidente sovraccarico delle risorse messe a disposizione. Forse un’ora di buio totale, tutto il resto è connessione più o meno stabile ma grandi ritardi nella consegna delle email. A partire dalle 14 circa (ora italiana) la situazione sembra essersi nettamente più stabilizzata. Qui di seguito ti propongo gli aggiornamenti di stato di Microsoft:

1/25/2019 3:04:30 PM
1/25/2019 1:01:46 PM
1/25/2019 12:00:40 PM
1/25/2019 10:46:32 AM
1/25/2019 9:48:24 AM
1/25/2019 1:35:09 AM
1/25/2019 12:03:11 AM
28/1/19

Il passaggio a EX172564

Nel corso del fine settimana Microsoft ha pubblicato ulteriori sviluppi sulla questione, e nel corso della notte tra il 25 e 26 gennaio, ha “chiuso” il capitolo EX172491 per passare al nuovo EX172564, interruzione di servizio che riguarda un’Europa ancora ferita dall’anomalia che l’ha colpita qualche giorno prima. Intorno alle 2 del mattino del 26/1 è stata pubblicata la nota all’interno della Dashboard amministrativa:

This is a continuation of EX172491. We’re targeting this communication specifically to customers who have experienced more significant impact in an effort to provide more detail, this communication will replace EX172491 on your dashboard. We understand that our initial analysis of this incident did not accurately capture the full scope of impact you have experienced throughout the duration of the incident.

Through our initial investigation, we identified that some Domain Controllers (DC) in the environment had become unresponsive. We took actions to restore service to the affected DC’s and implemented a secondary fix to restore service. After completing those actions, we received reports that users were able to access the Exchange Online service and that users were beginning to receive their messages that had been sent during the Exchange Online outage.

We want to ensure that you are receiving the most accurate updates related to your impact and we’re committed to keeping this as our highest priority until the root cause has been fully understood. We apologize that the user impact on our previous Service Health Dashboard post did not correctly convey the impact that your users are experiencing.

Scope of impact: Impact is specific to users located in Europe that are served through the affected infrastructure.

Seguiranno ulteriori aggiornamenti nella prima mattinata, per poi arrivare alle 10 circa (ora italiana) di sabato con la preparazione di nuovi DC in grado di servire l’Europa e poter sopportare ogni richiesta in arrivo dai client utenti, seguiti da successivi passaggi fino al completamento del rilascio di una soluzione più definitiva:

The deployment of the additional Domain Controllers (DC) is currently at approximately 12.5 percent. We’ve implemented the configuration change to a portion of the affected infrastructure and will monitor the environment to ensure that the connection time-outs have reduced. We’ve identified additional mitigation actions and enabled them to help prevent this issue in the future. We’re continuing in our efforts to enable additional logging.

2019-01-27 04:12 (UTC): The process in which we are adding additional domain controllers to the environment requires that the domain controllers are deployed in batches. Our third batch is still being deployed and is progressing as expected; however, this means that our deployment status remains at 50 percent.

2019-01-27 08:46 (UTC): The third batch of domain controllers is continuing to deploy as expected and we’re monitoring its progress. We’ll begin deployment of the fourth batch of domain controllers once the third batch has completed. As deployment progresses users will begin to see remediation.

2019-01-27 13:01 (UTC): We’ve completed 58 percent of the deployment of domain controllers and the third phase is progressing as anticipated. The fourth phase of deployment of domain controllers is expected to begin in approximately six hours.

2019-01-28 04:45 (UTC): We’ve completed our deployment of domain controllers and we’re performing our final validation tests to ensure all systems are functioning as expected. Additionally, the configuration change to reduce the time-outs has been applied throughout the affected infrastructure. Our current data and testing indicates that the service is maintaining optimal levels and we’ll closely monitor any changes in load or performance to prevent any additional impact.

Allo stato attuale ci si trova quindi in una situazione ormai stabile e sotto costante monitoraggio (2019-01-28 08:48 (UTC)):

We’re continuing to monitor the service now that the configuration changes have propagated throughout the environment. We’ll continue to monitor the service throughout the working day to ensure that the improvement work we’ve done has remediated impact.

Continuerò ad aggiornare l’articolo quando ci saranno ulteriori sviluppi in merito, per il momento passo, chiudo e spero che il fine settimana possa avere un risvolto più positivo rispetto a questo enorme disservizio mai così pesante per ciò che riguarda la storia del servizio.

Correzioni, suggerimenti? Lascia un commento nell'apposita area qui di seguito o contattami privatamente.
Ti è piaciuto l'articolo? Offrimi un caffè! ☕ :-)

L'articolo potrebbe non essere aggiornato

Questo post è stato scritto più di 5 mesi fa, potrebbe non essere aggiornato. Per qualsiasi dubbio ti invito a lasciare un commento per chiedere ulteriori informazioni! :-)

Condividi l'articolo con i tuoi contatti:
Exit mobile version