09-11-2021 22:15
Hieronder de RFO omtrent de verstoring van afgelopen maandag.
Incident slogan: 3CX storingsproblemen
Impact: Major
Starttijd: 7/11/2021 21:40 CEST
Stoptijd: 11-8-2021 16:30 CEST
Managementsamenvatting
Een stroomstoring in een van de racks in ons datacenter zorgde ervoor dat machines de verbinding met netwerk- en opslageenheden verloren. Een systeembrede herstart van alle virtuele 3CX-machines werd 's nachts uitgevoerd om de connectiviteit te herstellen. Het herstarten van de VM's loste niet alle problemen op en een deel van alle machines bleef, hoewel operationeel, onbereikbaar voor klanten.
Incidentdetail
In de avond van zondag 7 november was er een stroomstoring in een van de racks in ons datacenter. Dit resulteerde in connectiviteitsverlies op een van onze gestapelde switches. Terwijl de stroom- en netwerkconnectiviteit snel werd hersteld, verloren virtuele machines ook de verbinding met hun opslag. Hiervoor moesten alle virtuele machines opnieuw worden opgestart, wat onmiddellijk werd gedaan nadat de netwerkconnectiviteit was hersteld. Uit de eerste controles bleek dat alle virtuele machines actief en beschikbaar waren. Als extra test zijn er testen gedaan om er zeker van te zijn dat virtuele machines beschikbaar waren. Zowel monitoringsystemen als het testen van monsters geven positieve resultaten. In de ochtend van maandag 8 november had een deel (25%) van deze systemen niet alle diensten operationeel. Op dat moment was een handmatige herstart nodig om machines weer beschikbaar te maken. Zowel ondersteuningsingenieurs als netwerkingenieurs werkten de hele dag door om de machines opnieuw op te starten, wat op maandag 8 november rond 15:46 CEST voltooid was.
Identificatie van de hoofdoorzaak
We identificeerden een apparaat in het datacenterrek dat ervoor zorgde dat de stroomonderbrekers van beide stroomtoevoeren (A en B) tegelijkertijd werden geactiveerd. Hoewel het herstarten van alle virtuele machines met succes is uitgevoerd, hebben niet alle virtuele machines de services met succes hervat, waardoor een nieuwe handmatige herstart nodig was. Omdat een groter deel (75%) van de machines operationeel was, is ervoor gekozen om de getroffen virtuele machines alleen handmatig te herstarten. Een tweede volledige herstart van alle machines werd geacht hetzelfde resultaat te hebben opgeleverd
Actieplan
Om dit soort problemen in de toekomst te verminderen, zullen de volgende stappen worden genomen:
Vervanging van het apparaat dat de uitschakeling van beide voedingen veroorzaakte. Dit zal worden uitgevoerd op rackniveau, suiteniveau en in alle datacenters die door ons worden gebruikt om te voorkomen dat dit soort gebeurtenis zich opnieuw voordoet.
Creëer extra monitoringsystemen om niet alleen te controleren of alle virtuele machines actief zijn, maar ook of essentiële services en poorten beschikbaar zijn.
Deel dit monitoringsysteem tussen alle operationele afdelingen om interne probleemoplossing en communicatie te versnellen en om de systeembrede gezondheid op elk moment of elke instantie te bepalen.
Creëer een systeem om alle virtuele machines automatisch in batches te herstarten, om handmatige arbeid te verminderen in het geval van een vergelijkbare gebeurtenis.
Tijdlijn
Datum 7-11
21:40 – Monitoringsystemen meldden een probleem met netwerkconnectiviteit in ons datacenter.
22:02 - Onze ingenieurs gestuurd om het datacenter rechtstreeks te bezoeken, inclusief externe handen van het datacenter, aangezien dit tijdens de eerste analyse als een groot incident werd gekwalificeerd.
22:09 – Statuspagina-item gemaakt om dit grote incident te melden.
23:40 – melding ontvangen van technici ter plaatse dat beide stroomonderbrekers in het datacenterrek zijn geactiveerd, waardoor beide (redundante) stroomtoevoeren zijn afgesneden. Een volledig rack, inclusief een gestapelde switchconfiguratie, ging offline.
23:49 - ingenieurs herstelden de connectiviteit, schakelaars waren weer ingeschakeld. Er is begonnen met het herstellen van alle virtuele machines.
Datum 8-11
05:13 – alle virtuele machines werden opnieuw opgestart en hersteld, machines waren online.
07:57 - er kwamen meerdere rapporten van klanten, hoewel virtuele machines in gebruik waren, was een deel van de machines niet bereikbaar of volledig functioneel voor klanten. Het proces voor handmatige herstart werd in de daaropvolgende uren op gang gebracht en opgeschaald.
15:46 – Handmatig herstarten van virtuele machines is voltooid. Ter controle werd een tweede keer een systeembrede scan uitgevoerd, waaruit bleek dat een klein aantal machines niet operationeel was. Die machines werden opnieuw handmatig gecontroleerd.
17:00 – Controle voltooid, alle systemen weer operationeel.
19:00 – Storing afgemeld.
08-11-2021 19:00
De storing is inmiddels afgemeld. Wij zullen de RFO (Reason For Outage) op deze pagina plaatsen zodra wij deze hebben ontvangen. Mocht je toch nog problemen ervaren met jouw telefooncentrale, neem direct contact met ons op via support@hallo.eu of 088-2550100.
Nogmaals excuses voor het ongemak.
Getroffen diensten: 3CX Bundels
Verwachte oplostijd: Afgemeld
08-11-2021 16:15
Wij zien herstel bij (bijna) alle machines. Mocht je nog problemen ervaren met de centrale, neem direct contact met ons op via support@hallo.eu of 088-2550100.
Onze excuses voor het ongemak!
Getroffen diensten: 3CX Bundels
Verwachte oplostijd: 17:00
08-11-2021 14:30
Momenteel wordt er hard gewerkt om alle omgevingen te herstarten, dit betreft helaas een handmatig proces. Naar verwachting zullen alle omgevingen omstreeks 17:00 herstart zijn. "
Getroffen diensten: 3CX Bundels
Verwachte oplostijd: 17:00
08-11-2021 13:00
Alle machines worden handmatig nagelopen en herstart waar nodig.
Onze excuses voor het ongemak.
Getroffen diensten: 3CX Bundels
Verwachte oplostijd: Onbekend
08-11-2021 10:40
Helaas constateren we dat nog niet alle machines online zijn, we gaan verder met het onderzoek.
Onze excuses voor het ongemak.
Getroffen diensten: 3CX Bundels
Verwachte oplostijd: Onbekend
08-11-2021 10:30
De omgevingen zijn herstart en zijn weer online. Indien er nog problemen wordt ervaren, neem direct contact met ons op via 088-2550100 of support@hallo.eu. De doorschakelingen zullen worden geannuleerd.
De RFO zullen wij delen zodra we deze hebben ontvangen. Onze excuses voor het ongemak.
Getroffen diensten: 3CX Bundels
Verwachte oplostijd: 10:30
08-11-2021 08:30
Op dit moment ervaren wij een verstoring op de 3CX centrales bij een van onze leveranciers. De oorzaak is gevonden en er wordt gewerkt aan een oplossing.
Indien een doorschakeling gewenst is horen wij dat graag per e-mail op support@hallo.eu.
Getroffen diensten: 3CX Bundels
Verwachte oplostijd: 10:30
Opmerkingen
0 opmerkingen
U moet u aanmelden om een opmerking te plaatsen.