27-07-2019 Netwerk storing Zwitserland / Network outage Zurich [UPDATE]

Vanaf 18:03 was er een storing in ons netwerk in Zurich.
Een aantal klantmachines zullen hier ook hinder van ondervinden. De oorzaak wordt nog onderzocht.

[Update] : De storing is verholpen.

[Update]: terugkoppeling van de leverancier:

Incident beschrijving:
Met de geïnitieerde ondersteuning van de leverancier werden de logboeken van de getroffen switch geanalyseerd en bleek dat er geheugen problemen waren.
In coördinatie met de verkoper werd de betreffende schakelaar opnieuw opgestart, wat niet leidde tot een bevredigend resultaat.
In een tweede stap werd de schakelaar volledig verwijderd uit het cluster en de configuratie werd verwijderd. Na het opnieuw toevoegen aan het cluster en het opnieuw laden van de configuratie op de schakelaar, werd het netwerkverkeer op alle links weer normaal.
Incident Status:
De getroffen services zijn sinds de restauratie nauwlettend gevolgd en zijn stabiel.
Voorzorgsmaatregelen:
Op basis van de logboeken zal dit probleem samen met de leverancier nader worden onderzocht. Een dergelijk gedrag mag niet leiden tot dit soort situaties. Eventuele vereiste updates of patches die vanwege deze storing op de schakelaars geïnstalleerd moeten worden zullen worden aangekondigd en zullen plaats vinden in standaard onderhoudsvenster.

Heb je vragen, neem dan contact op met support@site4u.nl of bel naar 085 – 30 30 999.

Since 6:03 pm we are facing a network outage in our network in Zurich.
Some customer machines are affected. We are investigating the cause.

[Update] : Outage is resolved.

[Update]: Feedback from the supplier:

Incident description:
The distribution network of nexellent is managed as a spine – leaf setup. Each spine switch is managed by the fabric (cluster). On 18.05h the nexellent monitoring indicated, that several services at the Glattbrugg datacenter not reachable anymore. The initiated analysis showed that one spine switch is not correctly managed by the fabric anymore (partly loss of sync between the switch and the fabric). As a consequence, all connected links indicated major drop / loss of packages or even loss of connection.
Incident resolution:
With the initiated support of the vendor, the logs of the affected switch got analyzed showing memory issues. In coordination with the vendor, the particular switch got rebooted, which did not lead into a satisfying result. In a second step, the switch got entirely removed from its cluster and the configuration got deleted. After the rejoining into the cluster and reload of the configuration on the switch, the network traffic of all links returned to normal.
Incident Status:
The affected services have been monitored closely since its restoration and are stable.
Preventive actions:
Based on the logs, there will be further investigation of this issue together with the vendor. This, since such a behavior should not lead into this kind of situation. Any updates or patches required to be installed on the switches because of this event and to prevent this type of outages will be announced in advance with a standard maintenance window.

If you have questions, please contact support@site4u.nl or call +31 85 – 30 30 999.