Bonding-Flapping mit Linux und Supermicro-IPMI

Dass jedes System irgendwann mal ausfällt, kommt natürlich vor. Neulich hatten wir einen Ausfall, welcher routinemäßig anfing, sich jedoch als sehr seltsam entpuppte.

Alles begann an einem Dienstagmorgen gegen halb drei. Einer der Switches im Rack fiel aus und das Monitoring klingelte die Bereitschafts-Admins wach, da nicht nur der Switch, sondern auch ein paar Server nicht mehr erreichbar waren. Der Ausfall selber wäre halb so wild, da die Server mithilfe eines Active-Passive Bondings an zwei verschiedenen Switches hängen. Jedoch wurde bei manchen Servern der Port, welcher an den defekten Switch angeschlossen war, immer wieder auf „Active“ gesetzt. Das dies ein falsches Verhalten ist, ist natürlich klar, jedoch die Ursache ein schönes Beispiel für das Zusammenspiel von mehreren unbekannten Standardparametern.

„Bonding-Flapping mit Linux und Supermicro-IPMI“ weiterlesen