blog:2022:hardware-klippen [RUB Network Operations Center]

Über das Umschiffen von Hardware-Klippen neuerer Netzkomponenten

Obwohl der meiste Datenverkehr im RUB-Netzwerk in den einzelnen Gebäuden entsteht, erfolgt doch das Routing der meisten Netze im Datacenter. Das hat teilweise historische Gründe, teilweise technische oder einfach praktische Gründe. Der Router im Datacenter ist wie fast alle unserer Router redundant ausgelegt, das heißt es gibt ihn doppelt. Das war schon früher im Interims-Datacenter so und ist auch im neuen Datacenter so umgesetzt. Beim Ausfall eines der beiden Systeme übernimmt das andere System fast unterbrechungsfrei, ohne, dass das im Allgemeinen von den Nutzern bemerkt wird.

Da unsere bisher eingesetzte Router-Plattform (Cisco Catalyst 6807-XL/SUP6T) inzwischen herstellerseitig abgekündigt ist, haben wir für das neue Datacenter zwei Maschinen der Nachfolge-Serie „Catalyst 9000“ angeschafft, und zwar zwei Geräte vom Typ C9500-48Y4C. Sie sind im Mai 2022 in Betrieb gegangen und haben schrittweise das Routing vom bisherigen Datacenter-Router übernommen. Dieser Prozess ist bis heute immernoch nicht vollständig abgeschlossen. Und zwar aus Gründen:

Neuere Geräte der Catalyst-9000-Serie arbeiten im Detail etwas anders als die bisher von uns eingesetzten Systeme. Das ist nicht weiter ungewöhnlich, äußert sich jedoch darin, dass der Hersteller inzwischen am teuren TCAM-Speicher spart, welcher unter anderem für den besonders effizienten Zugriff auf Routen und ACLs notwendig ist. Ohne diese Effizienz kann das System nicht performant arbeiten. Diese Sparmaßnahmen sind erst einmal kein grundsätzliches Problem, denn viele Dinge werden in den ASICs („Application Specific Integrated Circuit“ bzw. spezielle Hardware-Chips) der Geräte inzwischen anders abgebildet und verarbeitet, so dass grundsätzlich nicht mehr so viel TCAM-Speicher wie bisher benötigt wird.

So weit, so gut. Nun ist es aber so, dass man die neueren Systeme dahin gehend optimieren kann (und in unserem Fall auch muss), dass die Speicheraufteilung innerhalb des Systems zum Nutzungsprofil passt, da die Aufteilung starr ist. Das heißt, es muss Speicher für MAC-Adressen, IP-Adressen und einige weitere Dinge quasi fest zugewiesen werden. Die Standard-Aufteilung funktioniert in einem Szenario der Größenordnung RUB natürlich nicht.

Und dafür muss man leider das komplette System neu starten.

Punkt.

Das bedeutet: nicht umschwenken auf das redundante System, nicht nacheinander beide Systeme einmal durchstarten, sondern beide Systeme gleichzeitig neu starten.

Netzausfall: ca. 10 Minuten.

Und genau dieser Fall muss kommende Nacht bei uns eintreten. Es gibt nämlich seit gestern Nachmittag ein Kapazitätsproblem im Bereich des zugewiesenen Speichers für IP-Routen, was vergangene Nacht gegen 4 Uhr schon einmal zu Erreichbarkeitsproblemen im Netz geführt hat. Die Ursache ist uns prinzipiell klar, den genauen Grund dafür erforschen wir aktuell noch, aber wir müssen erst einmal Abhilfe schaffen, damit die Stabilität des Routings nicht weiter gefährdet ist. Denn läuft der Speicher voll, herrscht quasi Stillstand im Netz der RUB. Und das möchte niemand wirklich.

Ankündigung folgt…