Wenn eine Infrastruktur aufzubauen 2.000 Stolpersteine hat
Leute die mich kennen wissen, dass ich einer der beiden Administratoren der Welcome 2 the Jungle (W2tJ) LAN-Party bin. Dieses mache ich auch immer wieder gerne denn diese LAN war mein Sprungbrett in die professionelle IT-Welt. Nach über zwei Jahren Corona Pause war es also im August 2022 wieder soweit eine LAN zu hosten. In diesen zwei Jahren habe ich sehr viel über Proxmox, LXC Container, systemd usw. gelernt sodass ich entschied auf diesen Techstack zu setzen. Dieses bedeutete 5 Server neuinstallieren (es war früher VMWare ESXi im Einsatz). Zusammen mit neuen Avaya Switchen konnten wir nun zwei 10 Gbit/s Uplinks einzurichten. Mit hoher Motivation fing ich also Mittwochs Mittags an mit der Grundkonfiguration, was dann alles passierte konnte ich nicht ahnen…
Ohne Support mit Serverausfällen gestartet
Ich schrieb ja vorhin das ich einer der beiden Admins bin. Joar, aber in diesem Fall war ich leider alleine denn mein bester Kumpel war noch krank und konnte an der LAN nicht teilnehmen, das hätte ich schon als Vorahnung sehen sollen. Aus dem Keller hatte ich denn die 5 Server für die W2tJ dann aufgebaut und wollte diese neu installieren. Wir sprechen hier von:
- 3x HP DL380 Gen5
- 1x Dell aus dem Jahre 2012
- 1x HPE Cloudline CL2200 G3
- 2x Mini PCs, die als Router und CheckMK dienen
Begonnen habe ich mit dem ersten HP DL380 Gen5. Monitor anschlossen, Strom angeschlossen, Tastatur angeschlossen. Man betätige den Anschaltknopf und es tut sich nichts, oh doch, die Status-LED des Netzteils leuchtete auf. Nach ein bisschen herumprobieren stellte ich fest: Netzteil ist defekt, kann man nichts machen. Ist aber nicht schlimm, schlachte ich den Server einfach aus, habe ja noch zwei weitere baugleiche.
Der erste Server ließ sich dann gut installieren, ich konnte ohne Probleme vom USB Stick booten und Proxmox was installiert. Der zweite HP DL380 war dann auch einfach zu installieren, jedoch hatte ich durch den Hardware Austausch ein Bauteil vergessen einzubauen, so konnte er die zweite CPU nicht nutzen. Huuupsie. 🤪
Anschließend ging es an den Dell. Diese sind dafür bekannt das der POST Screen wirklich lange dauert. Also habe ich ihn an der Seite angeschlossen und am anderen Server gearbeitet. Als ich aber nach 30 Minuten immer noch im Post Screen saß wurde ich stutzig. Reboot tut bekanntlich gut. Aber auch da wollte er nach einer Stunde nicht aus dem POST Screen raus. Langsam rannte mir aber die Zeit weg, es war Mittwoch Abend und ich hatte noch nichtmal alle Server mit Proxmox ausgestattet.
Es ging an den Cloudline Server. Dort hatte ich bereits das iLO eingerichtet. Also konnte ich (nachdem ich Java 1.6 und Firefox 3 installiert hatte, dem alter des iLO sei dank…) von meinem PC aus alles machen. Dann wurde es lustig. Da kein Bildschirm angeschlossen war, hat der Linux Treiber gedacht der Screen ist 640×480 groß. Blöd ist nur, dass der Installer mindestens 800×600 braucht, weil man sonst nicht an die Buttons zum weiter klicken kommt.
Im nächsten Step habe ich dann einfach einen Monitor angeschlossen. Der sagte dann “Out of Reach”, sprich die Anzeigeeinstellungen haben dem Monitor nicht gepasst. Okaaaay, dann einen anderen angeschlossen. Das selbe Spielchen. Keine Ahnung was der Treiber da erkennt, aber er wollte dann 1024×786 mit 120kHz anzeigen! Das kann kein Monitor der Welt. Meine Stimmung geht so langsam den Bach herunter, aber eine Idee hatte ich noch an diesem Abend: Installiere ein normales Debian 11 und dann Proxmox darüber, dazu gibt es auch Dokumentationen. Nachdem ich ein Netinstall-Image besorgt hatte bootete ich von der ISO. Debian verweigerte die Installation: Es hat keine Netzwerktreiber, die gibt es nicht als Open Source . Nach etwas suchen fand ich aber auch eine Debian-install mit non-free Treiber. Gott sei Dank gibt es in der Halle nun Glasfaser, da war der Download schnell erledigt. Aufgeben war jetzt noch nicht drinnen, obwohl es bereits 2 Uhr nachts war, denn die vorbereiteten Container zu verschieben dauert bis zu 10 Stunden (Steamcache sei Dank).
Dies war aber die letzte Hürde, so konnte ich auf dem HPE dann Debian sowie Proxmox installieren und konnte dann den Kopiervorgang starten. Dies war aber nur der Anfang, es folgte der Donnerstag…
Total übermüdet in die Schlacht … auch aus Unwissenheit
Keine Ahnung was da los war, aber ich war so gerädert, ein guter Schlaf war das nicht. Mit der Zeit im Nacken wollte ich dann mit der Proxmox Einrichtung der beiden HP DL380er beginnen. Was komisch war: einer der Server war verdammt instabil. Naja, nach einem Reboot ging er dann wieder up. Weiter settings gesetzt, noch ein reboot, komisch der Server kommt wieder nicht up. Es kommen beim booten einfach Watchdog Meldungen. Ohne das ich einen Container laufen lasse? Kein guten Zeichen. Dachte ich mir, vielleicht stimmte was mit der Installation von Proxmox nicht, die ISO bootet er ja immer. Also das neu installiert, der erste Reboot, wieder Watchdog Meldung. Also ein weiterer Reboot sagte mir dann CPU out of Sync. Wer hätte das gedacht, der dritte Server der nun ausgefallen ist. Trotzdem war ich noch entspannt was an Serverkapazität vorhanden ist. Solange der HPE Cloudline läuft ist alles in trockenen Tüchern.
Es ist Donnerstag Nachmittag, insgesamt laufen nun vier Proxmox Server, zwei dicke und die zwei Mini PCs. Jetzt machte ich mich dran diese in ein Datencenter zu verbinden. Das ist schön bei Proxmox, so kann man über eine WebUI alle vier Server steuern. Was ich aber nicht wusste: Wenn man diese in ein Datacenter zusammenpacken will, dürfen auf den Proxmox Server die joinen sollen keine Container oder VMs vorhanden sein. Blöd, da Router und CheckMK schon laufen. Den HPE neuinstallieren war aber keine Option, sonst hätte ich wieder 7 Stunden Datenbackups hin und herschieben müssen.
Nach etwas Recherche konnte ich dann nachlesen wie man die Datencenterzuordnung löschen konnte. Dies half mir, so war denn der HPE der Master. Bei den MiniPCs konnte ich dann die LXC Container schnell löschen und neu aufziehen, die waren in 5 Minuten kopiert
Die Serverfarm und Container stehen endlich, ab zu den Switchen
Unter vorheriger Absprache hatte ich mit unserem Lagermeister besprochen welche Switche ich brauche, wir haben nämlich deutlich mehr bekommen als wir brauchen. Zum Glück hat sich herausgestellt, ich sagte ihm nur, dass zwei auf Reserve reichen werden. Dem war nicht so
Am Mittwoch Abend hatte ich die alle Switche eingerichtet, durch das ganze Server Chaos kam ich aber nicht dazu die LWL Kabel zu verlegen. Donnerstag Abend machte ich mich dann dran, die LWL Kabel steckten nun alle und so konnte ich dann alle Switche ins CheckMK übertragen, dachte ich zumindest. Zwei Clientswitche waren nicht erreichbar, wobei die XFP Verbindungen vorhanden waren. Ich klinkte mich direkt an einen Clientswitch dran, dieser war dann erreichbar, aber der erreichte nicht den Backbone. Komisch, ich hatte keine Filterregeln eingesetzt. Factory Reset und neuer Versuch, jedoch ohne Erfolg. Es war ein Mysterium, also gesprochen mit dem Lagermeister, es müssen alle Switche zu uns die wir haben. Am Ende hatten wir drei Switche als defekt markiert, zwei hatten diesen komischen XFP Bug und bei einem stand im Bootloader Memory Error, dem traute ich dann nicht über den Weg.
Später kamen dann die restlichen Switche, diese funktionierten dann auch auf Anhieb. Was da genau nun los war, keine Ahnung
Mit sieben Klicks den LAN Start in Gefahr gebracht
Wir haben Donnerstag Nacht, 23 Uhr. Der nächste Step war es bei den Switchen LACP und VLACP zu aktivieren. Dabei müsst ihr wissen, ich hab jedes Szenario daheim ausprobiert und zu wissen, welche Configs ich dann auf der LAN setzen muss. Es ging los:
Auf jedem Switch eingeloggt und in der richtigen Reihenfolge LACP aktiviert. Nach einer Minute konnte ich den Backbone sowie alle Clientswitche erreichen. Supi Ab gehts, aktivere VLACP. Ich warte eine Minute: 4 Switche reden wieder mit mir. Aber zwei Clientswitche und der Backbone, nö, die haben keine Lust. Ich warte weiter, und weiter, und weiter… Es tut sich nichts. Langsam frage ich mich ob ich im falschen Film bin, die kurze Nacht im Nacken spüre ich, auch dass bis jetzt jede Idee, die ich umsetzen wollte, immer anders lief als gedacht. Mangelnde Erfahrung mit den Avayaswitchen sei dank bleibt mir nichts übrig als: Auf den Switchen die ich erreichen kann VLACP und LACP wieder deaktivieren und auf die, die ich nicht erreiche direkt dran und dort deaktivieren. Es gab nur ein Problem, ein Backbone war nicht erreichbar und direkt mit RJ45 anschließen war da nicht, denn da waren 8x XFP und 24x SFP Ports. Fast voller Verzweiflung dachte ich mir: Was solls, Factory Reset ist schnell gemacht. Hauptsache ich erreiche den wieder.
Ein neuer Morgen bricht an, mit Usern
Es ist Freitag Vormittag, die LAN-Party kann endlich beginnen, die Server sind alle erreichbar und auch die Switche machen nun das was sie sollen. Auch die Nacht war wesentlich besser, sodass ich frisch im Kopf war. Der letzte Step war dann nur noch alles in CheckMK einpflegen, Grafana Board bauen und dann die LAN ihren freien Lauf zu lassen. Meine Nerven aber waren am Ende 😅 Ich merkte dass ich in dem Thema alleine war und wirklich in jedem Topic was passierte… Aber beim ersten ankommen der User merkte ich wie ich anfing die LAN zu genießen. Nach über 2 1/2 Jahren Pause endlich wieder ein W2tJ hosten, welch herrliches Gefühl!
Du kannst so viel testen wie du willst, im Live Betrieb ist alles anders!
Die Dedicated Spiele Server hatten diesmal auf ein komplett anderes Konzept: Anstatt es direkt über systemd zu machen nahm ich mir LinuxGSM zur Hilfe. Auf dem Papier siehts auch toll aus: Patchmanagement, Integration in Discord falls was failed uvm. Auch die Tests verliefen ohne Probleme, man fand die Server in der Serverliste.
Am Freitag Abend wurde ich dann drauf angesprochen, wie die ServerIPs sind und ob wir Dedicated CS:GO Server haben. Ich dachte mir erst, RTFM, geh in den Serverbrowser. Nun, ich ging an seinen Platz, und man fand sie nicht. Da es ein Linux User war hatte ich erst die Vermutung dass da im Linux stack was schief läuft. Aber an meinem PC fand ich auch keine Server … Klasse, Stunden der Einrichtung und es sieht keiner die Server.
Meine erste Vermutung: Die Avaya Switche würden die Broadcasts unterbinden wegen einem Limit. Dem war aber nicht so. Erst Samstag Mittag stellte ich fest, es ist ein LinuxGSM Bug. Mein Fehler war es, dass ich in der Config die IP-Adresse angegeben hatte unter der der Server erreichbar ist. Aber anscheinend konnte er das nicht richtig übernehmen, erst als ich in den Settings 0.0.0.0 angab waren die Server im Serverbrowser zu finden. Verstehe einer wer will …
Jedes Wochenende hat auch mal ein Ende
Nach diesen ganzen Stolpersteinen lag ich total kaputt am Sonntag im Bett. Klar, der Schlafmangel auf der LAN hat auch dazu beigetragen. Das aber wirklich in jedem was schief ging hatte ich noch nicht erlebt. Die nächste W2tJ findet bereits im Oktober statt, gut dass aber ich da nichts neues einrichten muss, sondern einfach nur anschalten und anpassen. 😅
Filed under: Allgemein - @ 16. September 2022 14:17