{"id":68,"date":"2022-09-16T14:17:16","date_gmt":"2022-09-16T12:17:16","guid":{"rendered":"https:\/\/3fu.de\/?p=68"},"modified":"2022-09-16T14:17:16","modified_gmt":"2022-09-16T12:17:16","slug":"wenn-eine-infrastruktur-aufzubauen-2-000-stolpersteine-hat","status":"publish","type":"post","link":"https:\/\/3fu.de\/?p=68","title":{"rendered":"Wenn eine Infrastruktur aufzubauen 2.000 Stolpersteine hat"},"content":{"rendered":"\n<p>Leute die mich kennen wissen, dass ich einer der beiden Administratoren der Welcome 2 the Jungle (W2tJ) LAN-Party bin. Dieses mache ich auch immer wieder gerne denn diese LAN war mein Sprungbrett in die professionelle IT-Welt. Nach \u00fcber zwei Jahren Corona Pause war es also im August 2022 wieder soweit eine LAN zu hosten. In diesen zwei Jahren habe ich sehr viel \u00fcber Proxmox, LXC Container, systemd usw. gelernt sodass ich entschied auf diesen Techstack zu setzen. Dieses bedeutete 5 Server neuinstallieren (es war fr\u00fcher VMWare ESXi im Einsatz). Zusammen mit neuen Avaya Switchen konnten wir nun zwei 10 Gbit\/s Uplinks einzurichten. Mit hoher Motivation fing ich also Mittwochs Mittags an mit der Grundkonfiguration, was dann alles passierte konnte ich nicht ahnen&#8230;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Ohne Support mit Serverausf\u00e4llen gestartet<\/h4>\n\n\n\n<p>Ich schrieb ja vorhin das ich einer der beiden Admins bin. Joar, aber in diesem Fall war ich leider alleine denn mein bester Kumpel war noch krank und konnte an der LAN nicht teilnehmen, das h\u00e4tte ich schon als Vorahnung sehen sollen. Aus dem Keller hatte ich denn die 5 Server f\u00fcr die W2tJ dann aufgebaut und wollte diese neu installieren. Wir sprechen hier von:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>3x HP DL380 Gen5<\/li><li>1x Dell aus dem Jahre 2012<\/li><li>1x HPE Cloudline CL2200 G3<\/li><li>2x Mini PCs, die als Router und CheckMK dienen<\/li><\/ul>\n\n\n\n<p>Begonnen habe ich mit dem ersten HP DL380 Gen5. Monitor anschlossen, Strom angeschlossen, Tastatur angeschlossen. Man bet\u00e4tige den Anschaltknopf und es tut sich nichts, oh doch, die Status-LED des Netzteils leuchtete auf. Nach ein bisschen herumprobieren stellte ich fest: Netzteil ist defekt, kann man nichts machen. Ist aber nicht schlimm, schlachte ich den Server einfach aus, habe ja noch zwei weitere baugleiche.<br><br>Der erste Server lie\u00df sich dann gut installieren, ich konnte ohne Probleme vom USB Stick booten und Proxmox was installiert. Der zweite HP DL380 war dann auch einfach zu installieren, jedoch hatte ich durch den Hardware Austausch ein Bauteil vergessen einzubauen, so konnte er die zweite CPU nicht nutzen. Huuupsie. \ud83e\udd2a<br><br>Anschlie\u00dfend ging es an den Dell. Diese sind daf\u00fcr bekannt das der POST Screen wirklich lange dauert. Also habe ich ihn an der Seite angeschlossen und am anderen Server gearbeitet. Als ich aber nach 30 Minuten immer noch im Post Screen sa\u00df wurde ich stutzig. Reboot tut bekanntlich gut. Aber auch da wollte er nach einer Stunde nicht aus dem POST Screen raus. Langsam rannte mir aber die Zeit weg, es war Mittwoch Abend und ich hatte noch nichtmal alle Server mit Proxmox ausgestattet. <br><br>Es ging an den Cloudline Server. Dort hatte ich bereits das iLO eingerichtet. Also konnte ich (nachdem ich Java 1.6 und Firefox 3 installiert hatte, dem alter des iLO sei dank&#8230;) von meinem PC aus alles machen. Dann wurde es lustig. Da kein Bildschirm angeschlossen war, hat der Linux Treiber gedacht der Screen ist 640&#215;480 gro\u00df. Bl\u00f6d ist nur, dass der Installer mindestens 800&#215;600 braucht, weil man sonst nicht an die Buttons zum weiter klicken kommt.<br><br>Im n\u00e4chsten Step habe ich dann einfach einen Monitor angeschlossen. Der sagte dann &#8220;Out of Reach&#8221;, sprich die Anzeigeeinstellungen haben dem Monitor nicht gepasst. Okaaaay, dann einen anderen angeschlossen. Das selbe Spielchen. Keine Ahnung was der Treiber da erkennt, aber er wollte dann 1024&#215;786 mit 120kHz anzeigen! Das kann kein Monitor der Welt. Meine Stimmung geht so langsam den Bach herunter, aber eine Idee hatte ich noch an diesem Abend: Installiere ein normales Debian 11 und dann Proxmox dar\u00fcber, dazu gibt es auch Dokumentationen. Nachdem ich ein Netinstall-Image besorgt hatte bootete ich von der ISO. Debian verweigerte die Installation: Es hat keine Netzwerktreiber, die gibt es nicht als Open Source <img src=\"http:\/\/3fu.de\/wp-includes\/images\/smilies\/rage.png\" alt=\":fuuu:\" class=\"wp-smiley\" style=\"height: 1em; max-height: 1em;\" \/> . Nach etwas suchen fand ich aber auch eine Debian-install mit non-free Treiber. Gott sei Dank gibt es in der Halle nun Glasfaser, da war der Download schnell erledigt. Aufgeben war jetzt noch nicht drinnen, obwohl es bereits 2 Uhr nachts war, denn die vorbereiteten Container zu verschieben dauert bis zu 10 Stunden (Steamcache sei Dank). <br><br>Dies war aber die letzte H\u00fcrde, so konnte ich auf dem HPE dann Debian sowie Proxmox installieren und konnte dann den Kopiervorgang starten. Dies war aber nur der Anfang, es folgte der Donnerstag&#8230;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Total \u00fcberm\u00fcdet in die Schlacht &#8230; auch aus Unwissenheit<\/h4>\n\n\n\n<p>Keine Ahnung was da los war, aber ich war so ger\u00e4dert, ein guter Schlaf war das nicht. Mit der Zeit im Nacken wollte ich dann mit der Proxmox Einrichtung der beiden HP DL380er beginnen. Was komisch war: einer der Server war verdammt instabil. Naja, nach einem Reboot ging er dann wieder up. Weiter settings gesetzt, noch ein reboot, komisch der Server kommt wieder nicht up. Es kommen beim booten einfach Watchdog Meldungen. Ohne das ich einen Container laufen lasse? Kein guten Zeichen. Dachte ich mir, vielleicht stimmte was mit der Installation von Proxmox nicht, die ISO bootet er ja immer. Also das neu installiert, der erste Reboot, wieder Watchdog Meldung. Also ein weiterer Reboot sagte mir dann CPU out of Sync. Wer h\u00e4tte das gedacht, der dritte Server der nun ausgefallen ist. <img src=\"http:\/\/3fu.de\/wp-includes\/images\/smilies\/rage.png\" alt=\":fuuu:\" class=\"wp-smiley\" style=\"height: 1em; max-height: 1em;\" \/> Trotzdem war ich noch entspannt was an Serverkapazit\u00e4t vorhanden ist. Solange der HPE Cloudline l\u00e4uft ist alles in trockenen T\u00fcchern. <br><br>Es ist Donnerstag Nachmittag, insgesamt laufen nun vier Proxmox Server, zwei dicke und die zwei Mini PCs. Jetzt machte ich mich dran diese in ein Datencenter zu verbinden. Das ist sch\u00f6n bei Proxmox, so kann man \u00fcber eine WebUI alle vier Server steuern. Was ich aber nicht wusste: Wenn man diese in ein Datacenter zusammenpacken will, d\u00fcrfen auf den Proxmox Server die joinen sollen keine Container oder VMs vorhanden sein. Bl\u00f6d, da Router und CheckMK schon laufen. Den HPE neuinstallieren war aber keine Option, sonst h\u00e4tte ich wieder 7 Stunden Datenbackups hin und herschieben m\u00fcssen. <br><br>Nach etwas Recherche konnte ich dann nachlesen wie man die Datencenterzuordnung l\u00f6schen konnte. Dies half mir, so war denn der HPE der Master. Bei den MiniPCs konnte ich dann die LXC Container schnell l\u00f6schen und neu aufziehen, die waren in 5 Minuten kopiert <img src=\"http:\/\/3fu.de\/wp-includes\/images\/smilies\/icon_smile.gif\" alt=\":)\" class=\"wp-smiley\" style=\"height: 1em; max-height: 1em;\" \/> <\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Die Serverfarm und Container stehen endlich, ab zu den Switchen<\/h4>\n\n\n\n<p>Unter vorheriger Absprache hatte ich mit unserem Lagermeister besprochen welche Switche ich brauche, wir haben n\u00e4mlich deutlich mehr bekommen als wir brauchen. Zum Gl\u00fcck hat sich herausgestellt, ich sagte ihm nur, dass zwei auf Reserve reichen werden. Dem war nicht so <img src=\"http:\/\/3fu.de\/wp-includes\/images\/smilies\/rage.png\" alt=\":fuuu:\" class=\"wp-smiley\" style=\"height: 1em; max-height: 1em;\" \/><br><br>Am Mittwoch Abend hatte ich die alle Switche eingerichtet, durch das ganze Server Chaos kam ich aber nicht dazu die LWL Kabel zu verlegen. Donnerstag Abend machte ich mich dann dran, die LWL Kabel steckten nun alle und so konnte ich dann alle Switche ins CheckMK \u00fcbertragen, dachte ich zumindest. Zwei Clientswitche waren nicht erreichbar, wobei die XFP Verbindungen vorhanden waren. Ich klinkte mich direkt an einen Clientswitch dran, dieser war dann erreichbar, aber der erreichte nicht den Backbone. Komisch, ich hatte keine Filterregeln eingesetzt. Factory Reset und neuer Versuch, jedoch ohne Erfolg. Es war ein Mysterium, also gesprochen mit dem Lagermeister, es m\u00fcssen alle Switche zu uns die wir haben. Am Ende hatten wir drei Switche als defekt markiert, zwei hatten diesen komischen XFP Bug und bei einem stand im Bootloader Memory Error, dem traute ich dann nicht \u00fcber den Weg.<br><br>Sp\u00e4ter kamen dann die restlichen Switche, diese funktionierten dann auch auf Anhieb. Was da genau nun los war, keine Ahnung<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Mit sieben Klicks den LAN Start in Gefahr gebracht<\/h4>\n\n\n\n<p>Wir haben Donnerstag Nacht, 23 Uhr. Der n\u00e4chste Step war es bei den Switchen LACP und VLACP zu aktivieren. Dabei m\u00fcsst ihr wissen, ich hab jedes Szenario daheim ausprobiert und zu wissen, welche Configs ich dann auf der LAN setzen muss. Es ging los:<br><br>Auf jedem Switch eingeloggt und in der richtigen Reihenfolge LACP aktiviert. Nach einer Minute konnte ich den Backbone sowie alle Clientswitche erreichen. Supi <img src=\"http:\/\/3fu.de\/wp-includes\/images\/smilies\/icon_smile.gif\" alt=\":)\" class=\"wp-smiley\" style=\"height: 1em; max-height: 1em;\" \/> Ab gehts, aktivere VLACP. Ich warte eine Minute: 4 Switche reden wieder mit mir. Aber zwei Clientswitche und der Backbone, n\u00f6, die haben keine Lust. Ich warte weiter, und weiter, und weiter&#8230; Es tut sich nichts. Langsam frage ich mich ob ich im falschen Film bin, die kurze Nacht im Nacken sp\u00fcre ich, auch dass bis jetzt jede Idee, die ich umsetzen wollte, immer anders lief als gedacht. Mangelnde Erfahrung mit den Avayaswitchen sei dank bleibt mir nichts \u00fcbrig als: Auf den Switchen die ich erreichen kann VLACP und LACP wieder deaktivieren und auf die, die ich nicht erreiche direkt dran und dort deaktivieren. Es gab nur ein Problem, ein Backbone war nicht erreichbar und direkt mit RJ45 anschlie\u00dfen war da nicht, denn da waren 8x XFP und 24x SFP Ports. Fast voller Verzweiflung dachte ich mir: Was solls, Factory Reset ist schnell gemacht. Hauptsache ich erreiche den wieder.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Ein neuer Morgen bricht an, mit Usern<\/h4>\n\n\n\n<p>Es ist Freitag Vormittag, die LAN-Party kann endlich beginnen, die Server sind alle erreichbar und auch die Switche machen nun das was sie sollen. Auch die Nacht war wesentlich besser, sodass ich frisch im Kopf war. Der letzte Step war dann nur noch alles in CheckMK einpflegen, Grafana Board bauen und dann die LAN ihren freien Lauf zu lassen. Meine Nerven aber waren am Ende \ud83d\ude05 Ich merkte dass ich in dem Thema alleine war und wirklich in jedem Topic was passierte&#8230; Aber beim ersten ankommen der User merkte ich wie ich anfing die LAN zu genie\u00dfen. Nach \u00fcber 2 1\/2 Jahren Pause endlich wieder ein W2tJ hosten, welch herrliches Gef\u00fchl!<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Du kannst so viel testen wie du willst, im Live Betrieb ist alles anders!<\/h4>\n\n\n\n<p>Die Dedicated Spiele Server hatten diesmal auf ein komplett anderes Konzept: Anstatt es direkt \u00fcber systemd zu machen nahm ich mir LinuxGSM zur Hilfe. Auf dem Papier siehts auch toll aus: Patchmanagement, Integration in Discord falls was failed uvm. Auch die Tests verliefen ohne Probleme, man fand die Server in der Serverliste. <br><br>Am Freitag Abend wurde ich dann drauf angesprochen, wie die ServerIPs sind und ob wir Dedicated CS:GO Server haben. Ich dachte mir erst, RTFM, geh in den Serverbrowser. Nun, ich ging an seinen Platz, und man fand sie nicht. Da es ein Linux User war hatte ich erst die Vermutung dass da im Linux stack was schief l\u00e4uft. Aber an meinem PC fand ich auch keine Server &#8230; Klasse, Stunden der Einrichtung und es sieht keiner die Server.<br><br>Meine erste Vermutung: Die Avaya Switche w\u00fcrden die Broadcasts unterbinden wegen einem Limit. Dem war aber nicht so. Erst Samstag Mittag stellte ich fest, es ist ein LinuxGSM Bug. Mein Fehler war es, dass ich in der Config die IP-Adresse angegeben hatte unter der der Server erreichbar ist. Aber anscheinend konnte er das nicht richtig \u00fcbernehmen, erst als ich in den Settings 0.0.0.0 angab waren die Server im Serverbrowser zu finden. Verstehe einer wer will &#8230;<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Jedes Wochenende hat auch mal ein Ende<\/h4>\n\n\n\n<p>Nach diesen ganzen Stolpersteinen lag ich total kaputt am Sonntag im Bett. Klar, der Schlafmangel auf der LAN hat auch dazu beigetragen. Das aber wirklich in jedem was schief ging hatte ich noch nicht erlebt. Die n\u00e4chste W2tJ findet bereits im Oktober statt, gut dass aber ich da nichts neues einrichten muss, sondern einfach nur anschalten und anpassen. \ud83d\ude05<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Leute die mich kennen wissen, dass ich einer der beiden Administratoren der Welcome 2 the Jungle (W2tJ) LAN-Party bin. Dieses mache ich auch immer wieder gerne denn diese LAN war mein Sprungbrett in die professionelle IT-Welt. Nach \u00fcber zwei Jahren Corona Pause war es also im August 2022 wieder soweit eine LAN zu hosten. In [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-68","post","type-post","status-publish","format-standard","hentry","category-allgemein"],"_links":{"self":[{"href":"https:\/\/3fu.de\/index.php?rest_route=\/wp\/v2\/posts\/68","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/3fu.de\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/3fu.de\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/3fu.de\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/3fu.de\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=68"}],"version-history":[{"count":24,"href":"https:\/\/3fu.de\/index.php?rest_route=\/wp\/v2\/posts\/68\/revisions"}],"predecessor-version":[{"id":92,"href":"https:\/\/3fu.de\/index.php?rest_route=\/wp\/v2\/posts\/68\/revisions\/92"}],"wp:attachment":[{"href":"https:\/\/3fu.de\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=68"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/3fu.de\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=68"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/3fu.de\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=68"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}