Babiel Tech Blog

31. März 2023

SYN/ACK-Retries unter Linux mit eBPF messen

Wir sind häufig DDoS-Angriffen ausgesetzt. Ein SYN-Flood ist eine der ältesten Techniken, die dabei verwendet werden: der Angreifer sendet zahlreiche SYN-Pakete mit gespooften IP-Absenderadressen.

Dabei wird ausgenutzt, dass der TCP-Handshake aus mehreren Schritten besteht:

Der Client sendet ein SYN-Paket
Der Server antwortet mit einem SYN/ACK-Paket
Der Client antwortet mit einem ACK-Paket

Der Empfänger muss nicht nur für jedes erhaltene Paket einen State in seinem TCP-Stack aufrecht erhalten, sondern sendet im Angriffsfall mehrmals das SYN/ACK-Antwortpaket auf das SYN. Bei einem SYN-Flood wird es aber natürlich niemals eine Antwort auf das SYN/ACK geben.

Bei Linux werden standardmäßig bis zu 6 SYN/ACK-Pakete (1 initial + 5 Retries) auf ein einzelnes SYN geantwortet. Währenddessen bleibt der TCP-State erhalten und Connection-Tracking-States in Paketfiltern werden durch jedes neue SYN/ACK aktuell gehalten, wodurch sie ebenfalls nicht ablaufen können. Zusätzlich erzeugen wir unnötigen ausgehenden Traffic, der dann bei den gespooften Source-Adressen ankommt.

Maßnahmen gegen SYN-Floods sind z.B. einfach mehr offene States zu erlauben oder gar keinen State zu tracken, indem man SYN-Cookies verwendet. Mehr States kosten natürlich mehr Ressourcen und SYN-Cookies funktionieren nicht mit allen Protokollen oder in allen Fällen.

Wir haben uns aber zusätzlich noch einen anderen Ansatz angeschaut: Die Menge der SYN/ACK-Retries zu reduzieren.

6. Februar 202311. Mai 2023

Firmwareupdate für Samsung 980 PRO unter Linux

Leider gibt es bei der Samsung 980 PRO ein Problem mit der Firmware – die NVMe braucht dringend ein Update auf Firmware 5B2QGXA7, Details findet man im Artikel von Heise.

Das ISO findet man über https://semiconductor.samsung.com/consumer-storage/support/tools/ unter „Firmware“, jedoch macht Samsung es nicht leicht, die Firmware „mal eben“ unter Linux upzudaten, daher hier unsere Kurzanleitung!

Sichert vorher eure Daten! Wir hatten zwar keinen Datenverlust, aber ohne Sicherung macht man hier an dieser Stelle besser nicht weiter!

7. Oktober 202213. Dezember 2023

FastNetMon Configs mit CUE verwalten

Es war einmal in einem Rechenzentrum in Deutschland vor nicht all zu langer Zeit, da begab es sich, dass ein Admin FastNetsMon einrichten wollte. Doch diese Aufgabe stellte sich als mühsam heraus, da die Konfiguration nicht in einer Config-Datei gespeichert wurde, sondern nur via CLI möglich war. „Schade“, dachte sich der Admin und konfigurierte die Instanz manuell nach der Vorgabe, die ihm gegeben wurde.

Einige Jahre später wurden neue Server angeschafft, um die vorherigen auszumustern und die Zeit war gekommen die Installation zu wiederholen. Dieses mal war es jedoch anders als noch vor ein paar Jahren! Es musste nicht nur eine Instanz konfiguriert werden, sondern zwei Instanzen. Dieser Umstand führte direkt zu Fehlern, da die alte Version andere Parameter hatte als die neue. Ebenfalls wurde von IPFIX/sFlow auf einen Port-Mirror umgestellt, weshalb dort weitere Einstellungen angepasst und geprüft werden mussten.

20. Juli 202220. Juli 2022

Automainter: Vollautomatische Wartung für 1300 Linux-Maschinen

Wir betreiben derzeit (Stand Juli 2022) 1300 Linux-Maschinen. Alle diese Maschinen brauchen regelmäßige Wartungen, z.B. für Sicherheitsupdates. Wie können wir diese Wartungen durchführen, ohne dass wir zu nichts anderem mehr kommen?

24. Mai 202224. Mai 2022

Varnish Cache performant revalidieren

Für eine Applikation haben wir eine Möglichkeit gesucht, um einzelne Objekte bzw. URLs in einem vorgeschalteten Varnish Cache vor Ablauf der maximalen Caching-Dauer zu erneuern. Die Anwendung sollte dabei möglichst wenig belastet werden. Die Clients sollen zudem bei der Erneuerung von Inhalten keine erhöhten Antwortzeiten wahrnehmen.

28. Februar 202228. Februar 2022

go-mmproxy: Anwendung um PROXY-Protokoll erweitern

Für ein Projekt benötigten wir einen mandantenfähig Wowza Streaming Engine Server, wobei der Anwendung für einige Features die öffentliche IP-Adresse des Clients bekannt sein muss (z.B. zur Beschränkung des Startens von Live-Streams). Bei unserem Setup erhält die Applikation den Traffic jedoch von der internen IP-Adresse eines Gateways.

27. Januar 20226. Februar 2022

Prometheus-Metriken für Puppet Server mit Mtail

Wir verwalten alle unsere über 1000 Linux-Maschinen zentral mit Puppet. Puppet Server ist also eine wichtige Komponente unserer Infrastruktur. Wenn Puppet nicht zuverlässig läuft, können wir nicht ordentlich arbeiten.

In solche wichtigen Komponenten wollen wir Einblick, damit wir bei Problemen verstehen können wo es klemmt. Deswegen sammeln wir generell alle möglichen Daten mit Prometheus ein und werten diese in Grafana-Dashboards aus.

2. Juni 202128. Januar 2022

Bonding-Flapping mit Linux und Supermicro-IPMI

Dass jedes System irgendwann mal ausfällt, kommt natürlich vor. Neulich hatten wir einen Ausfall, welcher routinemäßig anfing, sich jedoch als sehr seltsam entpuppte.

Alles begann an einem Dienstagmorgen gegen halb drei. Einer der Switches im Rack fiel aus und das Monitoring klingelte die Bereitschafts-Admins wach, da nicht nur der Switch, sondern auch ein paar Server nicht mehr erreichbar waren. Der Ausfall selber wäre halb so wild, da die Server mithilfe eines Active-Passive Bondings an zwei verschiedenen Switches hängen. Jedoch wurde bei manchen Servern der Port, welcher an den defekten Switch angeschlossen war, immer wieder auf „Active“ gesetzt. Das dies ein falsches Verhalten ist, ist natürlich klar, jedoch die Ursache ein schönes Beispiel für das Zusammenspiel von mehreren unbekannten Standardparametern.

„Bonding-Flapping mit Linux und Supermicro-IPMI“ weiterlesen

19. April 202123. Januar 2023

Featurebranches mit Gitlab auf gemeinsamer Stage-Umgebung testen

Im Hosting-Team von Babiel verwenden wir (natürlich) Git-Repos für unsere Anwendungen und Konfigurationen. Wir nutzen Gitlab um die Repos zu hosten. Dabei arbeiten wir stark mit Featurebranches, Merge Requests und CI-Pipelines, damit Änderungen vor dem Rollout einen Code-Review und automatische Tests durchlaufen können. Üblicherweise erlauben wir in unseren Repos nicht, direkt in den Hauptbranch (master/main) zu pushen, damit dort keine Änderungen ankommen, die die Pipeline für die Kolleg*innen kaputt machen würden.

Manchmal möchte man einen Branch tatsächlich deployen, um ihn bewerten zu können, bevor man ihn merget. Bei Gitlab gibt es dazu das Feature „Review Apps“, mit dem Branches in eine temporäre Umgebung ausgerollt werden können. Gitlab zeigt auch einen Link zu dieser Umgebung an, so dass man direkt dorthin springen kann. Wenn man den Branch löscht (was meistens automatisch beim Merge passiert), wird die temporäre Umgebung ebenfalls gelöscht.

Review Apps sind ein sehr nützliches Feature. Wir benutzen es für die meisten Services, die wir auf Kubernetes betreiben, denn dort können wir schnell zusätzliche Umgebungen erstellen und ebenso schnell auch wieder löschen.

19. November 202029. April 2021

Hello world!

Willkommen zum technischen Blog der Babiel GmbH!

Hier schreiben häuptsächlich Kollegen aus dem Bereich des Managed Hostings – unsere HR bespielt Linkedin, Facebook und Instragram – hier sind die Techniker am Werk. 😉 Auf twitter sind wir diejenigen, die technische Dinge (re)tweeten und kennzeichnen dort unsere Beiträge durch unser jeweiliges Kürzel.

Wir hoffen, durch den Blog bessere Einblicke darauf geben zu können, wie wir arbeiten, welche Themen uns bewegen und hoffen, darüber auch in einen Austausch zu kommen. Pre-COVID19 fand man uns regelmäßig auf Meetups, z.B. beim „talk@babiel“ direkt bei uns vor Ort, aber z.B. auch bei DevOps Düsseldorf – dort ebenfalls mit Vorträgen. Da der Vor-Ort Austausch leider schon lange ruhen muss, sieht man sich nun vielleicht mal beim Infrafoo des Chaosdorf.

Zum Team: wir sind derzeit 22 Kollegen und dafür verantwortlich, die IT Services der Babiel zu betreiben. Das fängt an bei Grundlagen wie dem Betrieb unseres Autonomen Systems AS198913, geht weiter über Themen wie Virtualisierung, Storage, Betriebssysteme, Managed Hosting, Monitoring und umfasst auch den Betrieb der Applikationen; aber auch betriebsrelevante Tools werden in der Abteilung programmiert.

Themen die uns bewegen sind also:

Datacenter-Technologie im Netzwerkbereich, Loadbalancer, DDoS-Schutz, Virtualisierung
Automatisierung, CI/CD Pipelines, Puppet, Go
Kubernetes
Linux
Speziallösungen für IT-Probleme, die man mit der Zeit bekommt und für die es keine „off the shelf“ Lösung gibt

Enjoy our Blog!