LogHouse wuchs von 19 PiB auf über 100 PB unkomprimierte Logs und 500 Bio. Zeilen.
OpenTelemetry-Pipeline wurde ineffizient: hoher CPU-Aufwand und Datenverlust bei hohem Durchsatz.
SysEx (System Tables Exporter) realisiert bytegenaue Direktkopie von ClickHouse-Systemtabellen ohne Marshalling.
Pull-basierte Scraper mit Zeitfenstern reduzieren CPU-Bedarf von Tausenden auf wenige Dutzend Kerne.
Dynamische Schema-Erkennung und Merge-Engine ermöglichen nahtlose Abfragen über Schema-Iterationen.
Erweiterungen: Snapshotting flüchtiger Tabellen, fleetweite Abfragen und Integration mit HyperDX-UI.
Breiter Ereignisansatz: alle Rohdaten gespeichert, Aggregation erfolgt zur Abfragezeit, statt Ingest-Voraggregation.
Geplante Weiterentwicklung: Zero-Impact-Scraping über S3 und Evaluierung des JSON-Datentyps.
Get notified when new stories are published for "🇩🇪 Hacker News Deutsch"