Was ist Apache Kafka

Was ist Apache Kafka?

Apache Kafka ist eine verteilte Event-Streaming-Plattform, die ursprünglich bei LinkedIn entwickelt und 2011 als Open-Source-Projekt der Apache Software Foundation übergeben wurde. Kafka wurde speziell dafür konzipiert, extrem große Mengen an Ereignissen (Events) in Echtzeit zuverlässig zu empfangen, zu speichern und weiterzuleiten – und das mit minimaler Latenz auch bei hohen Lastspitzen.

Vereinfacht ausgedrückt funktioniert Kafka wie ein hochskalierbares, dauerhaftes Nachrichtenprotokoll: Produzenten (Producer) schreiben Daten in sogenannte Topics, Konsumenten (Consumer) lesen diese Daten in ihrem eigenen Tempo heraus. Dabei bleiben die Daten für einen konfigurierbaren Zeitraum im System erhalten – im Gegensatz zu klassischen Message-Queues, die Nachrichten nach dem Lesen verwerfen.

Wie funktioniert Kafka technisch?

Kafka basiert auf einem Log-basierten Speichermodell. Jedes Topic ist in Partitionen aufgeteilt, die sequenziell beschrieben werden. Jede Nachricht erhält einen Offset – eine fortlaufende Positionsnummer – über die Consumer genau nachvollziehen können, welche Nachrichten sie bereits verarbeitet haben. Dieses Modell ermöglicht nicht nur hohe Schreibgeschwindigkeiten, sondern auch die Möglichkeit, Datenströme nachträglich erneut zu verarbeiten (Replay).

Ein Kafka-Cluster besteht aus mehreren Brokern, die gemeinsam die Last verteilen und Ausfallsicherheit gewährleisten. Seit Version 2.8 kann Kafka ohne externe ZooKeeper-Instanz betrieben werden (KRaft-Modus), was die Betriebskomplexität deutlich reduziert.

Typische Einsatzbereiche

Echtzeit-Datenpipelines: Kafka verbindet Quellsysteme (Datenbanken, APIs, Sensoren) mit Zielsystemen wie Data Warehouses oder Analytics-Plattformen.
Event-Driven Architecture: Mikroservices kommunizieren asynchron über Kafka-Topics, ohne direkte Abhängigkeiten untereinander.
Change Data Capture (CDC): Datenbankänderungen werden als Events erfasst und in nachgelagerte Systeme propagiert.
Log-Aggregation: Logs aus verteilten Systemen werden zentral gesammelt und auswertbar gemacht.
Stream Processing: In Kombination mit Kafka Streams oder Apache Flink lassen sich Datenströme direkt in Kafka transformieren und anreichern.

Vorteile gegenüber klassischen Message-Systemen

Traditionelle Message Broker wie RabbitMQ oder ActiveMQ sind auf niedrige Latenz bei kleinen Nachrichtenmengen optimiert. Kafka hingegen ist auf Durchsatz und Persistenz ausgelegt. Während klassische Systeme Nachrichten nach dem Lesen löschen, speichert Kafka sie dauerhaft – oder bis ein konfigurierbares Zeitlimit überschritten wird. Das macht Kafka zum bevorzugten Werkzeug, wenn Daten aus mehreren Konsumenten parallel verarbeitet oder historisch nachvollzogen werden müssen.

Zudem skaliert Kafka horizontal: Durch das Hinzufügen weiterer Broker und Partitionen lassen sich Millionen von Events pro Sekunde verarbeiten – ohne Anpassungen am Anwendungscode.

Kafka im Zusammenspiel mit dem Data Warehouse

Kafka ist kein Ersatz für ein Data Warehouse, sondern dessen idealer Datenzulieferer. Während Tools wie dbt Core die Transformation von Daten übernehmen und Data Vault das strukturelle Modellierungsparadigma liefert, sorgt Kafka dafür, dass Rohdaten schnell, vollständig und in korrekter Reihenfolge im Warehouse landen. Die Kombination dieser drei Technologien bildet heute das Fundament vieler moderner Datarchitekturen.

Wann ist Kafka die richtige Wahl?

Kafka empfiehlt sich überall dort, wo:

hohe Datenvolumina in kurzen Intervallen anfallen,
mehrere Systeme denselben Datenstrom konsumieren müssen,
die Reihenfolge von Ereignissen wichtig ist,
ein Replay von Ereignissen für Debugging oder Reprocessing benötigt wird,
eine lose Kopplung zwischen Produzenten und Konsumenten gewünscht ist.

Für kleinere Anwendungsfälle mit geringen Datenmengen kann ein einfacherer Message Broker ausreichen. Bei echter Echtzeit-Datenverarbeitung im Enterprise-Umfeld ist Kafka jedoch kaum zu umgehen.