Debezium zachytává změny v databázích v reálném čase. Každý INSERT, UPDATE a DELETE se přenese do Kafka bez zátěže zdrojové DB.
Change Data Capture¶
CDC čte transakční log (WAL, binlog) — nezatěžuje zdrojovou DB.
{
"name": "postgres-cdc",
"config": {
"connector.class": "io.debezium.connector.postgresql.PostgresConnector",
"database.hostname": "postgres",
"database.dbname": "app",
"topic.prefix": "cdc",
"table.include.list": "public.orders",
"plugin.name": "pgoutput",
"transforms": "unwrap",
"transforms.unwrap.type": "io.debezium.transforms.ExtractNewRecordState"
}
}
CDC → Data Lake¶
- Debezium → Kafka
- Flink/Spark → zpracování
- Delta/Iceberg/Hudi → upsert
Shrnutí¶
Debezium je standard pro CDC v Kafka ekosystému. Near real-time replikace bez zátěže zdrojové DB.
debeziumcdcreplikacekafka connect