Apache Iceberg memiliki dua jenis delete baris: position delete dan equality delete, dengan trade-off antara performa baca dan kemudahan penulisan.
Position delete menghapus berdasarkan lokasi fisik file dan baris, cepat dibaca namun sulit dipakai di streaming CDC karena membutuhkan random reads.
Equality delete menghapus berdasarkan nilai kolom (biasanya primary key), cocok untuk streaming CDC tapi meningkatkan read amplification.
Banyak query engine utama (Snowflake, Databricks, Redshift) belum mendukung equality delete secara penuh, sehingga CDC ingestion ke Iceberg tidak konsisten.
RisingWave menawarkan pipeline end-to-end untuk streaming CDC ke Iceberg dengan strategi hibrida delete: position delete dalam batch dan equality delete di luar batch.
RisingWave menerapkan compaction terjadwal untuk mengurangi jumlah delete file, mengontrol read amplification, dan menjaga performa baca.
RisingWave menjamin exactly-once dan idempotency dalam commit, menghindari penulisan ganda dan kehilangan data di skenario high-frequency.
Studi kasus Siemens menunjukkan pengurangan latensi data, penghapusan kebutuhan Spark cleanup, dan penyederhanaan arsitektur data pipeline.
Get notified when new stories are published for "Berita Peretas 🇮🇩 Bahasa Indonesia"