В CDC-пайплайнах Apache Iceberg существуют два типа удаления строк: позиционное и по значениям (equality delete).
Позиционное удаление эффективно при чтении, но требует знания физического расположения строк и не пригодно для стриминга из-за высоких задержек поиска.
Equality delete подходит для стриминга CDC благодаря удалению по ключам без доступа к физическому местоположению, но ухудшает производительность чтения из-за merge-on-read.
Популярные движки (Snowflake, Databricks, Redshift) либо не поддерживают equality delete, либо поддерживают только позиционные удаления.
RisingWave реализует гибридную стратегию удаления: позиционные удаления для обновлений внутри пакета и equality deletes для остальных изменений.
RisingWave автоматически компактует delete-файлы и мелкие файлы, снижая read amplification и улучшая производительность запросов.
Для кросс-платформенной совместимости RisingWave экспортирует «чистую» версию таблицы без delete-файлов для движков, не поддерживающих equality delete.
Решение RisingWave обеспечивает идемпотентность коммитов и exactly-once гарантии без существенных накладных расходов.
На примере Siemens внедрение RisingWave сократило задержку доступа к данным до реального времени, упростило архитектуру и снизило эксплуатационные затраты.
Get notified when new stories are published for "Hacker News 🇷🇺 Русский"