Cómo construir Data Lakes fiables con Delta Lake

26 de mayo - 10am CEST

Delta Lake es una capa de almacenamiento de datos open source que aporta fiabilidad a los Data Lakes. Delta Lake proporciona transacciones ACID, manejo escalable de metadatos y unifica el procesamiento de datos en streaming y batch. Delta Lake se ejecuta sobre su Data Lake existente y es totalmente compatible con las API de Apache Spark.

 

Específicamente, Delta Lake ofrece:

  • Transacciones ACID en Spark: El nivel de aislamiento “serializable” asegura que los consumidores nunca vean datos inconsistentes.
  • Manejo escalable de metadatos: Aprovecha la potencia de procesamiento distribuido de Spark para manejar con facilidad todos los metadatos de las tablas, a escala de petabytes de datos y miles de millones de archivos.
  • Unificación de streaming y batch: Una tabla en el Delta Lake puede ser utilizada para procesamiento en batch, así como fuente o sumidero de streaming. Ingesta de datos en streaming, backfill de datos en batch, consultas interactivas: todo funciona de manera integral.
  • Aplicación de esquemas: controla automáticamente las variaciones de los esquemas para evitar la inserción de registros erróneos durante la ingesta.
  • Time travel: La creación de versiones de datos permite reversiones, registros históricos completos de auditoría y experimentos reproducibles de aprendizaje automático.

 

Únete a este webinar para aprender todo sobre el Delta Lake. También tendrás la oportunidad de hacer todas tus preguntas al presentador del webinar, Arduino Cascella, Solutions Architect, Databricks.


¡Inscríbete hoy!