¨¦ uma , implementada pela Databricks, que tenta trazer transa??es ACID para processamento de big data. Em nossos projetos de malha de dados (data mesh) ou lago de dados habilitado por Databricks, nossos times preferem usar o armazenamento Delta Lake em vez do uso direto de tipos de armazenamento de arquivos como ou . At¨¦ recentemente, o Delta Lake era um produto propriet¨¢rio fechado da Databricks, mas agora ¨¦ c¨®digo aberto e acess¨ªvel a plataformas n?o Databricks. No entanto, nossa recomenda??o de Delta Lake como uma op??o padr?o atualmente se estende apenas a projetos Databricks que usam formatos de arquivo . O Delta Lake facilita os casos de uso de leitura/escrita de dados simult?neas em que a transacionalidade no n¨ªvel do arquivo ¨¦ necess¨¢ria. Consideramos a fluida integra??o do Delta Lake com APIs de Apache Spark e muito ¨²til, principalmente recursos como (acessar dados em um determinado momento ou reverter um commit), bem como suporte para grava??o no , embora haja algumas limita??es nesses recursos
¨¦ uma , implementada pelo Databricks, que tenta levar transa??es ACID para o processamento de big data. Em nossos projetos de lago de dados ou malha de dados habilitados pelo Databricks, nossos times continuam preferindo usar o armazenamento Delta Lake em vez do uso direto de tipos de armazenamento de arquivos, como ou . Claro, isso se limita a projetos que usam plataformas de armazenamento que suportam ao usar formatos de arquivo . O Delta Lake facilita os casos de uso simult?neos de leitura/grava??o de dados em que a transacionalidade no n¨ªvel de arquivo ¨¦ necess¨¢ria. Achamos a impec¨¢vel integra??o do Delta Lake com a API de e do Apache Spark muito ¨²teis, principalmente recursos como ¡ª que possibilita acessar dados em um determinado momento ou reverter um commit ¡ª bem como suporte a , embora existam algumas limita??es nesses recursos.
¨¦ uma camada de armazenamento de c¨®digo aberto da Databrick que tenta trazer transa??es para processamento de big data. Um dos problemas que frequentemente encontramos quando usamos Apache Spark, ¨¦ a falta de transa??es ACID. Delta Lake tem integra??o com API Spark e resolve esse problema usando um log de transa??o e arquivos versionados. Seu isolamento serializ¨¢vel permite que leitores e gravadores concorrentes operem em arquivos Parquet. Outras funcionalidades bem-vindas incluem valida??o de esquema na escrita e no versionamento, o que nos permite consultar e reverter para vers?es antigas de dados, se necess¨¢rio. Come?amos a usar em alguns de nossos projetos e temos gostado bastante.

