Descrição do Projeto
Este projeto simula um fluxo completo de ingestão e transformação de dados em um Data Lake utilizando PySpark. Os dados são particionados e organizados em camadas: Bronze (raw), Silver (curated) e Gold (analytics).
Stack Utilizada
- Apache Spark (PySpark)
- Armazenamento em Data Lake (parquet)
- Particionamento por data
- Camadas Bronze, Silver e Gold
Capturas de Tela