Pular para o conteúdo

O que é ETL?

ETL (Extract, Transform, Load) é o processo em três etapas que move dados de sistemas-fonte para um destino analítico, aplicando limpeza e transformações no caminho.

Explicação completa

Na prática, ETL é o que conecta o mundo operacional (onde dados são gerados) ao mundo analítico (onde dados são analisados). Extrair puxa dados de APIs, bancos, arquivos CSV ou planilhas. Transformar limpa registros duplicados, padroniza formatos de data, converte moedas e aplica regras de negócio. Carregar insere o resultado num data warehouse como BigQuery, Snowflake ou Redshift. Ferramentas comuns: Apache Airflow, dbt, Fivetran e até scripts Python com pandas pra pipelines simples.

Exemplo prático

Uma fintech extrai transações do banco PostgreSQL de produção (Extract), remove duplicatas e converte timestamps pra UTC (Transform), e carrega o resultado numa tabela do BigQuery (Load) que alimenta o dashboard de receita.

Perguntas frequentes

Qual a diferença entre ETL e ELT?

Em ETL, a transformação acontece antes de carregar. Em ELT, você carrega os dados brutos primeiro e transforma dentro do destino (ex: com dbt no BigQuery). ELT ganhou tração porque warehouses modernos são baratos e poderosos o suficiente pra transformar in-place.

Preciso de uma ferramenta de ETL ou dá pra fazer com Python?

Pra pipelines simples (poucas fontes, execução diária), Python com pandas e cron resolve. Pra pipelines complexos com dependências, retry e monitoramento, ferramentas como Airflow ou Prefect evitam reinventar a roda.

ETL é responsabilidade de quem?

Engenheiros de dados constroem e mantêm pipelines ETL. Analistas e cientistas de dados são os consumidores do resultado. Em equipes pequenas, o analista faz tudo.

Quer dominar SQL na prática?

A IA do Souly gera um plano de estudos sob medida em poucos minutos.

Criar meu curso

Última atualização: