O que é ETL?
ETL (Extract, Transform, Load) é o processo em três etapas que move dados de sistemas-fonte para um destino analítico, aplicando limpeza e transformações no caminho.
Explicação completa
Na prática, ETL é o que conecta o mundo operacional (onde dados são gerados) ao mundo analítico (onde dados são analisados). Extrair puxa dados de APIs, bancos, arquivos CSV ou planilhas. Transformar limpa registros duplicados, padroniza formatos de data, converte moedas e aplica regras de negócio. Carregar insere o resultado num data warehouse como BigQuery, Snowflake ou Redshift. Ferramentas comuns: Apache Airflow, dbt, Fivetran e até scripts Python com pandas pra pipelines simples.
Exemplo prático
Uma fintech extrai transações do banco PostgreSQL de produção (Extract), remove duplicatas e converte timestamps pra UTC (Transform), e carrega o resultado numa tabela do BigQuery (Load) que alimenta o dashboard de receita.
Termos relacionados
- O que é Banco de Dados?Banco de dados é um software que armazena dados de forma organizada e permite criar, ler, atualizar e deletar registros de maneira eficiente e controlada.
- O que é DataFrame?DataFrame é uma estrutura de dados bidimensional (linhas e colunas com tipos mistos) usada em linguagens como Python e R para manipular dados tabulares em memória.
Aprenda mais
- SQLSQL é a linguagem para consultar e manipular dados em bancos relacionais. Começa com SELECT, filtros e JOINs; evolui para agregações, subqueries e otimização.
- Python para DadosPython para dados é o combo pandas + numpy + matplotlib que transforma scripts simples em análises reproduzíveis. Você lê CSVs, limpa, agrega e visualiza, tudo dentro de um notebook.
Perguntas frequentes
Qual a diferença entre ETL e ELT?
Em ETL, a transformação acontece antes de carregar. Em ELT, você carrega os dados brutos primeiro e transforma dentro do destino (ex: com dbt no BigQuery). ELT ganhou tração porque warehouses modernos são baratos e poderosos o suficiente pra transformar in-place.
Preciso de uma ferramenta de ETL ou dá pra fazer com Python?
Pra pipelines simples (poucas fontes, execução diária), Python com pandas e cron resolve. Pra pipelines complexos com dependências, retry e monitoramento, ferramentas como Airflow ou Prefect evitam reinventar a roda.
ETL é responsabilidade de quem?
Engenheiros de dados constroem e mantêm pipelines ETL. Analistas e cientistas de dados são os consumidores do resultado. Em equipes pequenas, o analista faz tudo.
Quer dominar SQL na prática?
A IA do Souly gera um plano de estudos sob medida em poucos minutos.
Última atualização: