O que é DataFrame?
DataFrame é uma estrutura de dados bidimensional (linhas e colunas com tipos mistos) usada em linguagens como Python e R para manipular dados tabulares em memória.
Explicação completa
Pense num DataFrame como uma planilha programável. Cada coluna tem um tipo (texto, número, data) e cada linha é um registro. A diferença pra uma planilha real é que você opera via código: filtra mil linhas com uma expressão, agrupa por categoria em uma chamada, e encadeia transformações sem mouse. Em Python, pandas.DataFrame é o padrão. Em Spark, existe o equivalente distribuído pra datasets que não cabem numa máquina. Em R, data.frame e tibble cumprem o mesmo papel.
Exemplo prático
Em pandas: `df = pd.read_csv('vendas.csv')` cria um DataFrame. `df[df['valor'] > 1000].groupby('categoria')['valor'].mean()` filtra vendas acima de R$ 1.000 e calcula a média por categoria em uma linha.
Termos relacionados
- O que é ETL?ETL (Extract, Transform, Load) é o processo em três etapas que move dados de sistemas-fonte para um destino analítico, aplicando limpeza e transformações no caminho.
- O que é Query?Query (consulta) é uma instrução formal enviada a um banco de dados ou sistema de busca para recuperar, inserir, atualizar ou deletar dados específicos.
Perguntas frequentes
DataFrame é a mesma coisa que uma tabela SQL?
Conceito similar (linhas e colunas), mas tabela SQL vive num banco de dados em disco com índices e transações. DataFrame vive em memória e é efêmero, existe enquanto o script roda.
Quando usar DataFrame em vez de SQL?
Quando os dados já estão em arquivo (CSV, JSON, Parquet), quando precisa de transformações que SQL não expressa bem (regex complexo, NLP), ou quando quer combinar análise com visualização no mesmo notebook.
DataFrame aguenta dados grandes?
pandas carrega tudo em memória. Funciona bem até ~1-2 GB. Acima disso, use polars (mais rápido e eficiente), Dask (paralelo), ou Spark (distribuído).
Quer dominar Python para Dados na prática?
A IA do Souly gera um plano de estudos sob medida em poucos minutos.
Última atualização: