ETL e ELT
ETL Extração, transformação e carregamento (ETL) correspondem ao processo de combinação de dados de várias fontes em um grande repositório central, chamado de data warehouse. O processo de ETL usa um conjunto de regras de negócios para limpar e organizar dados brutos e prepará-los para armazenamento, data analytics e machine learning (ML). Como funciona o processo de ETL? O processo de extração, transformação e carregamento (ETL) se dá pela movimentação de dados do sistema de origem para o sistema de destino em intervalos periódicos. O processo de ETL funciona em três etapas: Extração dos dados relevantes do banco de dados de origem Transformação dos dados para que sejam mais adequados a análises Carregamento dos dados no banco de dados de destino O que é ELT? Extração, carregamento e transformação (ELT) é uma extensão de extração, transformação e carregamento (ETL) que inverte a ordem das operações. Você pode fazer o carregamento de dados diretamente no sistema de destino antes de processá-los. A área de preparação intermediária não é necessária porque o data warehouse de destino possui recursos de mapeamento de dados. O que é extração de dados? Na extração de dados, as ferramentas de ETL extraem ou copiam dados brutos de diversas fontes e os armazenam em uma área de preparação. Uma área de preparação (ou zona de pouso) é uma área de armazenamento intermediária para armazenamento temporário dos dados extraídos. As áreas de preparação de dados geralmente são temporárias, o que significa que seu conteúdo é apagado após a conclusão da extração de dados. A frequência com que o sistema envia dados da fonte de dados para o armazenamento de dados de destino depende do mecanismo de captura de dados de alterações subjacente. Normalmente, a extração de dados acontece de uma das três maneiras apresentadas a seguir. Notificação de atualização: o sistema de origem notifica você quando um registro de dados é alterado. Extração gradual: Algumas fontes de dados não podem fornecer notificações de atualização, mas podem identificar e extrair dados que foram modificados em um determinado período. Extração completa: alguns sistemas não conseguem identificar alterações de dados ou fornecer notificações, portanto, realizar novamente o carregamento de todos os dados é a única opção. O que é transformação de dados? As ferramentas de ETL transformam e consolidam os dados brutos na área de preparação a fim de prepará-los para o data warehouse de destino. A fase de transformação de dados pode envolver os seguintes tipos de alterações de dados. Transformação de dados básica: melhoram a qualidade dos dados ao remover erros, esvaziar campos de dados ou simplificar os dados. Veja exemplos dessas transformações a seguir. Limpeza de dados: A limpeza de dados remove erros e mapeia os dados de origem para o formato de dados de destino Eliminação de duplicação de dados: identifica e remove registros duplicados Revisão de formato de dados: converte dados, como conjuntos de caracteres, unidades de medida e valores de data e horário, para um formato consistente. Transformação de dados avançada: utilizam regras de negócios para otimizar os dados a fim de facilitar a análise. Veja exemplos dessas transformações a seguir. Derivação: aplica regras de negócios aos seus dados para calcular novos valores com base em valores existentes. Junção: vincula dados semelhantes de diferentes fontes de dados. Separação: você pode dividir uma coluna ou um atributo de dados em diversas colunas no sistema de destino. Resumo: melhora a qualidade dos dados ao reduzir um grande número de valores de dados em um conjunto de dados menor. Encriptação: Você pode proteger dados confidenciais para cumprir as leis de dados ou a privacidade de dados adicionando encriptação antes que os dados sejam transmitidos para o banco de dados de destino. O que é carregamento de dados? No carregamento de dados, as ferramentas de extração, transformação e carregamento (ETL) movem os dados transformados da área de preparação para o data warehouse de destino. Veja abaixo métodos para carregamento de dados. Carregamento completo: todos os dados da origem são transformados e movidos para o data warehouse. Carregamento incremental: a ferramenta de ETL realiza o carregamento do delta (ou diferença) entre os sistemas de destino e de origem em intervalos regulares. Carregamento incremental por transmissão: se você tiver pequenos volumes de dados, poderá transmitir alterações de forma contínua através de pipelines de dados para o data warehouse de destino. Carregamento incremental em lotes: se você tiver grandes volumes de dados, poderá coletar alterações de dados de carregamento em lotes periodicamente. ETL e ELT O processo de ELT funciona bem para conjuntos de dados não estruturados e de alto volume que exigem carregamento frequente. Também é ideal para big data, pois o pl

ETL
- Extração, transformação e carregamento (ETL) correspondem ao processo de combinação de dados de várias fontes em um grande repositório central, chamado de data warehouse.
- O processo de ETL usa um conjunto de regras de negócios para limpar e organizar dados brutos e prepará-los para armazenamento, data analytics e machine learning (ML).
Como funciona o processo de ETL?
- O processo de extração, transformação e carregamento (ETL) se dá pela movimentação de dados do sistema de origem para o sistema de destino em intervalos periódicos. O processo de ETL funciona em três etapas:
- Extração dos dados relevantes do banco de dados de origem
- Transformação dos dados para que sejam mais adequados a análises
- Carregamento dos dados no banco de dados de destino
O que é ELT?
- Extração, carregamento e transformação (ELT) é uma extensão de extração, transformação e carregamento (ETL) que inverte a ordem das operações.
- Você pode fazer o carregamento de dados diretamente no sistema de destino antes de processá-los.
- A área de preparação intermediária não é necessária porque o data warehouse de destino possui recursos de mapeamento de dados.
O que é extração de dados?
- Na extração de dados, as ferramentas de ETL extraem ou copiam dados brutos de diversas fontes e os armazenam em uma área de preparação.
- Uma área de preparação (ou zona de pouso) é uma área de armazenamento intermediária para armazenamento temporário dos dados extraídos.
- As áreas de preparação de dados geralmente são temporárias, o que significa que seu conteúdo é apagado após a conclusão da extração de dados.
- A frequência com que o sistema envia dados da fonte de dados para o armazenamento de dados de destino depende do mecanismo de captura de dados de alterações subjacente. Normalmente, a extração de dados acontece de uma das três maneiras apresentadas a seguir.
- Notificação de atualização: o sistema de origem notifica você quando um registro de dados é alterado.
- Extração gradual: Algumas fontes de dados não podem fornecer notificações de atualização, mas podem identificar e extrair dados que foram modificados em um determinado período.
- Extração completa: alguns sistemas não conseguem identificar alterações de dados ou fornecer notificações, portanto, realizar novamente o carregamento de todos os dados é a única opção.
O que é transformação de dados?
- As ferramentas de ETL transformam e consolidam os dados brutos na área de preparação a fim de prepará-los para o data warehouse de destino. A fase de transformação de dados pode envolver os seguintes tipos de alterações de dados.
Transformação de dados básica: melhoram a qualidade dos dados ao remover erros, esvaziar campos de dados ou simplificar os dados. Veja exemplos dessas transformações a seguir.
Limpeza de dados: A limpeza de dados remove erros e mapeia os dados de origem para o formato de dados de destino
Eliminação de duplicação de dados: identifica e remove registros duplicados
Revisão de formato de dados: converte dados, como conjuntos de caracteres, unidades de medida e valores de data e horário, para um formato consistente.
Transformação de dados avançada: utilizam regras de negócios para otimizar os dados a fim de facilitar a análise. Veja exemplos dessas transformações a seguir.
Derivação: aplica regras de negócios aos seus dados para calcular novos valores com base em valores existentes.
Junção: vincula dados semelhantes de diferentes fontes de dados.
Separação: você pode dividir uma coluna ou um atributo de dados em diversas colunas no sistema de destino.
Resumo: melhora a qualidade dos dados ao reduzir um grande número de valores de dados em um conjunto de dados menor.
Encriptação: Você pode proteger dados confidenciais para cumprir as leis de dados ou a privacidade de dados adicionando encriptação antes que os dados sejam transmitidos para o banco de dados de destino.
O que é carregamento de dados?
- No carregamento de dados, as ferramentas de extração, transformação e carregamento (ETL) movem os dados transformados da área de preparação para o data warehouse de destino.
- Veja abaixo métodos para carregamento de dados.
- Carregamento completo: todos os dados da origem são transformados e movidos para o data warehouse.
- Carregamento incremental: a ferramenta de ETL realiza o carregamento do delta (ou diferença) entre os sistemas de destino e de origem em intervalos regulares.
- Carregamento incremental por transmissão: se você tiver pequenos volumes de dados, poderá transmitir alterações de forma contínua através de pipelines de dados para o data warehouse de destino.
- Carregamento incremental em lotes: se você tiver grandes volumes de dados, poderá coletar alterações de dados de carregamento em lotes periodicamente.
ETL e ELT
- O processo de ELT funciona bem para conjuntos de dados não estruturados e de alto volume que exigem carregamento frequente. Também é ideal para big data, pois o planejamento de análises pode ser realizado após a extração e o armazenamento dos dados.
- O processo de ETL requer maior definição no início. A análise precisa estar envolvida desde o início para que haja definição dos tipos de dados de destino, estruturas e relações.
Diferença entre pipeline de dados e de ETL
- Um pipeline de extração, transformação e carregamento (ETL) é um tipo especial de pipeline de dados. As ferramentas ETL extraem ou copiam dados brutos de várias fontes e os armazenam em um local temporário chamado de área de preparação.
- Elas transformam os dados na área de preparação e os carregam em data lakes ou armazéns.
- Nem todos os pipelines de dados seguem a sequência ETL.
- Alguns podem extrair os dados de uma fonte e carregá-los em outro lugar sem transformações. Outros pipelines de dados seguem uma sequência de extração, carregamento e transformação (ELT), onde extraem e carregam dados não estruturados diretamente em um data lake.
- Eles realizam alterações depois de mover as informações para data warehouses na nuvem.