ETL e ELT

ETL Extração, transformação e carregamento (ETL) correspondem ao processo de combinação de dados de várias fontes em um grande repositório central, chamado de data warehouse. O processo de ETL usa um conjunto de regras de negócios para limpar e organizar dados brutos e prepará-los para armazenamento, data analytics e machine learning (ML). Como funciona o processo de ETL? O processo de extração, transformação e carregamento (ETL) se dá pela movimentação de dados do sistema de origem para o sistema de destino em intervalos periódicos. O processo de ETL funciona em três etapas: Extração dos dados relevantes do banco de dados de origem Transformação dos dados para que sejam mais adequados a análises Carregamento dos dados no banco de dados de destino O que é ELT? Extração, carregamento e transformação (ELT) é uma extensão de extração, transformação e carregamento (ETL) que inverte a ordem das operações. Você pode fazer o carregamento de dados diretamente no sistema de destino antes de processá-los. A área de preparação intermediária não é necessária porque o data warehouse de destino possui recursos de mapeamento de dados. O que é extração de dados? Na extração de dados, as ferramentas de ETL extraem ou copiam dados brutos de diversas fontes e os armazenam em uma área de preparação. Uma área de preparação (ou zona de pouso) é uma área de armazenamento intermediária para armazenamento temporário dos dados extraídos. As áreas de preparação de dados geralmente são temporárias, o que significa que seu conteúdo é apagado após a conclusão da extração de dados. A frequência com que o sistema envia dados da fonte de dados para o armazenamento de dados de destino depende do mecanismo de captura de dados de alterações subjacente. Normalmente, a extração de dados acontece de uma das três maneiras apresentadas a seguir. Notificação de atualização: o sistema de origem notifica você quando um registro de dados é alterado. Extração gradual: Algumas fontes de dados não podem fornecer notificações de atualização, mas podem identificar e extrair dados que foram modificados em um determinado período. Extração completa: alguns sistemas não conseguem identificar alterações de dados ou fornecer notificações, portanto, realizar novamente o carregamento de todos os dados é a única opção. O que é transformação de dados? As ferramentas de ETL transformam e consolidam os dados brutos na área de preparação a fim de prepará-los para o data warehouse de destino. A fase de transformação de dados pode envolver os seguintes tipos de alterações de dados. Transformação de dados básica: melhoram a qualidade dos dados ao remover erros, esvaziar campos de dados ou simplificar os dados. Veja exemplos dessas transformações a seguir. Limpeza de dados: A limpeza de dados remove erros e mapeia os dados de origem para o formato de dados de destino Eliminação de duplicação de dados: identifica e remove registros duplicados Revisão de formato de dados: converte dados, como conjuntos de caracteres, unidades de medida e valores de data e horário, para um formato consistente. Transformação de dados avançada: utilizam regras de negócios para otimizar os dados a fim de facilitar a análise. Veja exemplos dessas transformações a seguir. Derivação: aplica regras de negócios aos seus dados para calcular novos valores com base em valores existentes. Junção: vincula dados semelhantes de diferentes fontes de dados. Separação: você pode dividir uma coluna ou um atributo de dados em diversas colunas no sistema de destino. Resumo: melhora a qualidade dos dados ao reduzir um grande número de valores de dados em um conjunto de dados menor. Encriptação: Você pode proteger dados confidenciais para cumprir as leis de dados ou a privacidade de dados adicionando encriptação antes que os dados sejam transmitidos para o banco de dados de destino. O que é carregamento de dados? No carregamento de dados, as ferramentas de extração, transformação e carregamento (ETL) movem os dados transformados da área de preparação para o data warehouse de destino. Veja abaixo métodos para carregamento de dados. Carregamento completo: todos os dados da origem são transformados e movidos para o data warehouse. Carregamento incremental: a ferramenta de ETL realiza o carregamento do delta (ou diferença) entre os sistemas de destino e de origem em intervalos regulares. Carregamento incremental por transmissão: se você tiver pequenos volumes de dados, poderá transmitir alterações de forma contínua através de pipelines de dados para o data warehouse de destino. Carregamento incremental em lotes: se você tiver grandes volumes de dados, poderá coletar alterações de dados de carregamento em lotes periodicamente. ETL e ELT O processo de ELT funciona bem para conjuntos de dados não estruturados e de alto volume que exigem carregamento frequente. Também é ideal para big data, pois o pl

Mar 15, 2025 - 17:57
 0
ETL e ELT

ETL

  • Extração, transformação e carregamento (ETL) correspondem ao processo de combinação de dados de várias fontes em um grande repositório central, chamado de data warehouse.
  • O processo de ETL usa um conjunto de regras de negócios para limpar e organizar dados brutos e prepará-los para armazenamento, data analytics e machine learning (ML).

Como funciona o processo de ETL?

  • O processo de extração, transformação e carregamento (ETL) se dá pela movimentação de dados do sistema de origem para o sistema de destino em intervalos periódicos. O processo de ETL funciona em três etapas:
  • Extração dos dados relevantes do banco de dados de origem
  • Transformação dos dados para que sejam mais adequados a análises
  • Carregamento dos dados no banco de dados de destino

O que é ELT?

  • Extração, carregamento e transformação (ELT) é uma extensão de extração, transformação e carregamento (ETL) que inverte a ordem das operações.
  • Você pode fazer o carregamento de dados diretamente no sistema de destino antes de processá-los.
  • A área de preparação intermediária não é necessária porque o data warehouse de destino possui recursos de mapeamento de dados.

O que é extração de dados?

  • Na extração de dados, as ferramentas de ETL extraem ou copiam dados brutos de diversas fontes e os armazenam em uma área de preparação.
  • Uma área de preparação (ou zona de pouso) é uma área de armazenamento intermediária para armazenamento temporário dos dados extraídos.
  • As áreas de preparação de dados geralmente são temporárias, o que significa que seu conteúdo é apagado após a conclusão da extração de dados.
  • A frequência com que o sistema envia dados da fonte de dados para o armazenamento de dados de destino depende do mecanismo de captura de dados de alterações subjacente. Normalmente, a extração de dados acontece de uma das três maneiras apresentadas a seguir.
  1. Notificação de atualização: o sistema de origem notifica você quando um registro de dados é alterado.
  2. Extração gradual: Algumas fontes de dados não podem fornecer notificações de atualização, mas podem identificar e extrair dados que foram modificados em um determinado período.
  3. Extração completa: alguns sistemas não conseguem identificar alterações de dados ou fornecer notificações, portanto, realizar novamente o carregamento de todos os dados é a única opção.

O que é transformação de dados?

  • As ferramentas de ETL transformam e consolidam os dados brutos na área de preparação a fim de prepará-los para o data warehouse de destino. A fase de transformação de dados pode envolver os seguintes tipos de alterações de dados.
  1. Transformação de dados básica: melhoram a qualidade dos dados ao remover erros, esvaziar campos de dados ou simplificar os dados. Veja exemplos dessas transformações a seguir.

  2. Limpeza de dados: A limpeza de dados remove erros e mapeia os dados de origem para o formato de dados de destino

  3. Eliminação de duplicação de dados: identifica e remove registros duplicados

  4. Revisão de formato de dados: converte dados, como conjuntos de caracteres, unidades de medida e valores de data e horário, para um formato consistente.

  5. Transformação de dados avançada: utilizam regras de negócios para otimizar os dados a fim de facilitar a análise. Veja exemplos dessas transformações a seguir.

  6. Derivação: aplica regras de negócios aos seus dados para calcular novos valores com base em valores existentes.

  7. Junção: vincula dados semelhantes de diferentes fontes de dados.

  8. Separação: você pode dividir uma coluna ou um atributo de dados em diversas colunas no sistema de destino.

  9. Resumo: melhora a qualidade dos dados ao reduzir um grande número de valores de dados em um conjunto de dados menor.

  10. Encriptação: Você pode proteger dados confidenciais para cumprir as leis de dados ou a privacidade de dados adicionando encriptação antes que os dados sejam transmitidos para o banco de dados de destino.

O que é carregamento de dados?

  • No carregamento de dados, as ferramentas de extração, transformação e carregamento (ETL) movem os dados transformados da área de preparação para o data warehouse de destino.
  • Veja abaixo métodos para carregamento de dados.
  1. Carregamento completo: todos os dados da origem são transformados e movidos para o data warehouse.
  2. Carregamento incremental: a ferramenta de ETL realiza o carregamento do delta (ou diferença) entre os sistemas de destino e de origem em intervalos regulares.
  3. Carregamento incremental por transmissão: se você tiver pequenos volumes de dados, poderá transmitir alterações de forma contínua através de pipelines de dados para o data warehouse de destino.
  4. Carregamento incremental em lotes: se você tiver grandes volumes de dados, poderá coletar alterações de dados de carregamento em lotes periodicamente.

ETL e ELT

  • O processo de ELT funciona bem para conjuntos de dados não estruturados e de alto volume que exigem carregamento frequente. Também é ideal para big data, pois o planejamento de análises pode ser realizado após a extração e o armazenamento dos dados.
  • O processo de ETL requer maior definição no início. A análise precisa estar envolvida desde o início para que haja definição dos tipos de dados de destino, estruturas e relações.

Diferença entre pipeline de dados e de ETL

  • Um pipeline de extração, transformação e carregamento (ETL) é um tipo especial de pipeline de dados. As ferramentas ETL extraem ou copiam dados brutos de várias fontes e os armazenam em um local temporário chamado de área de preparação.
  • Elas transformam os dados na área de preparação e os carregam em data lakes ou armazéns.
  • Nem todos os pipelines de dados seguem a sequência ETL.
  • Alguns podem extrair os dados de uma fonte e carregá-los em outro lugar sem transformações. Outros pipelines de dados seguem uma sequência de extração, carregamento e transformação (ELT), onde extraem e carregam dados não estruturados diretamente em um data lake.
  • Eles realizam alterações depois de mover as informações para data warehouses na nuvem.