Engenharia de Dados • CI/CD • DataOps

CI/CD para Engenharia de Dados: como organizar pipelines com Databricks, Snowflake e dbt

Entenda como aplicar CI/CD em projetos de dados para reduzir erros manuais, organizar pipelines, melhorar governança e publicar mudanças com mais segurança.

GitHub ActionsDatabricksSnowflakedbtPipelines de Dados

Arquitetura moderna de CI/CD para engenharia de dados com GitHub Actions, Databricks, Snowflake e dbt.

Neste artigo você vai aprender

Neste artigo, você vai entender o que é CI/CD para engenharia de dados, por que essa prática se tornou essencial em projetos modernos de dados e como ela ajuda a reduzir erros, organizar pipelines e dar mais segurança para mudanças em ambientes como Databricks, Snowflake e dbt.

Você também vai ver exemplos práticos com GitHub Actions, dbt, Databricks Asset Bundles e Snowflake, além de boas práticas para começar de forma simples, segura e progressiva.

Sumário

O caos dos projetos de dados sem CI/CD

Todo projeto de dados começa simples: um notebook no Databricks, uma query SQL no Snowflake, uma tabela usada por um dashboard no Power BI, um modelo dbt criado para organizar uma camada de transformação ou um pipeline que roda todos os dias e alimenta uma área de negócio.

No início, tudo parece sob controle. O time é pequeno, poucas pessoas alteram os arquivos e as regras de negócio ainda são fáceis de lembrar. O problema aparece quando o projeto cresce.

Um analista altera uma query direto em produção para corrigir um número urgente. Um engenheiro muda uma transformação na camada Silver sem revisar todos os impactos. Um notebook é duplicado para “testar rápido” e depois ninguém sabe qual versão é a correta. Um script SQL fica salvo apenas na máquina de alguém. Um pipeline quebra de madrugada e ninguém sabe exatamente qual mudança causou o erro.

Exemplo de projeto de dados sem CI/CD com notebooks soltos e scripts SQL sem versionamento — Projetos sem CI/CD acumulam notebooks soltos, scripts sem versão, pipelines quebrados e alterações manuais em produção.

Problemas comuns sem CI/CD

Notebooks alterados manualmente em produção.
Scripts SQL sem versionamento.
Pipelines quebrando sem aviso.
Mudanças feitas direto no ambiente produtivo.
Ausência de testes automáticos.
Diferença entre desenvolvimento, homologação e produção.
Dificuldade para descobrir quem alterou o quê.
Retrabalho entre analistas, engenheiros e áreas de negócio.

CI/CD para engenharia de dados não é luxo técnico. É uma prática de maturidade que ajuda o time a sair do improviso e construir pipelines mais confiáveis, rastreáveis e profissionais.

O que é CI/CD?

CI/CD é um conjunto de práticas que permite validar, testar e publicar mudanças de forma mais segura e automatizada. A sigla vem de três conceitos principais: Continuous Integration, Continuous Delivery e Continuous Deployment.

Continuous Integration

Integra mudanças de código com frequência em um repositório central, normalmente usando Git. O objetivo é encontrar problemas cedo.

Continuous Delivery

Deixa uma mudança pronta para ser publicada, mas com aprovação humana antes do deploy final.

Continuous Deployment

Publica automaticamente em produção quando a mudança passa por todos os testes e validações.

Apesar de terem nascido no desenvolvimento de software, esses conceitos fazem cada vez mais sentido na engenharia de dados. Pipelines, notebooks, modelos dbt, scripts SQL e workflows também são código. E código precisa de versionamento, revisão, teste e deploy controlado.

CI/CD em software versus CI/CD em dados

Na engenharia de dados, o código não é o único ponto de atenção. Também existe o dado. Uma API pode estar funcionando tecnicamente, mas um pipeline de dados pode rodar sem erro e ainda assim gerar uma informação errada.

Dimensão	O que precisa ser validado
Código	Python, SQL, YAML, notebooks e modelos dbt.
Estrutura	Pastas, ambientes, dependências e configurações.
Dados	Qualidade, regras de negócio, schema, volume, duplicidade e nulos.

O ponto central: em engenharia de dados, não basta testar se o código executa. É preciso testar se o dado continua confiável.

Por que CI/CD é importante na engenharia de dados?

CI/CD é importante porque reduz o risco de mudanças mal controladas em pipelines que alimentam decisões reais. Quando uma empresa usa dados para acompanhar vendas, margem, estoque, churn, receita, inadimplência, produtividade ou qualquer outro indicador, ela precisa confiar no caminho que transforma dados brutos em informação útil.

Qualidade dos dados

Testes ajudam a validar nulos, duplicidades, regras críticas e consistência antes do deploy.

Governança

O time sabe quem alterou, quando alterou, qual Pull Request aprovou e quais testes rodaram.

Segurança

Credenciais ficam em secrets e variáveis de ambiente, não em notebooks ou arquivos versionados.

Padronização

Pastas, nomes, branchs, workflows e regras seguem um padrão comum para todo o time.

Menos retrabalho

O erro aparece mais cedo, em ambiente controlado, e não quando o dado já chegou ao usuário final.

DataOps

CI/CD aproxima dados de automação, colaboração, monitoramento e melhoria contínua.

Exemplos do dia a dia: onde CI/CD ajuda de verdade?

Um analista altera uma query que alimenta um dashboard

Com CI/CD, a query é versionada, revisada por Pull Request, validada por testes e só depois publicada em homologação ou produção.

Um engenheiro muda uma transformação na camada Silver

A mudança pode afetar tabelas Gold, dashboards e indicadores. O pipeline valida schema, qualidade e dependências antes do deploy.

Uma tabela no Snowflake recebe uma nova coluna

A alteração entra como script versionado ou migration, com revisão de impacto em views, procedures, dbt e BI.

Um notebook do Databricks precisa ir para produção

O notebook não depende de execução manual, caminhos fixos ou credenciais expostas. Ele passa por validação e deploy automatizado.

Um modelo dbt precisa passar por testes

Antes do deploy, o pipeline executa comandos como dbt deps, dbt debug, dbt compile, dbt test e dbt run.

Como funciona um fluxo ideal de CI/CD para dados?

Um fluxo de CI/CD para dados pode variar conforme a empresa, as ferramentas e o nível de maturidade. Mesmo assim, uma estrutura segura costuma seguir uma sequência clara: desenvolvimento, Git, Pull Request, testes, staging, produção e monitoramento.

Fluxo ideal de CI/CD para engenharia de dados com desenvolvimento, testes, homologação e produção — Fluxo ideal de CI/CD para dados, da mudança no código ao monitoramento em produção.

Desenvolvimento local ou em ambiente dev

A mudança começa em um ambiente de desenvolvimento, nunca direto em produção.

Versionamento no Git

Notebooks, SQL, modelos dbt, configurações, testes e documentação entram no repositório.

Pull Request e revisão

O time revisa regra de negócio, impacto, performance, nomenclatura e documentação.

Testes e validação de qualidade

O pipeline valida código, estrutura, dados, schema, duplicidade, nulos e regras críticas.

Deploy em staging e produção

A mudança passa por homologação antes de chegar ao ambiente oficial.

Monitoramento e rollback

Depois do deploy, o time acompanha execução, logs, volume processado, alertas e plano de reversão.

Estrutura de projeto recomendada

Uma estrutura bem organizada facilita CI/CD, revisão, testes e manutenção. O objetivo é evitar arquivos soltos e criar uma base previsível para o time trabalhar.

Estrutura de pastas recomendada para projeto de engenharia de dados com CI/CD — Exemplo de estrutura de pastas para projeto de engenharia de dados com notebooks, SQL, dbt, testes, documentação e GitHub Actions.

Estrutura de pastas sugeridacopie e adapte

data-project/
│
├── notebooks/
│   ├── bronze/
│   ├── silver/
│   └── gold/
│
├── src/
│   ├── ingestion/
│   ├── transformations/
│   └── utils/
│
├── sql/
│   ├── migrations/
│   ├── procedures/
│   ├── tasks/
│   └── views/
│
├── dbt/
│   ├── models/
│   ├── tests/
│   ├── macros/
│   ├── seeds/
│   └── dbt_project.yml
│
├── tests/
│   ├── unit/
│   └── integration/
│
├── .github/
│   └── workflows/
│       ├── ci.yml
│       ├── dbt-ci.yml
│       └── deploy.yml
│
├── docs/
│   ├── architecture.md
│   ├── data-dictionary.md
│   └── business-rules.md
│
├── config/
│   ├── dev.yml
│   ├── staging.yml
│   └── prod.yml
│
├── README.md
└── requirements.txt

Pasta	Função
notebooks/	Notebooks organizados por camada ou finalidade.
src/	Código Python reutilizável, funções e utilitários.
sql/	Scripts SQL, migrations, procedures, tasks e views.
dbt/	Projeto dbt com modelos, testes, macros e documentação.
tests/	Testes unitários e de integração.
.github/workflows/	Workflows do GitHub Actions.
docs/	Documentação técnica e regras de negócio.
config/	Configurações por ambiente.

Exemplos com código

Exemplo 1: GitHub Actions genérico para validação

Este workflow instala dependências, valida a estrutura de pastas, executa lint em Python, YAML e SQL, além de rodar testes automatizados.

.github/workflows/ci.ymlcopie e adapte

name: CI - Data Project

on:
  pull_request:
    branches:
      - main
  push:
    branches:
      - develop

jobs:
  validate:
    name: Validate project
    runs-on: ubuntu-latest

    steps:
      - name: Checkout repository
        uses: actions/checkout@v4

      - name: Set up Python
        uses: actions/setup-python@v5
        with:
          python-version: "3.11"

      - name: Install dependencies
        run: |
          python -m pip install --upgrade pip
          pip install ruff pytest yamllint sqlfluff

      - name: Validate folder structure
        run: |
          test -d src
          test -d sql
          test -d tests
          test -d docs

      - name: Lint Python code
        run: |
          ruff check src tests

      - name: Lint YAML files
        run: |
          yamllint .

      - name: Lint SQL files
        run: |
          sqlfluff lint sql --dialect snowflake

      - name: Run tests
        run: |
          pytest tests

Exemplo 2: CI/CD com dbt

Esse fluxo valida dependências, conexão, compilação, testes e execução dos modelos. Em projetos reais, use targets separados para dev, staging e prod.

.github/workflows/dbt-ci.ymlcopie e adapte

name: CI - dbt

on:
  pull_request:
    branches:
      - main

jobs:
  dbt-ci:
    name: Validate dbt project
    runs-on: ubuntu-latest

    env:
      DBT_PROFILES_DIR: ./dbt

    steps:
      - name: Checkout repository
        uses: actions/checkout@v4

      - name: Set up Python
        uses: actions/setup-python@v5
        with:
          python-version: "3.11"

      - name: Install dbt
        run: |
          python -m pip install --upgrade pip
          pip install dbt-core dbt-snowflake

      - name: Install dbt dependencies
        working-directory: ./dbt
        run: |
          dbt deps

      - name: Validate dbt connection and setup
        working-directory: ./dbt
        env:
          SNOWFLAKE_ACCOUNT: ${{ secrets.SNOWFLAKE_ACCOUNT }}
          SNOWFLAKE_USER: ${{ secrets.SNOWFLAKE_USER }}
          SNOWFLAKE_PASSWORD: ${{ secrets.SNOWFLAKE_PASSWORD }}
          SNOWFLAKE_ROLE: ${{ secrets.SNOWFLAKE_ROLE }}
          SNOWFLAKE_DATABASE: ${{ secrets.SNOWFLAKE_DATABASE }}
          SNOWFLAKE_WAREHOUSE: ${{ secrets.SNOWFLAKE_WAREHOUSE }}
          SNOWFLAKE_SCHEMA: ${{ secrets.SNOWFLAKE_SCHEMA }}
        run: |
          dbt debug

      - name: Compile dbt models
        working-directory: ./dbt
        run: |
          dbt compile

      - name: Run dbt tests
        working-directory: ./dbt
        run: |
          dbt test

      - name: Run dbt models in target environment
        working-directory: ./dbt
        run: |
          dbt run

Exemplo 3: CI/CD com Databricks

No Databricks, o projeto pode tratar jobs, notebooks, pipelines e configurações como código usando bundles e deploy por ambiente.

databricks.yml simplificadocopie e adapte

bundle:
  name: sales-data-pipeline

targets:
  dev:
    workspace:
      host: ${DATABRICKS_HOST}
    variables:
      environment: dev

  staging:
    workspace:
      host: ${DATABRICKS_HOST}
    variables:
      environment: staging

  prod:
    workspace:
      host: ${DATABRICKS_HOST}
    variables:
      environment: prod

resources:
  jobs:
    sales_pipeline_job:
      name: sales-pipeline-${var.environment}
      tasks:
        - task_key: bronze_ingestion
          notebook_task:
            notebook_path: ./notebooks/bronze/01_ingestion.py

        - task_key: silver_transform
          depends_on:
            - task_key: bronze_ingestion
          notebook_task:
            notebook_path: ./notebooks/silver/02_transform.py

        - task_key: gold_publish
          depends_on:
            - task_key: silver_transform
          notebook_task:
            notebook_path: ./notebooks/gold/03_publish.py

Comandos de bundlecopie e adapte

databricks bundle validate -t dev
databricks bundle deploy -t staging
databricks bundle run sales_pipeline_job -t staging
databricks bundle deploy -t prod

Exemplo 4: CI/CD com Snowflake

No Snowflake, scripts SQL, migrations, procedures e tasks podem fazer parte do fluxo de CI/CD, com validação antes do deploy.

Organização de scripts SQLcopie e adapte

sql/
├── migrations/
│   ├── V001__create_customer_table.sql
│   ├── V002__add_customer_status_column.sql
│   └── V003__create_sales_fact_table.sql
│
├── procedures/
│   └── load_gold_sales.sql
│
├── tasks/
│   └── refresh_gold_sales_task.sql
│
└── views/
    └── vw_sales_summary.sql

Exemplos SQL para Snowflakecopie e adapte

-- V002__add_customer_status_column.sql
ALTER TABLE SILVER.CUSTOMERS
ADD COLUMN CUSTOMER_STATUS VARCHAR;

-- procedures/load_gold_sales.sql
CREATE OR REPLACE PROCEDURE GOLD.LOAD_SALES()
RETURNS STRING
LANGUAGE SQL
AS
$$
BEGIN
  INSERT INTO GOLD.SALES_SUMMARY
  SELECT
    SALE_DATE,
    CUSTOMER_ID,
    SUM(SALE_AMOUNT) AS TOTAL_AMOUNT
  FROM SILVER.SALES
  GROUP BY SALE_DATE, CUSTOMER_ID;

  RETURN 'GOLD.SALES_SUMMARY updated successfully';
END;
$$;

-- tasks/refresh_gold_sales_task.sql
CREATE OR REPLACE TASK GOLD.REFRESH_SALES_SUMMARY_TASK
WAREHOUSE = COMPUTE_WH
SCHEDULE = 'USING CRON 0 6 * * * UTC'
AS
CALL GOLD.LOAD_SALES();

Boas práticas de CI/CD em engenharia de dados

Nunca altere produção manualmente sem rastreabilidade.
Versione notebooks, SQLs, modelos dbt e configurações.
Crie testes para transformações críticas.
Separe ambientes de desenvolvimento, staging e produção.
Use variáveis e secrets para credenciais.
Não salve senhas no código.
Crie documentação do pipeline e das regras de negócio.
Padronize nomenclatura de pastas, tabelas, branches e arquivos.
Use Pull Requests para revisão e histórico.
Automatize validações antes do deploy.
Monitore pipelines em produção.
Tenha plano de rollback.

Erros comuns em CI/CD para dados

Achar que CI/CD é só para desenvolvedores de software.
Criar pipelines sem testes.
Misturar ambiente dev com produção.
Versionar apenas parte do projeto.
Deixar notebooks soltos sem padrão.
Fazer deploy manual sem revisão.
Não documentar regras de negócio.
Não usar secrets.
Não monitorar depois do deploy.

Relação com Databricks, Snowflake e dbt

Databricks

CI/CD ajuda a controlar notebooks, jobs, workflows, configurações, camadas Bronze, Silver e Gold, testes e deploy entre ambientes.

Snowflake

CI/CD permite versionar criação de tabelas, alterações de schema, views, procedures, tasks, permissões e scripts SQL.

dbt

dbt fortalece transformação, testes, documentação e lineage, além de se integrar bem a GitHub Actions e ambientes analíticos.

A ferramenta sozinha não resolve. Databricks, Snowflake e dbt são poderosos, mas maturidade aparece quando existe processo, versionamento, revisão, automação, teste, documentação, governança e monitoramento.

Como começar na prática

Coloque o projeto no Git

Tire o projeto da máquina local, do notebook solto ou da pasta compartilhada.

Organize as pastas

Comece com src, sql, dbt, tests, docs, .github/workflows e README.md.

Separe ambientes

Use dev, staging e prod para evitar que testes afetem dados oficiais.

Crie um README

Documente objetivo, dependências, ambientes, testes, deploy e responsáveis.

Adicione testes básicos

Comece com nulos, duplicidade, datas inválidas, valores negativos e volume mínimo.

Crie um primeiro workflow

Automatize checkout, instalação de dependências, lint e testes básicos.

Use secrets e evolua o deploy

Configure credenciais com segurança e avance para deploy automatizado quando o time ganhar confiança.

Checklist final de CI/CD para engenharia de dados

Pergunta	Status
O projeto está em um repositório Git?	☐
As mudanças passam por Pull Request?	☐
Existe revisão de código?	☐
Existem testes automáticos?	☐
Os scripts SQL estão versionados?	☐
Os notebooks estão organizados?	☐
Os modelos dbt têm testes?	☐
As credenciais estão em secrets?	☐
Existem ambientes dev, staging e prod?	☐
Existe documentação do pipeline?	☐
O deploy é rastreável?	☐
Existe monitoramento em produção?	☐
Existe plano de rollback?	☐

Links internos e externos sugeridos

Links internos

O que é Engenharia de Dados e por que ela é importante

Databricks para iniciantes: lakehouse, notebooks e pipelines

Snowflake na prática: bancos, schemas e pipelines

Power BI e engenharia de dados: por que dashboards dependem de pipelines confiáveis

Links externos confiáveis

Documentação oficial do GitHub Actions

Documentação oficial do dbt

Documentação oficial do Databricks

Documentação oficial do Snowflake

FAQ

O que é CI/CD para engenharia de dados?

CI/CD para engenharia de dados é a aplicação de práticas de integração, validação, teste e deploy automatizado em pipelines, notebooks, scripts SQL, modelos dbt e workflows de dados.

CI/CD é só para desenvolvedores de software?

Não. CI/CD nasceu no desenvolvimento de software, mas também se aplica a projetos de dados, porque pipelines, transformações, notebooks e scripts também são código.

Qual a diferença entre CI e CD?

CI significa Continuous Integration e valida mudanças com frequência. CD pode significar Continuous Delivery, quando a entrega fica pronta para aprovação, ou Continuous Deployment, quando a publicação ocorre automaticamente após os testes.

Por que CI/CD é importante em dados?

Porque reduz erros manuais, melhora rastreabilidade, aumenta qualidade dos dados, fortalece governança e deixa deploys mais seguros.

Como dbt ajuda no CI/CD?

dbt ajuda com compilação, testes, documentação, organização de modelos SQL e validação de transformações antes do deploy.

Como Databricks entra no CI/CD?

Databricks pode entrar com notebooks versionados, jobs, workflows, pipelines e bundles para validar e publicar recursos entre ambientes.

Como Snowflake entra no CI/CD?

Snowflake entra com scripts SQL versionados, migrations, procedures, tasks, objetos de banco e automação de deploy por meio de ferramentas como Snowflake CLI.

Conclusão

CI/CD para engenharia de dados não é apenas uma prática técnica. É uma mudança de cultura.

Durante muito tempo, projetos de dados foram tratados como algo separado da engenharia de software. Notebooks eram alterados manualmente, scripts SQL ficavam espalhados, pipelines dependiam da memória de poucas pessoas e produção era tratada como um ambiente de correção rápida.

Esse modelo não sustenta projetos modernos. Quando dados alimentam dashboards, decisões executivas, modelos analíticos e processos de negócio, cada mudança precisa ser tratada com responsabilidade. Isso significa versionar, revisar, testar, automatizar, documentar e monitorar.

Ferramentas como Databricks, Snowflake e dbt aumentam muito o potencial dos projetos de dados. Mas o valor real aparece quando elas fazem parte de um processo bem definido.

CI/CD ajuda a transformar pipelines em produtos de dados mais confiáveis. Ajuda a reduzir retrabalho. Ajuda a criar rastreabilidade. Ajuda a proteger produção. Ajuda a fortalecer governança, qualidade e escalabilidade.

Pipeline de dados sem CI/CD depende de sorte. Pipeline de dados com CI/CD depende de processo.