Skip to content

lvgalvao/data-engineering-roadmap

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Roadmap para engenharia de dados - Jornada de dados 2024

Nossa missão é fornecer o melhor ensino em engenharia de dados

Se você quer:

  1. Construir uma base sólida em Python e SQL
  2. Aprender as principais habilidades e ferramentas de engenharia de dados
  3. Criar ou melhorar seu portfólio de dados
  4. Criar ou aumentar o seu networking na área
  5. Mudar ou dar o próximo passo em sua carreira

A Jornada de Dados é o seu lugar

Visite o nosso site

Próximos treinamentos

pics

Para entregar valor ao negócio, é fundamental que nossas aplicações, dashboards, bancos de dados e modelos estejam em produção, ou seja, em uso pelo cliente.

Se você já tentou implementar um serviço em Cloud na AWS, Azure ou GCP, sabe que há muitos desafios envolvidos: desde padrões a seguir, passando por configurações de IAM (acesso), redes privadas, até a implantação de máquinas virtuais e instalação de Docker.

Muitas vezes, profissionais focados em dados e aplicações não possuem esse conhecimento especializado.

O Bootcamp de Cloud para dados foi criado para preencher essa lacuna. É um curso que fornece os elementos essenciais de Cloud para que você possa implantar suas aplicações de forma independente.

Começamos do zero, com foco em quem não possui experiência em Cloud, e seguimos passo a passo até a implantação das suas primeiras aplicações. Durante o curso, construiremos cinco aplicações em diferentes plataformas de Cloud.

Se você deseja entender VPC, EC2, e toda a infraestrutura necessária para subir suas aplicações, este Bootcamp é ideal para você.

O Bootcamp começará no dia 22 de agosto e terá duração até o dia 04 de outubro.

As aulas serão ao vivo, sempre às 12h (meio-dia), com duração de 1 hora e 20 minutos. Além disso, todas as aulas serão disponibilizadas na nossa plataforma no mesmo dia, para que você possa assisti-las quantas vezes desejar.

Para fazer parte desse bootcamp, a inscrição será liberada no dia 20/08 ás 20h em nosso canal no Youtube

abertura

Conteúdo completo Bootcamp de cloud

Aqui está o calendário completo de aula (podendo sofrer alterações ao longo do curso)

Aqui está a tabela atualizada com os nomes dos serviços específicos do Azure e GCP nos respectivos projetos:

Acesso e início Tema da Aula Objetivo da Aula Principais Tecnologias Abordadas Carga Horária
23/08/2024 (Quinta) Introdução a Cloud, criando nossa conta e publicando um site na AWS Introduzir os conceitos básicos de computação em nuvem, criar uma conta AWS e publicar um site simples. Amazon S3, Amazon Route 53 1h20
24/08/2024 (Sexta) Serviços de Armazenamento na Nuvem Entender e gerenciar serviços de armazenamento na nuvem, garantindo segurança e escalabilidade para os dados empresariais. Amazon S3 1h20
26/08/2024 (Segunda) Computação em Nuvem - VMs Explorar a criação e uso de VMs para aplicações escaláveis na nuvem. Amazon EC2 1h20
27/08/2024 (Terça) Projeto EC2 e S3 Implementar um projeto integrando EC2 e S3 para armazenar e processar dados de forma eficiente. Amazon EC2, Amazon S3 1h20
29/08/2024 (Quinta) Gerenciamento de Segurança IAM Configurar e gerenciar identidades e acessos com segurança usando IAM. AWS IAM 1h20
30/08/2024 (Sexta) Gerenciamento de Redes VPC Configurar redes virtuais na nuvem para otimizar a comunicação entre serviços. Amazon VPC 1h20
02/09/2024 (Segunda) Banco de Dados Relacional Aprender a configurar e gerenciar bancos de dados relacionais na nuvem. Amazon RDS 1h20
03/09/2024 (Terça) Projeto Frontend e RDS Desenvolver um frontend que interage com um banco de dados relacional na nuvem. Amazon EC2, Amazon RDS 1h20
05/09/2024 (Quinta) Arquitetura de Eventos Parte 1 Entender e criar arquiteturas baseadas em eventos para comunicação entre serviços na nuvem. Amazon SNS, Amazon SQS, AWS EventBridge 1h20
06/09/2024 (Sexta) Arquitetura de Eventos Parte 2 Continuar o desenvolvimento de arquiteturas baseadas em eventos, integrando serviços adicionais. Amazon SNS, Amazon SQS, AWS EventBridge 1h20
09/09/2024 (Segunda) AWS Lambda Parte 1 Explorar a execução de funções serverless usando AWS Lambda para automatizar processos na nuvem. AWS Lambda 1h20
10/09/2024 (Terça) AWS Lambda Parte 2 Implementar um projeto completo utilizando AWS Lambda para criar uma arquitetura serverless. AWS Lambda 1h20
12/09/2024 (Quinta) Automatizando Tudo com Terraform Aprender a automatizar a criação e o gerenciamento de infraestruturas na nuvem usando Terraform. Terraform, AWS 1h20
13/09/2024 (Sexta) Terraform - Avançado Explorar funcionalidades avançadas do Terraform para gerenciar infraestruturas complexas. Terraform, AWS 1h20
16/09/2024 (Segunda) Projeto PDF Eventos Parte 1 Implementar um projeto que processa PDFs em eventos usando AWS Lambda, S3 e SQS. AWS Lambda, Amazon S3, Amazon SQS 1h20
17/09/2024 (Terça) Projeto PDF Eventos Parte 2 Continuar o desenvolvimento do projeto de processamento de PDFs, integrando mais funcionalidades. AWS Lambda, Amazon S3, Amazon SQS 1h20
19/09/2024 (Quinta) Introdução ao Azure Entender os conceitos básicos do Azure e configurar os serviços equivalentes à AWS (Blob Storage, VMs). Azure Blob Storage, Azure Virtual Machines (VMs) 1h20
20/09/2024 (Sexta) Projeto Azure: PostgreSQL e VNet Implementar um projeto no Azure usando serviços equivalentes ao RDS, IAM e VPC da AWS. Azure Database for PostgreSQL, Azure IAM, Azure Virtual Network (VNet) 1h20
23/09/2024 (Segunda) Projeto Azure: Functions e Event Grid Criar uma arquitetura serverless no Azure, utilizando funções e eventos, similar ao AWS Lambda. Azure Functions, Azure Event Grid 1h20
24/09/2024 (Terça) Revisão e De-Para AWS-Azure Revisar o aprendizado e discutir o mapeamento de serviços AWS para Azure. AWS, Azure 1h20
26/09/2024 (Quinta) Introdução ao GCP Entender os conceitos básicos do Google Cloud Platform e configurar os serviços equivalentes à AWS. Google Cloud Storage, Google Compute Engine (VMs) 1h20
27/09/2024 (Sexta) Projeto GCP: Cloud SQL e VPC Implementar um projeto no GCP usando serviços equivalentes ao RDS, IAM e VPC da AWS. Cloud SQL (PostgreSQL), Google IAM, Google Virtual Private Cloud (VPC) 1h20
30/09/2024 (Segunda) Projeto GCP: Cloud Functions e Pub/Sub Criar uma arquitetura serverless no GCP, utilizando funções e eventos, similar ao AWS Lambda. Google Cloud Functions, Google Pub/Sub 1h20
01/10/2024 (Terça) Revisão e De-Para AWS-GCP Revisar o aprendizado e discutir o mapeamento de serviços AWS para GCP. AWS, Google Cloud Platform (GCP) 1h20
03/10/2024 (Quinta) Containers na AWS Parte 1 Introdução ao uso de containers na AWS, utilizando Amazon ECS e Docker. Amazon ECS (Elastic Container Service), Docker 1h20
04/10/2024 (Sexta) Containers na AWS Parte 2 Implementar um projeto utilizando containers na AWS com Amazon ECS e Docker. Amazon ECS, Docker 1h20
07/10/2024 (Segunda) Containers na AWS Parte 3 Introdução ao Kubernetes na AWS, utilizando Amazon EKS. Amazon EKS (Elastic Kubernetes Service), Kubernetes 1h20
08/10/2024 (Terça) Containers na AWS Parte 4 Implementar um projeto utilizando Kubernetes na AWS com Amazon EKS. Amazon EKS, Kubernetes 1h20
10/10/2024 (Quinta) Airflow em Projeto Completo Parte 1 Introdução ao Apache Airflow, configurando e criando um pipeline de dados na AWS. Apache Airflow, AWS 1h20
11/10/2024 (Sexta) Airflow em Projeto Completo Parte 2 Implementar um projeto completo de pipeline de dados usando Apache Airflow na AWS. Apache Airflow, AWS 1h20

Bootcamps Jornada de Dados

Aqui estão todos os bootcamps já disponíveis na Jornada de dados

Acesso e início Bootcamp Carga Horária
Acesso Imediato Python para dados 30 horas
Acesso Imediato SQL para Analytics Engineer 20 horas
Acesso Imediato dbt-core 10 horas
Acesso Imediato WebScraping Avançado 10 horas
Início 22/08 Cloud para dados 30 horas
Outubro Multi-engine ETL com Spark e Duckdb 20 horas

Workshops Jornada de Dados

Aqui estão todos os workshops já disponíveis na Jornada de dados

Data e acesso Workshop Carga Horária
Acesso Imediato Como estruturar o seu projeto de dados do zero 4h
Acesso Imediato Do Jupyter Notebook Pro Deploy 4h
Acesso Imediato Como construir um DW barato 8h
Acesso Imediato Automação Data Quality Excel ETL 4h
Acesso Imediato Projeto e processos do Zero 4h
Acesso Imediato Pydantic, Data Quality e TDD em dados 4h
Acesso Imediato Docker para analista e engenheiro de dados: ajudando o seu deploy 4h
Acesso Imediato ETL com Python do Zero ao Deploy 4h
Acesso Imediato Orquestrando suas ETLs com Airflow 4h
Acesso Imediato Web scraping e noSQL 4h
Acesso Imediato restAPI fastAPI Deploy 8h
Acesso Imediato Amazon SQS e lambda 4h
Acesso Imediato Data Warehouse com Python, SQL e dbt-core Part. Kaio Silva 4h
Acesso Imediato Qualidade de dados em ETL com Pandera e Python: Um Guia para Contrato de Dados Part. Renan Heckert 2h
Acesso Imediato Crie pipelines CI/CD com dbt e github actions Part. Bruno Souza 2h
Acesso Imediato Kafka Streaming data processing 2h
Acesso Imediato Streamlit dashboard 2h
Acesso Imediato Terraform para dados 2h
Início 14/09 Transformando PDF em Dados estruturados 4h
Início 28/09 Kubernets para dados 4h

Metodologia

Acredito no ensino ao vivo, são mais de 20 workshops no total

Os encontros são aos sábados ás 9 horas, são 4 horas de workshop

Detalhe das aulas

  • Criando uma colletor de excel em python
  • Qualidade com Pydantic
  • Versionamento com Git e Github
  • Documentando com Mkdcos
  • Observabilidade com Sentry
  • UI com Streamlit (se eu não achar nada mais fácil até lá)
  • Introdução aos 12 fatores
  • Versionamento com Git e Github
  • Migrando para Python 3.12 com Pyenv
  • Ambiente virtual com PIP, Poetry e Conda
  • Documentação com Mkdocs
  • Teste sua aplicação com Pyenv
  • Criando um fluxo de trabalho com pré-commit
  • Estruturando uma PR e criando um processo
  • Garantindo conformidade com CI/CD
  • Pydantic para Modelagem de Dados
  • Garantindo Qualidade de Dados
  • Test-Driven Development em Dados com Pytest
  • Estratégias de Validação de Dados
  • Pydantic e TDD: Casos Práticos
  • Fundamentos de Infraestrutura para Dados
  • Linux Essencial para Engenheiros de Dados
  • Docker: Containerização em Dados
  • Criando Ambientes de Dados com Docker
  • Melhores Práticas em Infra de Dados
  • Introdução ao Airflow para Orquestração
  • Configurando Airflow: Melhores Práticas
  • Desenvolvendo Workflows Eficientes no Airflow
  • Deploy de Workflows com Airflow
  • Monitoramento e Troubleshooting no Airflow
  • Introdução ao NoSQL: Redis e MongoDB
  • Redis para Caching e Gerenciamento de Dados
  • MongoDB: Modelagem e Consultas
  • Comparativo NoSQL: Redis vs MongoDB
  • Casos de Uso: Redis e MongoDB
  • Desenvolvendo REST APIs Eficientes
  • FastAPI: Criação e Documentação
  • Estratégias de Deploy para APIs
  • Segurança e Escalabilidade em APIs
  • APIs com FastAPI: Estudos de Caso
  • Introdução ao Processamento de Streaming
  • Apache Kafka: Fundamentos e Práticas
  • Desafios no Streaming de Dados
  • Casos Práticos Kafka
  • Mensageria com Amazon SNS e SQS
  • RabbitMQ: Configuração e Uso
  • Comparação: SNS, SQS, RabbitMQ
  • Padrões de Mensageria na Cloud
  • Casos de Uso em Sistemas Distribuídos
  • Introdução a Infraestrutura como Código
  • Terraform: Conceitos Básicos
  • Gerenciando Cloud com Terraform
  • Segurança e Compliance com Terraform
  • Terraform: Casos de Uso Práticos

Pré requisitos

Para você aproveitar ao máximo do curso, é importante que você se sinta confortável com SQL e uma experiência com Python também será útil, ideal que você tenha entre 1 e 2 anos trabalhando com dados.

Caso você não tenha de 1 a 2 anos na área terá que estudar muito SQL e Python em paralelo, acredito que ao menos 1h por dia de estudos fora os Workshops.

Mas fique tranquilo, temos o nosso Bootcamp de 100 dias de Python e SQL para te colocar no shape.

Aqui é o lugar certo para aprender Python e SQL voltado para a engenharia de dados

Plataforma e autonomia

Alternativamente, você pode acessar nossa plataforma, nossa aplicação disponibiliza uma plataforma bem user-frindly para você pode acessar ao material do curso

Possui dúvidas?

About

roadmap de engenharia de dados da jornada 2024

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages