Data Engineering on Google Cloud

Acest curs de 4 zile oferă o pregătire completă pentru proiectarea, construirea și operarea sistemelor de procesare a datelor pe Google Cloud Platform (GCP). Participanții vor lucra cu principalele servicii de data engineering precum BigQuery, Dataflow, Dataproc, Pub/Sub, Dataplex și Cloud Storage, explorând concepte moderne de ingestie, stocare, transformare, analiză și orchestrare a datelor.

Trainingul include demonstrații, laboratoare practice și scenarii reale, ghidând participanții să construiască pipeline-uri scalabile, să optimizeze performanța și să implementeze arhitecturi de date robuste în cloud.

Cui i se adresează?

Cursul este recomandat pentru:
• ingineri de date care construiesc sau administrează pipeline-uri în cloud
• specialiști Big Data care migrează spre ecosistemul Google Cloud
• administratori de baze de date și specialiști ETL
• analytics engineers care lucrează cu BigQuery
• profesioniști care se pregătesc pentru certificarea Professional Data Engineer, în cadrul traseului oficial Google Cloud

Ce vei învăța?

La finalul cursului, participanții vor putea:
• proiecta sisteme scalabile de procesare a datelor în GCP
• construi pipeline-uri batch și streaming folosind serviciile Google Cloud
• implementa modele de date și fluxuri end-to-end
• opera sisteme de date cu gândire orientată spre fiabilitate, securitate și costuri
• aplica bune practici pentru automatizare, orchestrare și optimizare

Cerințe preliminare:

  • cunoștințe de bază SQL
  • recomandat: experiență într-un limbaj de programare (Python, Java etc.)
  • înțelegerea noțiunilor fundamentale de cloud

Agenda cursului:

Materialele de curs sunt în limba Engleză. Predarea se face în limba Română.

Module 01 – Data engineering tasks and components

  • rolul unui data engineer
    • data sources vs data sinks
    • formate de date
    • opțiuni de stocare în Google Cloud
    • managementul metadatelor
    • partajarea dataset-urilor cu Analytics Hub
    Lab: Loading Data into BigQuery

Module 02 – Data replication and migration

  • arhitectura de replicare și migrare
    • gcloud CLI
    • mutarea dataset-urilor
    • Datastream și cazurile de utilizare
    Lab: PostgreSQL → BigQuery Replication with Datastream

Module 03 – Extract & Load pipeline pattern (EL)

  • arhitectură EL
    • bq CLI
    • BigQuery Data Transfer Service
    • BigLake ca alternativă EL
    Lab: BigLake Qwik Start

Module 04 – Extract, Load & Transform pattern (ELT)

  • arhitectură ELT
    • scripting SQL și scheduling în BigQuery
    • Dataform
    Lab: Create & Execute SQL Workflow in Dataform

Module 05 – Extract, Transform & Load pattern (ETL)

  • arhitectură ETL
    • instrumente GUI în Google Cloud
    • procesare batch cu Dataproc
    • procesare streaming – opțiuni
    • Bigtable în pipeline-uri de date
    Labs:
    • Dataproc Serverless for Spark → Load BigQuery
    • Dataflow Real-Time Dashboard Pipeline

Module 06 – Automation techniques

  • pattern-uri de automatizare
    • Cloud Scheduler și Workflows
    • Cloud Composer
    • Cloud Run Functions
    • Eventarc
    Lab: Cloud Run Functions → Load BigQuery

Module 07 – Introduction to Data Engineering

  • rolul data engineer-ului
    • provocări ale data engineering-ului
    • introducere în BigQuery
    • data lakes vs data warehouses
    • guvernanță, acces și colaborare
    • studiu de caz
    Lab: Using BigQuery for Analysis

Module 08 – Build a Data Lake

  • arhitectura unui data lake
    • opțiuni de stocare și ETL
    • Cloud Storage ca data lake principal
    • securizarea Cloud Storage
    • utilizarea Cloud SQL
    Lab: Loading Taxi Data into Cloud SQL

Module 09 – Build a Data Warehouse

  • arhitectura modernă de data warehouse
    • BigQuery – concepte, încărcare date
    • explorarea schemelor
    • nested & repeated fields
    • partitioning & clustering
    Labs:
    • JSON & Array Handling in BigQuery
    • Partitioned Tables in BigQuery

Module 10 – Introduction to building batch pipelines

  • EL / ELT / ETL
    • calitatea datelor
    • execuția operațiilor în BigQuery
    Demo: ELT to Improve Data Quality

Module 11 – Execute Spark on Dataproc

  • ecosistemul Hadoop
    • rulare workload-uri pe Dataproc
    • folosirea Cloud Storage în loc de HDFS
    • optimizare Dataproc
    Lab: Running Spark Jobs on Dataproc

Module 12 – Serverless data processing with Dataflow

  • introducere în Dataflow
    • agregări, side inputs, windowing
    • Dataflow SQL & templates
    Labs:
    • Simple Dataflow Pipeline
    • MapReduce in Beam
    • Side Inputs

Module 13 – Manage pipelines with Cloud Data Fusion & Cloud Composer

  • creare pipeline-uri vizuale cu Data Fusion
    • Wrangler – explorare și transformare date
    • orchestrare cu Cloud Composer
    • Airflow: DAGs, operators, workflows
    Labs:
    • Build & Execute Pipeline in Data Fusion
    • Introduction to Cloud Composer

Module 14 – Introduction to streaming data processing

  • concepte de streaming
    • instrumente GCP pentru streaming

Module 15 – Serverless messaging with Pub/Sub

  • Pub/Sub push vs pull
    • publishing prin cod
    Lab: Publish Streaming Data into Pub/Sub

Module 16 – Dataflow streaming features

  • provocări ale streamingului
    • windowing, latență, triggers
    Lab: Streaming Data Pipelines

Module 17 – High-throughput BigQuery & Bigtable streaming

  • streaming în BigQuery + dashboards
    • ingestie high-throughput în Bigtable
    • optimizarea Bigtable
    Labs:
    • Streaming Analytics & Dashboards
    • Streaming into Bigtable

Module 18 – Advanced BigQuery functionality and performance

  • analytic window functions
    • GIS functions
    • optimizare BigQuery
    Lab: Optimizing BigQuery Queries

Notă: Agenda poate suferi ajustări în funcție de trainerul alocat. Pentru versiunea finală, vă rugăm să contactați echipa Bittnet Training.

Recomandăm să continui cu:

Aceste cursuri extind pregătirea unui Data Engineer către domeniile de machine learning și AI, relevante pentru proiecte avansate bazate pe BigQuery ML, Dataflow ML și modele personalizate.

Programe de certificare

Cursul este inclus în traseul oficial pentru certificarea Professional Data Engineer, reprezentând baza de învățare recomandată de Google Cloud pentru acest rol.

Data Engineering on Google Cloud

Oferte personalizate pentru grupuri de minim 2 persoane

Detalii curs

Durată:

4
zile

Preț:

La cerere

Livrare:

Predare în clasă, Clasă hibridă, Clasă virtuală

Nivel:

2. Intermediate

Roluri:

Analiști de date, Cloud Engineer, Data Engineer, Database Specialist

Echipă de 2+ persoane? Primești ofertă dedicată!