Acest curs de 4 zile oferă o pregătire completă pentru proiectarea, construirea și operarea sistemelor de procesare a datelor pe Google Cloud Platform (GCP). Participanții vor lucra cu principalele servicii de data engineering precum BigQuery, Dataflow, Dataproc, Pub/Sub, Dataplex și Cloud Storage, explorând concepte moderne de ingestie, stocare, transformare, analiză și orchestrare a datelor.
Trainingul include demonstrații, laboratoare practice și scenarii reale, ghidând participanții să construiască pipeline-uri scalabile, să optimizeze performanța și să implementeze arhitecturi de date robuste în cloud.
Cursul este recomandat pentru:
• ingineri de date care construiesc sau administrează pipeline-uri în cloud
• specialiști Big Data care migrează spre ecosistemul Google Cloud
• administratori de baze de date și specialiști ETL
• analytics engineers care lucrează cu BigQuery
• profesioniști care se pregătesc pentru certificarea Professional Data Engineer, în cadrul traseului oficial Google Cloud
La finalul cursului, participanții vor putea:
• proiecta sisteme scalabile de procesare a datelor în GCP
• construi pipeline-uri batch și streaming folosind serviciile Google Cloud
• implementa modele de date și fluxuri end-to-end
• opera sisteme de date cu gândire orientată spre fiabilitate, securitate și costuri
• aplica bune practici pentru automatizare, orchestrare și optimizare
- cunoștințe de bază SQL
- recomandat: experiență într-un limbaj de programare (Python, Java etc.)
- înțelegerea noțiunilor fundamentale de cloud
Module 01 – Data engineering tasks and components
- rolul unui data engineer
• data sources vs data sinks
• formate de date
• opțiuni de stocare în Google Cloud
• managementul metadatelor
• partajarea dataset-urilor cu Analytics Hub
Lab: Loading Data into BigQuery
Module 02 – Data replication and migration
- arhitectura de replicare și migrare
• gcloud CLI
• mutarea dataset-urilor
• Datastream și cazurile de utilizare
Lab: PostgreSQL → BigQuery Replication with Datastream
Module 03 – Extract & Load pipeline pattern (EL)
- arhitectură EL
• bq CLI
• BigQuery Data Transfer Service
• BigLake ca alternativă EL
Lab: BigLake Qwik Start
Module 04 – Extract, Load & Transform pattern (ELT)
- arhitectură ELT
• scripting SQL și scheduling în BigQuery
• Dataform
Lab: Create & Execute SQL Workflow in Dataform
Module 05 – Extract, Transform & Load pattern (ETL)
- arhitectură ETL
• instrumente GUI în Google Cloud
• procesare batch cu Dataproc
• procesare streaming – opțiuni
• Bigtable în pipeline-uri de date
Labs:
• Dataproc Serverless for Spark → Load BigQuery
• Dataflow Real-Time Dashboard Pipeline
Module 06 – Automation techniques
- pattern-uri de automatizare
• Cloud Scheduler și Workflows
• Cloud Composer
• Cloud Run Functions
• Eventarc
Lab: Cloud Run Functions → Load BigQuery
Module 07 – Introduction to Data Engineering
- rolul data engineer-ului
• provocări ale data engineering-ului
• introducere în BigQuery
• data lakes vs data warehouses
• guvernanță, acces și colaborare
• studiu de caz
Lab: Using BigQuery for Analysis
Module 08 – Build a Data Lake
- arhitectura unui data lake
• opțiuni de stocare și ETL
• Cloud Storage ca data lake principal
• securizarea Cloud Storage
• utilizarea Cloud SQL
Lab: Loading Taxi Data into Cloud SQL
Module 09 – Build a Data Warehouse
- arhitectura modernă de data warehouse
• BigQuery – concepte, încărcare date
• explorarea schemelor
• nested & repeated fields
• partitioning & clustering
Labs:
• JSON & Array Handling in BigQuery
• Partitioned Tables in BigQuery
Module 10 – Introduction to building batch pipelines
- EL / ELT / ETL
• calitatea datelor
• execuția operațiilor în BigQuery
Demo: ELT to Improve Data Quality
Module 11 – Execute Spark on Dataproc
- ecosistemul Hadoop
• rulare workload-uri pe Dataproc
• folosirea Cloud Storage în loc de HDFS
• optimizare Dataproc
Lab: Running Spark Jobs on Dataproc
Module 12 – Serverless data processing with Dataflow
- introducere în Dataflow
• agregări, side inputs, windowing
• Dataflow SQL & templates
Labs:
• Simple Dataflow Pipeline
• MapReduce in Beam
• Side Inputs
Module 13 – Manage pipelines with Cloud Data Fusion & Cloud Composer
- creare pipeline-uri vizuale cu Data Fusion
• Wrangler – explorare și transformare date
• orchestrare cu Cloud Composer
• Airflow: DAGs, operators, workflows
Labs:
• Build & Execute Pipeline in Data Fusion
• Introduction to Cloud Composer
Module 14 – Introduction to streaming data processing
- concepte de streaming
• instrumente GCP pentru streaming
Module 15 – Serverless messaging with Pub/Sub
- Pub/Sub push vs pull
• publishing prin cod
Lab: Publish Streaming Data into Pub/Sub
Module 16 – Dataflow streaming features
- provocări ale streamingului
• windowing, latență, triggers
Lab: Streaming Data Pipelines
Module 17 – High-throughput BigQuery & Bigtable streaming
- streaming în BigQuery + dashboards
• ingestie high-throughput în Bigtable
• optimizarea Bigtable
Labs:
• Streaming Analytics & Dashboards
• Streaming into Bigtable
Module 18 – Advanced BigQuery functionality and performance
- analytic window functions
• GIS functions
• optimizare BigQuery
Lab: Optimizing BigQuery Queries
Notă: Agenda poate suferi ajustări în funcție de trainerul alocat. Pentru versiunea finală, vă rugăm să contactați echipa Bittnet Training.
- Machine Learning on Google Cloud – 5 zile
- Introduction to AI and Machine Learning on Google Cloud – 1 zi
Aceste cursuri extind pregătirea unui Data Engineer către domeniile de machine learning și AI, relevante pentru proiecte avansate bazate pe BigQuery ML, Dataflow ML și modele personalizate.
Cursul este inclus în traseul oficial pentru certificarea Professional Data Engineer, reprezentând baza de învățare recomandată de Google Cloud pentru acest rol.

