Acest curs te învață cum să valorifici puterea Apache Spark și a clusterelor de mare capacitate din platforma Azure Databricks pentru a rula sarcini complexe de tip data engineering în cloud. Vei explora arhitecturi de procesare streaming, vei implementa procese automate și vei înțelege cum să optimizezi performanța folosind Delta Live Tables. În plus, vei învăța să orchestrezi și să monitorizezi procese de date prin Azure Databricks Jobs, să aplici guvernanță și măsuri de securitate asupra datelor și să integrezi Databricks cu alte servicii Azure.
Cursul este recomandat pentru:
- Data Engineers care dezvoltă soluții de procesare a datelor la scară mare.
- Data Scientists care au nevoie să utilizeze Azure Databricks pentru pregătirea și procesarea seturilor mari de date.
- ELT Developers care implementează fluxuri complexe de date în cloud.
- Profesioniști care doresc să învețe cum să orchestreze, securizeze și optimizeze procese de date în Azure Databricks.
După finalizarea cursului, vei ști cum să:
- Implementezi procese incrementale folosind Spark Structured Streaming.
- Dezvolți arhitecturi de streaming cu Delta Live Tables.
- Optimizezi performanța sarcinilor de date în Spark și Delta Live Tables.
- Creezi și administrezi fluxuri CI/CD în Azure Databricks.
- Automatizezi și orchestrezi fluxuri de date prin Azure Databricks Jobs și Azure Data Factory.
- Gestionezi securitatea, confidențialitatea și guvernanța datelor cu Unity Catalog.
- Utilizezi SQL Warehouses în Azure Databricks pentru interogări relaționale.
- Rulezi Azure Databricks Notebooks în Azure Data Factory pentru a scala procesele de data engineering.
Nu sunt cerințe preliminare.
- Procesare incrementală cu Spark Structured Streaming
- Introducere în Spark Structured Streaming
- Implementarea și monitorizarea proceselor incrementale
- Arhitecturi de streaming cu Delta Live Tables
- Modele arhitecturale pentru date în timp real
- Utilizarea Delta Live Tables pentru procese streaming
- Optimizarea performanței cu Spark și Delta Live Tables
- Strategii de optimizare a execuției în Spark
- Creșterea performanței pipeline-urilor de date
- Implementarea fluxurilor CI/CD în Azure Databricks
- Integrarea și livrarea continuă
- Automatizarea implementării codului și a proceselor
- Automatizarea sarcinilor cu Azure Databricks Jobs
- Crearea și programarea joburilor în Azure Databricks
- Integrarea cu Azure Data Factory și Azure DevOps
- Monitorizarea și scalarea proceselor
- Guvernanță și securitate a datelor în Azure Databricks
- Unity Catalog și controlul accesului la date
- Managementul confidențialității și conformității
- Utilizarea SQL Warehouses în Azure Databricks
- Interogări SQL relaționale pe seturi mari de date
- Optimizarea analizei prin SQL Warehouses
- Rularea Databricks Notebooks cu Azure Data Factory
- Integrarea notebook-urilor în pipeline-uri de date
- Automatizarea proceselor de data engineering la scară cloud
- Microsoft DP-3011: Implementing a Data Analytics Solution with Azure Databricks
- Microsoft DP-3012: Implementing a Data Analytics Solution with Azure Synapse Analytics
- Microsoft DP-500: Designing and Implementing Enterprise-Scale Analytics Solutions Using Microsoft Azure and Microsoft Power BI
Nu sunt programe de certificare în acest moment.