corso Insegnamento rafforzativo è destinato Ingegneri dell'apprendimento automatico e fornisce un'introduzione approfondita alla creazione e all'ottimizzazione di agenti intelligenti in grado di prendere decisioni autonome in un dato ambiente. I partecipanti impareranno a formulare problemi del tipo insegnamento rafforzativo, definire politiche, premi e stati e applicare algoritmi avanzati per massimizzare le prestazioni.
Studierai concetti fondamentali come il processo decisionale sequenziale, le politiche, le funzioni di valore, le equazioni di Bellman, i metodi dinamici, l'apprendimento Monte Carlo, l'apprendimento per approssimazione e regressione, il tutto in un contesto pratico, con esempi chiari ed esercizi applicativi. Il corso enfatizza la rilevanza pratica: come implementare agenti in situazioni reali, come gestire il compromesso tra esplorazione e sfruttamento, come valutare gli algoritmi e come adattare le strategie in base ai risultati.
Affronta inoltre le sfide incontrate nel processo di formazione: vari parametri, stabilità dell'apprendimento, costi delle risorse, generalizzazione e come interpretare e ottimizzare i modelli per ottenere le prestazioni desiderate.
Il corso è rivolto agli ingegneri del machine learning.
In questo corso gli studenti impareranno come inquadrare, comprendere e risolvere problemi che coinvolgono la creazione di agenti intelligenti.
Per partecipare a questo corso, gli studenti devono aver completato il modulo Base. Apprendimento automatico in Tensorflow/Keras.
Si consiglia agli studenti di possedere le seguenti conoscenze:
Apprendimento profondo di base
● Neuroni
● Tipi di livelli
● Reti
● Funzioni di perdita
● Ottimizzatori
● Adattamento eccessivo
● Tensorflusso
Modulo 1: Problema dei banditi armati di K
1.1 Processo decisionale sequenziale con feedback valutativo
1.2 Valori dell'azione di apprendimento
1.3 Stima incrementale dei valori delle azioni
1.4 Valori iniziali ottimistici
1.5 Selezione delle Azioni di UCB
1.6 Banditi contestuali per il mondo reale RL
Modulo 2: Processi decisionali di Markov
2.1 Esempi di MDP
2.2 L'ipotesi della ricompensa
2.3 Prosecuzione dei compiti
2.4 Compiti episodici e continuativi
Modulo 3: Funzioni valore ed equazioni di Bellman
3.1 Specificazione delle politiche
3.2 Funzioni di valore
3.3 Derivazione dell'equazione di Bellman
3.4 Politiche ottimali
3.5 Funzioni di valore ottimo
3.6 Utilizzo delle funzioni di valore ottimale per ottenere politiche ottimali
Modulo 4: Programmazione dinamica
4.1 Valutazione politica iterativa
4.2 Iterazione della politica
4.3 Efficienza della Programmazione Dinamica
Modulo 5: Monte Carlo per la previsione e il controllo
5.1 Cos'è Montecarlo?
Previsione 5.2
5.3 Valori delle azioni
5.4 Esempio di Blackjack
5.5 Politiche Epsilon-soft
5.6 Apprendimento fuori policy
Modulo 6: Previsione on-policy con approssimazione
6.1 Funzioni parametrizzate
6.2 Generalizzazione e discriminazione
6.3 Valore Errore Obiettivo
6.4 Discesa gradiente
Non ci sono raccomandazioni in questo momento.
Al momento non sono disponibili programmi di certificazione.
Insegnamento rafforzativo


