Über diesen Kurs

62,444 kürzliche Aufrufe

Karriereergebnisse der Lernenden

33%

nahm einen neuen Beruf nach Abschluss dieser Kurse auf

56%

ziehen Sie für Ihren Beruf greifbaren Nutzen aus diesem Kurs

33%

erhalten Sie eine Gehaltserhöhung oder Beförderung
Zertifikat zur Vorlage
Erhalten Sie nach Abschluss ein Zertifikat
100 % online
Beginnen Sie sofort und lernen Sie in Ihrem eigenen Tempo.
Flexible Fristen
Setzen Sie Fristen gemäß Ihrem Zeitplan zurück.
Stufe „Fortgeschritten“
Ca. 26 Stunden zum Abschließen
Englisch

Karriereergebnisse der Lernenden

33%

nahm einen neuen Beruf nach Abschluss dieser Kurse auf

56%

ziehen Sie für Ihren Beruf greifbaren Nutzen aus diesem Kurs

33%

erhalten Sie eine Gehaltserhöhung oder Beförderung
Zertifikat zur Vorlage
Erhalten Sie nach Abschluss ein Zertifikat
100 % online
Beginnen Sie sofort und lernen Sie in Ihrem eigenen Tempo.
Flexible Fristen
Setzen Sie Fristen gemäß Ihrem Zeitplan zurück.
Stufe „Fortgeschritten“
Ca. 26 Stunden zum Abschließen
Englisch

von

Placeholder

National Research University Higher School of Economics

Lehrplan - Was Sie in diesem Kurs lernen werden

InhaltsbewertungThumbs Up81%(2,223 Bewertungen)Info
Woche
1

Woche 1

5 Stunden zum Abschließen

Intro: why should I care?

5 Stunden zum Abschließen
14 Videos (Gesamt 85 min), 5 Lektüren, 3 Quiz
14 Videos
Why should you care9m
Reinforcement learning vs all3m
Multi-armed bandit4m
Decision process & applications6m
Markov Decision Process5m
Crossentropy method9m
Approximate crossentropy method5m
More on approximate crossentropy method6m
Evolution strategies: core idea6m
Evolution strategies: math problems5m
Evolution strategies: log-derivative trick8m
Evolution strategies: duct tape6m
Blackbox optimization: drawbacks4m
5 Lektüren
About the University10m
FAQ10m
Primers1h
About honors track1m
Extras10m
Woche
2

Woche 2

3 Stunden zum Abschließen

At the heart of RL: Dynamic Programming

3 Stunden zum Abschließen
5 Videos (Gesamt 54 min), 3 Lektüren, 4 Quiz
5 Videos
State and Action Value Functions13m
Measuring Policy Optimality6m
Policy: evaluation & improvement10m
Policy and value iteration8m
3 Lektüren
Optional: Reward discounting from a mathematical perspective10m
External links: Reward Design10m
Discrete Stochastic Dynamic Programming10m
3 praktische Übungen
Reward design8m
Optimality in RL30m
Policy Iteration30m
Woche
3

Woche 3

3 Stunden zum Abschließen

Model-free methods

3 Stunden zum Abschließen
6 Videos (Gesamt 47 min), 1 Lektüre, 4 Quiz
6 Videos
Monte-Carlo & Temporal Difference; Q-learning8m
Exploration vs Exploitation8m
Footnote: Monte-Carlo vs Temporal Difference2m
Accounting for exploration. Expected Value SARSA11m
On-policy vs off-policy; Experience replay7m
1 Lektüre
Extras10m
1 praktische Übung
Model-free reinforcement learning30m
Woche
4

Woche 4

3 Stunden zum Abschließen

Approximate Value Based Methods

3 Stunden zum Abschließen
9 Videos (Gesamt 104 min), 3 Lektüren, 5 Quiz
9 Videos
Loss functions in value based RL11m
Difficulties with Approximate Methods15m
DQN – bird's eye view9m
DQN – the internals9m
DQN: statistical issues6m
Double Q-learning6m
More DQN tricks10m
Partial observability17m
3 Lektüren
TD vs MC10m
Extras10m
DQN follow-ups10m
3 praktische Übungen
MC & TD10m
SARSA and Q-learning10m
DQN30m

Bewertungen

Top-Bewertungen von PRACTICAL REINFORCEMENT LEARNING

Alle Bewertungen anzeigen

Über den Spezialisierung Erweiterte maschinelles Lernen

Erweiterte maschinelles Lernen

Häufig gestellte Fragen

Haben Sie weitere Fragen? Besuchen Sie das Hilfe-Center für Teiln..