Mis on Tugevdusõpe
Agendi treenimine keskkonna suhtluse ja preemiate kaudu
Tugevdusõpe (Reinforcement Learning) on masinõppe paradigma, kus agent õpib otsuseid tegema keskkonnaga suhtlemise ning preemiate või karistuste saamise kaudu.
Põhikomponendid
- Agent — teeb otsuseid ja sooritab tegevusi
- Keskkond — maailm, millega agent suhtleb
- Olek — praegune olukord keskkonnas
- Tegevus — agendi valik igal hetkel
- Preemia — tagasiside keskkonnast
Võtmealgoritmid
- Q-õppimine — tegevuse-väärtuse funktsiooni õppimine
- SARSA — on-policy õppimine
- Policy Gradient — otsene poliitika optimeerimine
- Actor-Critic — hübriidlähenemine
- Deep Q-Network (DQN) — Q-õppimine närvivõrkudega
Ärirakendused
- Hinnakujunduse optimeerimine
- Soovituste isikupärastamine
- Varude haldamine
- Kauplemise automatiseerimine
- Reklaamikampaaniate optimeerimine
Eelised
- Õppimine ilma märgistatud andmeteta
- Kohanemine keskkonnamuutustega
- Pikaajaliste tulemuste optimeerimine
- Keeruliste järjestikuste ülesannete lahendamine