Mikä on Vahvistusoppiminen
Agentin koulutus ympäristövuorovaikutuksen ja palkkioiden kautta
Vahvistusoppiminen (Reinforcement Learning) on koneoppimisen paradigma, jossa agentti oppii tekemään päätöksiä vuorovaikutuksessa ympäristön kanssa ja vastaanottamalla palkkioita tai rangaistuksia.
Ydinkomponentit
- Agentti — tekee päätöksiä ja suorittaa toimintoja
- Ympäristö — maailma, jonka kanssa agentti on vuorovaikutuksessa
- Tila — nykyinen tilanne ympäristössä
- Toiminto — agentin valinta jokaisella hetkellä
- Palkkio — palaute ympäristöstä
Keskeiset algoritmit
- Q-oppiminen — toiminto-arvofunktion oppiminen
- SARSA — on-policy-oppiminen
- Policy Gradient — suora politiikan optimointi
- Actor-Critic — hybridilähestymistapa
- Deep Q-Network (DQN) — Q-oppiminen neuroverkkojen kanssa
Liiketoimintasovellukset
- Hinnoittelun optimointi
- Suositusten personointi
- Varastonhallinta
- Kaupankäynnin automatisointi
- Mainoskampanjoiden optimointi
Edut
- Oppiminen ilman merkittyä dataa
- Sopeutuminen ympäristön muutoksiin
- Pitkän aikavälin tulosten optimointi
- Monimutkaisten peräkkäisten tehtävien ratkaiseminen