Күшейтілген оқыту дегеніміз не
Агентті орта өзара әрекеті және сыйақылар арқылы оқыту
Күшейтілген оқыту (Reinforcement Learning) — агент ортамен өзара әрекеттесу және сыйақылар немесе айыппұлдар алу арқылы шешім қабылдауды үйренетін машиналық оқыту парадигмасы.
Негізгі компоненттер
- Агент — шешімдер қабылдайды және әрекеттер орындайды
- Орта — агент өзара әрекеттесетін әлем
- Күй — ортадағы ағымдағы жағдай
- Әрекет — әр сәттегі агенттің таңдауы
- Сыйақы — ортадан кері байланыс
Негізгі алгоритмдер
- Q-Оқыту — әрекет-мән функциясын үйрену
- SARSA — саясат бойынша оқыту
- Policy Gradient — тікелей саясатты оңтайландыру
- Actor-Critic — гибридті тәсіл
- Deep Q-Network (DQN) — нейрон желілермен Q-оқыту
Бизнес қолданбалары
- Баға оңтайландыру
- Ұсыныстарды жекелендіру
- Қорларды басқару
- Сауданы автоматтандыру
- Жарнама науқандарын оңтайландыру
Артықшылықтары
- Белгіленген деректерсіз оқыту
- Орта өзгерістеріне бейімделу
- Ұзақ мерзімді нәтижелерді оңтайландыру
- Күрделі дәйекті тапсырмаларды шешу