Học tăng cường là gì
Đào tạo agent thông qua tương tác môi trường và phần thưởng
Học tăng cường (Reinforcement Learning) là một mô hình học máy trong đó agent học cách đưa ra quyết định thông qua tương tác với môi trường và nhận phần thưởng hoặc hình phạt.
Thành phần cốt lõi
- Agent — đưa ra quyết định và thực hiện hành động
- Môi trường — thế giới mà agent tương tác
- Trạng thái — tình huống hiện tại trong môi trường
- Hành động — lựa chọn của agent tại mỗi thời điểm
- Phần thưởng — phản hồi từ môi trường
Thuật toán chính
- Q-Learning — học hàm giá trị hành động
- SARSA — học on-policy
- Policy Gradient — tối ưu hóa chính sách trực tiếp
- Actor-Critic — phương pháp lai
- Deep Q-Network (DQN) — Q-learning với mạng neural
Ứng dụng kinh doanh
- Tối ưu hóa giá
- Cá nhân hóa đề xuất
- Quản lý hàng tồn kho
- Tự động hóa giao dịch
- Tối ưu hóa chiến dịch quảng cáo
Ưu điểm
- Học không cần dữ liệu được gán nhãn
- Thích ứng với thay đổi môi trường
- Tối ưu hóa kết quả dài hạn
- Giải quyết các nhiệm vụ tuần tự phức tạp