คืออะไร การเรียนรู้แบบเสริมแรง
การฝึกเอเจนต์ผ่านการโต้ตอบกับสภาพแวดล้อมและรางวัล
การเรียนรู้แบบเสริมแรง (Reinforcement Learning) เป็นรูปแบบการเรียนรู้ของเครื่องที่เอเจนต์เรียนรู้การตัดสินใจผ่านการโต้ตอบกับสภาพแวดล้อมและรับรางวัลหรือการลงโทษ
องค์ประกอบหลัก
- เอเจนต์ — ตัดสินใจและดำเนินการ
- สภาพแวดล้อม — โลกที่เอเจนต์โต้ตอบด้วย
- สถานะ — สถานการณ์ปัจจุบันในสภาพแวดล้อม
- การกระทำ — ทางเลือกของเอเจนต์ในแต่ละช่วงเวลา
- รางวัล — ผลตอบรับจากสภาพแวดล้อม
อัลกอริทึมหลัก
- Q-Learning — เรียนรู้ฟังก์ชันค่าการกระทำ
- SARSA — การเรียนรู้แบบ on-policy
- Policy Gradient — การเพิ่มประสิทธิภาพนโยบายโดยตรง
- Actor-Critic — แนวทางแบบผสม
- Deep Q-Network (DQN) — Q-learning กับโครงข่ายประสาท
การประยุกต์ใช้ทางธุรกิจ
- การเพิ่มประสิทธิภาพราคา
- การปรับแต่งคำแนะนำส่วนบุคคล
- การจัดการสินค้าคงคลัง
- การซื้อขายอัตโนมัติ
- การเพิ่มประสิทธิภาพแคมเปญโฆษณา
ข้อดี
- เรียนรู้โดยไม่ต้องมีข้อมูลที่ติดป้ายกำกับ
- ปรับตัวตามการเปลี่ยนแปลงของสภาพแวดล้อม
- เพิ่มประสิทธิภาพผลลัพธ์ระยะยาว
- แก้ปัญหางานลำดับที่ซับซ้อน