Cơ chế chú ý là gì
Cơ chế cho mạng nơ-ron tập trung vào các phần đầu vào quan trọng
Cơ chế Chú ý (Attention Mechanism)
Cơ chế Chú ý — thành phần quan trọng của mạng nơ-ron hiện đại cho phép mô hình đánh trọng số động tầm quan trọng của các phần khác nhau trong dữ liệu đầu vào.
Cách hoạt động
- Tính toán trọng số attention cho mỗi phần tử
- Query, Key, Value — ba thành phần tính toán
- Tổng có trọng số của các giá trị theo tầm quan trọng
- Cho phép mô hình "nhìn vào" các phần liên quan
Các loại Attention
| Loại | Mô tả | |------|-------| | Self-Attention | Attention trong một chuỗi | | Cross-Attention | Attention giữa các chuỗi khác nhau | | Multi-Head | Nhiều đầu attention song song | | Sparse Attention | Attention thưa được tối ưu |
Ứng dụng
- NLP — dịch máy, GPT, BERT
- Thị giác máy tính — Vision Transformer (ViT)
- Mô hình đa phương thức — CLIP, DALL-E
- Hệ thống đề xuất — cá nhân hóa
Công thức Self-Attention
Attention(Q, K, V) = softmax(QK^T / √d_k) × V
Ưu điểm
- Nắm bắt phụ thuộc tầm xa
- Song song hóa tính toán
- Khả năng giải thích qua trọng số attention