Phân loại Văn bản là gì
Phân loại văn bản tự động
Phân loại Văn bản là một nhiệm vụ học máy tự động gán danh mục hoặc nhãn cho văn bản dựa trên nội dung của chúng.
Các loại phân loại
- Nhị phân — hai lớp (spam/không spam)
- Đa lớp — nhiều lớp loại trừ lẫn nhau
- Đa nhãn — nhiều nhãn đồng thời
Phương pháp
- ML truyền thống — Naive Bayes, SVM, Random Forest
- Deep Learning — LSTM, CNN cho văn bản
- Transformers — BERT, RoBERTa, GPT
Ứng dụng kinh doanh
- Lọc spam và nội dung không mong muốn
- Định tuyến ticket hỗ trợ
- Phân loại tài liệu
- Phân tích cảm xúc đánh giá
- Phát hiện chủ đề tin tức
Chỉ số chất lượng
- Accuracy, Precision, Recall
- F1-score (trung bình điều hòa)
- AUC-ROC cho phân loại nhị phân