Мәтінді жіктеу дегеніміз не
Мәтіндерді автоматты санаттау
Мәтінді жіктеу — мазмұнына қарай мәтіндерге автоматты түрде санаттар немесе белгілер беру үшін машиналық оқыту тапсырмасы.
Жіктеу түрлері
- Екілік — екі сынып (спам/спам емес)
- Көп сыныпты — бірнеше өзара алып тастайтын сыныптар
- Көп белгілі — бір уақытта бірнеше белгілер
Әдістер
- Дәстүрлі ML — Naive Bayes, SVM, Random Forest
- Терең оқыту — LSTM, мәтіндер үшін CNN
- Трансформерлер — BERT, RoBERTa, GPT
Бизнес қолданбалары
- Спам және қажетсіз мазмұнды сүзу
- Қолдау билеттерін бағыттау
- Құжаттарды санаттау
- Пікірлердің сезім талдауы
- Жаңалықтар тақырыптарын анықтау
Сапа көрсеткіштері
- Accuracy, Precision, Recall
- F1-score (гармоникалық орташа)
- Екілік жіктеу үшін AUC-ROC