Что такое Классификация текста
Автоматическая категоризация текстов
Классификация текста — задача машинного обучения по автоматическому присвоению текстам категорий или меток на основе их содержания.
Типы классификации
- Бинарная — два класса (спам/не спам)
- Мультиклассовая — несколько взаимоисключающих классов
- Мультилейбловая — несколько меток одновременно
Методы
- Традиционные ML — Naive Bayes, SVM, Random Forest
- Глубокое обучение — LSTM, CNN для текстов
- Трансформеры — BERT, RoBERTa, GPT
Применение в бизнесе
- Фильтрация спама и нежелательного контента
- Маршрутизация обращений в техподдержку
- Категоризация документов
- Анализ тональности отзывов
- Определение тематики новостей
Метрики качества
- Accuracy, Precision, Recall
- F1-score (гармоническое среднее)
- AUC-ROC для бинарной классификации