Vad är Textklassificering
Automatisk textkategorisering
Textklassificering är en maskininlärningsuppgift för att automatiskt tilldela kategorier eller etiketter till texter baserat på deras innehåll.
Klassificeringstyper
- Binär — två klasser (spam/inte spam)
- Multi-klass — flera ömsesidigt uteslutande klasser
- Multi-etikett — flera etiketter samtidigt
Metoder
- Traditionell ML — Naive Bayes, SVM, Random Forest
- Deep Learning — LSTM, CNN för texter
- Transformers — BERT, RoBERTa, GPT
Affärstillämpningar
- Filtrering av spam och oönskat innehåll
- Routing av supportärenden
- Dokumentkategorisering
- Sentimentanalys av recensioner
- Detektering av nyhetsämnen
Kvalitetsmått
- Accuracy, Precision, Recall
- F1-score (harmoniskt medelvärde)
- AUC-ROC för binär klassificering