Mikä on Tekstin luokittelu
Tekstien automaattinen luokittelu
Tekstin luokittelu on koneoppimisen tehtävä, jossa teksteille annetaan automaattisesti kategorioita tai tunnisteita niiden sisällön perusteella.
Luokittelutyypit
- Binäärinen — kaksi luokkaa (roskaposti/ei roskaposti)
- Moniluokkainen — useita toisensa poissulkevia luokkia
- Monitunnisteinen — useita tunnisteita samanaikaisesti
Menetelmät
- Perinteinen ML — Naive Bayes, SVM, Random Forest
- Syväoppiminen — LSTM, CNN teksteille
- Transformer-mallit — BERT, RoBERTa, GPT
Liiketoimintasovellukset
- Roskapostin ja ei-toivotun sisällön suodatus
- Tukipyyntöjen reititys
- Asiakirjojen luokittelu
- Arvostelujen tunneanalyysi
- Uutisaiheiden tunnistus
Laatumittarit
- Accuracy, Precision, Recall
- F1-pistemäärä (harmoninen keskiarvo)
- AUC-ROC binääriluokittelulle