Mis on Teksti klassifitseerimine
Tekstide automaatne kategoriseerimine
Teksti klassifitseerimine on masinõppe ülesanne, mis määrab tekstidele automaatselt kategooriaid või silte nende sisu põhjal.
Klassifitseerimise tüübid
- Binaarne — kaks klassi (rämpspost/mitte rämpspost)
- Mitme klassiga — mitu vastastikku välistavat klassi
- Mitme sildiga — mitu silti korraga
Meetodid
- Traditsiooniline ML — Naive Bayes, SVM, Random Forest
- Süvaõpe — LSTM, CNN tekstide jaoks
- Transformerid — BERT, RoBERTa, GPT
Ärirakendused
- Rämpsposti ja soovimatu sisu filtreerimine
- Tugipiletite suunamine
- Dokumentide kategoriseerimine
- Arvustuste sentimentanalüüs
- Uudisteemade tuvastamine
Kvaliteedimõõdikud
- Accuracy, Precision, Recall
- F1-skoor (harmooniline keskmine)
- AUC-ROC binaarse klassifitseerimise jaoks