Mis on Nimega olemite tuvastamine
Nimega olemite eraldamine tekstist
Nimega olemite tuvastamine (NER) on NLP ülesanne nimega olemite automaatseks tuvastamiseks ja klassifitseerimiseks tekstis: inimeste nimed, organisatsioonid, geograafilised asukohad, kuupäevad, rahasummad ja muud kategooriad.
Olemi tüübid
- PER — inimeste nimed (Jaan Tamm, Elon Musk)
- ORG — organisatsioonid (Google, Eesti Energia, ÜRO)
- LOC — asukohad (Tallinn, Eesti, Everest)
- DATE — kuupäevad ja kellaajad (1. jaanuar 2024, eile)
- MONEY — rahasummad (100 dollarit, 5000 eurot)
- PRODUCT — tooted (iPhone 15, Tesla Model 3)
NER meetodid
- Reeglid ja sõnastikud — põhilähenemine regulaaravaldistega
- Masinõpe — CRF, SVM märgendatud andmetel
- Süvaõpe — BiLSTM-CRF, BERT, RoBERTa
- Siirdeõpe — eelkoolitatud mudelite peenhäälestus
Rakendused
- Otsingumootorid ja teabe hankimine
- Vestlusrobotid ja virtuaalassistendid
- Uudiste analüüs ja meediaseire
- Andmete eraldamine dokumentidest
- Vastavus ja sanktsioonide nimekirjade kontroll
Teegid ja tööriistad
- spaCy — kiire NLP sisseehitatud NER-iga
- NLTK — klassikaline NLP teek
- Hugging Face Transformers — BERT mudelid NER jaoks
- Stanford NER — Java teek
- Flair — tipptasemel NLP
Kvaliteedimõõdikud
- Precision — tuvastamise täpsus
- Recall — täielikkus (mitu olemit leiti)
- F1-skoor — precisioni ja recalli harmooniline keskmine
- Olemi tase vs Tokeni tase — hindamine olemi või tokeni tasemel
Väljakutsed
- Homonüümia (Apple — ettevõte või puuvili?)
- Pesastatud olemid (Kalifornia Ülikool, Los Angeles)
- Haruldased ja tekkivad olemid
- Mitmekeelne tugi