Mikä on Nimettyjen entiteettien tunnistus
Nimettyjen entiteettien poiminta tekstistä
Nimettyjen entiteettien tunnistus (NER) on NLP-tehtävä nimettyjen entiteettien automaattiseen tunnistamiseen ja luokitteluun tekstissä: henkilönimet, organisaatiot, maantieteelliset sijainnit, päivämäärät, rahasummat ja muut kategoriat.
Entiteettityypit
- PER — henkilönimet (Matti Meikäläinen, Elon Musk)
- ORG — organisaatiot (Google, Nokia, YK)
- LOC — sijainnit (Helsinki, Suomi, Mount Everest)
- DATE — päivämäärät ja ajat (1. tammikuuta 2024, eilen)
- MONEY — rahasummat (100 dollaria, 5000 euroa)
- PRODUCT — tuotteet (iPhone 15, Tesla Model 3)
NER-menetelmät
- Säännöt ja sanakirjat — peruslähestymistapa säännöllisillä lausekkeilla
- Koneoppiminen — CRF, SVM merkityillä tiedoilla
- Syväoppiminen — BiLSTM-CRF, BERT, RoBERTa
- Siirto-oppiminen — esikoulutettujen mallien hienosäätö
Sovellukset
- Hakukoneet ja tiedonhaku
- Chatbotit ja virtuaaliassistentit
- Uutisanalyysi ja mediaseuranta
- Tietojen poiminta asiakirjoista
- Vaatimustenmukaisuus ja pakoteluetteloiden tarkistus
Kirjastot ja työkalut
- spaCy — nopea NLP sisäänrakennetulla NER:llä
- NLTK — klassinen NLP-kirjasto
- Hugging Face Transformers — BERT-mallit NER:lle
- Stanford NER — Java-kirjasto
- Flair — huippuluokan NLP
Laatumittarit
- Precision — tunnistustarkkuus
- Recall — kattavuus (kuinka monta entiteettiä löydettiin)
- F1-score — precisionin ja recallin harmoninen keskiarvo
- Entiteettitaso vs Tokenitaso — arviointi entiteetti- tai tokenitasolla
Haasteet
- Homonymia (Apple — yritys vai hedelmä?)
- Sisäkkäiset entiteetit (University of California, Los Angeles)
- Harvinaiset ja nousevat entiteetit
- Monikielinen tuki