Hva er Navngitt entitetsgjenkjenning
Utvinning av navngitte entiteter fra tekst
Navngitt entitetsgjenkjenning (NER) er en NLP-oppgave for automatisk å identifisere og klassifisere navngitte entiteter i tekst: personnavn, organisasjoner, geografiske steder, datoer, pengebeløp og andre kategorier.
Entitetstyper
- PER — personnavn (Ola Nordmann, Elon Musk)
- ORG — organisasjoner (Google, Statoil, FN)
- LOC — steder (Oslo, Norge, Mount Everest)
- DATE — datoer og tider (1. januar 2024, i går)
- MONEY — pengebeløp (100 dollar, 5000 NOK)
- PRODUCT — produkter (iPhone 15, Tesla Model 3)
NER-metoder
- Regler og ordbøker — grunnleggende tilnærming med regulære uttrykk
- Maskinlæring — CRF, SVM på merkede data
- Dyp læring — BiLSTM-CRF, BERT, RoBERTa
- Transfer learning — finjustering av forhåndstrente modeller
Anvendelser
- Søkemotorer og informasjonsgjenfinning
- Chatbots og virtuelle assistenter
- Nyhetsanalyse og medieovervåking
- Datautvinning fra dokumenter
- Samsvar og kontroll av sanksjonslister
Biblioteker og verktøy
- spaCy — rask NLP med innebygd NER
- NLTK — klassisk NLP-bibliotek
- Hugging Face Transformers — BERT-modeller for NER
- Stanford NER — Java-bibliotek
- Flair — toppmoderne NLP
Kvalitetsmål
- Precision — gjenkjenningsnøyaktighet
- Recall — fullstendighet (hvor mange entiteter funnet)
- F1-score — harmonisk gjennomsnitt av precision og recall
- Entitetsnivå vs Tokennivå — evaluering på entitets- eller tokennivå
Utfordringer
- Homonymi (Apple — selskap eller frukt?)
- Nestede entiteter (University of California, Los Angeles)
- Sjeldne og fremvoksende entiteter
- Flerspråklig støtte