Vad är Namngiven entitetsigenkänning
Extrahera namngivna entiteter från text
Namngiven entitetsigenkänning (NER) är en NLP-uppgift för att automatiskt identifiera och klassificera namngivna entiteter i text: personnamn, organisationer, geografiska platser, datum, penningbelopp och andra kategorier.
Entitetstyper
- PER — personnamn (Erik Svensson, Elon Musk)
- ORG — organisationer (Google, Volvo, FN)
- LOC — platser (Stockholm, Sverige, Mount Everest)
- DATE — datum och tider (1 januari 2024, igår)
- MONEY — penningbelopp (100 dollar, 5000 SEK)
- PRODUCT — produkter (iPhone 15, Tesla Model 3)
NER-metoder
- Regler och ordlistor — grundläggande tillvägagångssätt med reguljära uttryck
- Maskininlärning — CRF, SVM på märkta data
- Djupinlärning — BiLSTM-CRF, BERT, RoBERTa
- Transfer learning — finjustering av förtränade modeller
Tillämpningar
- Sökmotorer och informationssökning
- Chatbots och virtuella assistenter
- Nyhetsanalys och mediaövervakning
- Dataextraktion från dokument
- Efterlevnad och kontroll av sanktionslistor
Bibliotek och verktyg
- spaCy — snabb NLP med inbyggd NER
- NLTK — klassiskt NLP-bibliotek
- Hugging Face Transformers — BERT-modeller för NER
- Stanford NER — Java-bibliotek
- Flair — toppmodern NLP
Kvalitetsmått
- Precision — igenkänningsnoggrannhet
- Recall — fullständighet (hur många entiteter hittades)
- F1-score — harmoniskt medelvärde av precision och recall
- Entitetsnivå vs Tokennivå — utvärdering på entitets- eller tokennivå
Utmaningar
- Homonymi (Apple — företag eller frukt?)
- Nästlade entiteter (University of California, Los Angeles)
- Sällsynta och framväxande entiteter
- Flerspråkigt stöd