Was ist Named Entity Recognition
Extraktion benannter Entitäten aus Text
Named Entity Recognition (NER) ist eine NLP-Aufgabe zur automatischen Identifizierung und Klassifizierung benannter Entitäten in Texten: Personennamen, Organisationen, geografische Orte, Daten, Geldbeträge und andere Kategorien.
Entitätstypen
- PER — Personennamen (Max Müller, Elon Musk)
- ORG — Organisationen (Google, Siemens, UN)
- LOC — Orte (Berlin, Deutschland, Mount Everest)
- DATE — Daten und Zeiten (1. Januar 2024, gestern)
- MONEY — Geldbeträge (100€, 5000 USD)
- PRODUCT — Produkte (iPhone 15, Tesla Model 3)
NER-Methoden
- Regeln und Wörterbücher — Basisansatz mit regulären Ausdrücken
- Maschinelles Lernen — CRF, SVM auf annotierten Daten
- Deep Learning — BiLSTM-CRF, BERT, RoBERTa
- Transfer Learning — Feinabstimmung vortrainierter Modelle
Anwendungen
- Suchmaschinen und Informationsabruf
- Chatbots und virtuelle Assistenten
- Nachrichtenanalyse und Medienüberwachung
- Datenextraktion aus Dokumenten
- Compliance und Sanktionslistenprüfung
Bibliotheken und Tools
- spaCy — schnelles NLP mit integriertem NER
- NLTK — klassische NLP-Bibliothek
- Hugging Face Transformers — BERT-Modelle für NER
- Stanford NER — Java-Bibliothek
- Flair — State-of-the-Art NLP
Qualitätsmetriken
- Precision — Erkennungsgenauigkeit
- Recall — Vollständigkeit (wie viele Entitäten gefunden)
- F1-Score — harmonisches Mittel von Precision und Recall
- Entity-level vs Token-level — Bewertung auf Entitäts- oder Token-Ebene
Herausforderungen
- Homonymie (Apple — Unternehmen oder Frucht?)
- Verschachtelte Entitäten (University of California, Los Angeles)
- Seltene und neue Entitäten
- Mehrsprachige Unterstützung