Qu'est-ce que Reconnaissance d'Entités Nommées
Extraction d'entités nommées du texte
La Reconnaissance d'Entités Nommées (NER) est une tâche de TAL pour identifier et classifier automatiquement les entités nommées dans le texte : noms de personnes, organisations, lieux géographiques, dates, montants monétaires et autres catégories.
Types d'Entités
- PER — noms de personnes (Jean Dupont, Elon Musk)
- ORG — organisations (Google, BNP Paribas, ONU)
- LOC — lieux (Paris, France, Mont Everest)
- DATE — dates et heures (1er janvier 2024, hier)
- MONEY — montants monétaires (100€, 5000 USD)
- PRODUCT — produits (iPhone 15, Tesla Model 3)
Méthodes NER
- Règles et dictionnaires — approche de base avec expressions régulières
- Apprentissage automatique — CRF, SVM sur données annotées
- Apprentissage profond — BiLSTM-CRF, BERT, RoBERTa
- Transfer learning — ajustement de modèles pré-entraînés
Applications
- Moteurs de recherche et recherche d'information
- Chatbots et assistants virtuels
- Analyse de nouvelles et veille médiatique
- Extraction de données de documents
- Conformité et vérification des listes de sanctions
Bibliothèques et Outils
- spaCy — TAL rapide avec NER intégré
- NLTK — bibliothèque TAL classique
- Hugging Face Transformers — modèles BERT pour NER
- Stanford NER — bibliothèque Java
- Flair — TAL de pointe
Métriques de Qualité
- Précision — exactitude de la reconnaissance
- Rappel — exhaustivité (combien d'entités trouvées)
- F1-score — moyenne harmonique de précision et rappel
- Niveau entité vs niveau token — évaluation au niveau entité ou token
Défis
- Homonymie (Apple — entreprise ou fruit ?)
- Entités imbriquées (University of California, Los Angeles)
- Entités rares et émergentes
- Support multilingue