Qué es Reconocimiento de Entidades Nombradas
Extracción de entidades nombradas del texto
El Reconocimiento de Entidades Nombradas (NER) es una tarea de PLN para identificar y clasificar automáticamente entidades nombradas en el texto: nombres de personas, organizaciones, ubicaciones geográficas, fechas, cantidades monetarias y otras categorías.
Tipos de Entidades
- PER — nombres de personas (Juan García, Elon Musk)
- ORG — organizaciones (Google, BBVA, ONU)
- LOC — ubicaciones (Madrid, España, Monte Everest)
- DATE — fechas y horas (1 de enero de 2024, ayer)
- MONEY — cantidades monetarias (100€, 5000 USD)
- PRODUCT — productos (iPhone 15, Tesla Model 3)
Métodos NER
- Reglas y diccionarios — enfoque básico con expresiones regulares
- Aprendizaje automático — CRF, SVM en datos etiquetados
- Aprendizaje profundo — BiLSTM-CRF, BERT, RoBERTa
- Transfer learning — ajuste fino de modelos preentrenados
Aplicaciones
- Motores de búsqueda y recuperación de información
- Chatbots y asistentes virtuales
- Análisis de noticias y monitoreo de medios
- Extracción de datos de documentos
- Cumplimiento y verificación de listas de sanciones
Bibliotecas y Herramientas
- spaCy — NLP rápido con NER integrado
- NLTK — biblioteca clásica de NLP
- Hugging Face Transformers — modelos BERT para NER
- Stanford NER — biblioteca Java
- Flair — NLP de última generación
Métricas de Calidad
- Precisión — exactitud del reconocimiento
- Recall — exhaustividad (cuántas entidades encontradas)
- F1-score — media armónica de precisión y recall
- Nivel de entidad vs nivel de token — evaluación a nivel de entidad o token
Desafíos
- Homonimia (Apple — ¿empresa o fruta?)
- Entidades anidadas (Universidad de California, Los Ángeles)
- Entidades raras y emergentes
- Soporte multilingüe