O que é Reconhecimento de Entidades Nomeadas
Extração de entidades nomeadas do texto
Reconhecimento de Entidades Nomeadas (NER) é uma tarefa de PLN para identificar e classificar automaticamente entidades nomeadas em texto: nomes de pessoas, organizações, localizações geográficas, datas, valores monetários e outras categorias.
Tipos de Entidades
- PER — nomes de pessoas (João Silva, Elon Musk)
- ORG — organizações (Google, Petrobras, ONU)
- LOC — localizações (São Paulo, Brasil, Monte Everest)
- DATE — datas e horários (1 de janeiro de 2024, ontem)
- MONEY — valores monetários (R$100, 5000 USD)
- PRODUCT — produtos (iPhone 15, Tesla Model 3)
Métodos NER
- Regras e dicionários — abordagem básica com expressões regulares
- Aprendizado de máquina — CRF, SVM em dados rotulados
- Aprendizado profundo — BiLSTM-CRF, BERT, RoBERTa
- Transfer learning — ajuste fino de modelos pré-treinados
Aplicações
- Motores de busca e recuperação de informação
- Chatbots e assistentes virtuais
- Análise de notícias e monitoramento de mídia
- Extração de dados de documentos
- Compliance e verificação de listas de sanções
Bibliotecas e Ferramentas
- spaCy — PLN rápido com NER integrado
- NLTK — biblioteca clássica de PLN
- Hugging Face Transformers — modelos BERT para NER
- Stanford NER — biblioteca Java
- Flair — PLN de última geração
Métricas de Qualidade
- Precisão — exatidão do reconhecimento
- Recall — completude (quantas entidades encontradas)
- F1-score — média harmônica de precisão e recall
- Nível de entidade vs nível de token — avaliação no nível de entidade ou token
Desafios
- Homonímia (Apple — empresa ou fruta?)
- Entidades aninhadas (Universidade da Califórnia, Los Angeles)
- Entidades raras e emergentes
- Suporte multilíngue