Qué es BERT
Modelo de lenguaje de Google para comprensión de texto
BERT (Bidirectional Encoder Representations from Transformers)
BERT es un modelo de lenguaje preentrenado de Google que revolucionó el procesamiento del lenguaje natural (NLP).
Características Principales
| Característica | Descripción | |----------------|-------------| | Bidireccional | Analiza contexto de izquierda y derecha simultáneamente | | Preentrenamiento | Entrenado en Wikipedia + BookCorpus (3.3B palabras) | | Transformer | Basado en arquitectura de atención | | Fine-tuning | Fácilmente adaptable a tareas específicas |
Tareas de Preentrenamiento
- Masked Language Model (MLM) — predicción de palabras enmascaradas
- Next Sentence Prediction (NSP) — determinar relaciones entre oraciones
Aplicaciones de BERT
| Tarea | Ejemplo | |-------|---------| | Clasificación de texto | Análisis de sentimiento de reseñas | | NER | Extracción de nombres, fechas, organizaciones | | Question Answering | Responder preguntas del texto | | Búsqueda Semántica | Buscar por significado, no palabras |
Versiones del Modelo
- BERT-Base — 12 capas, 110M parámetros
- BERT-Large — 24 capas, 340M parámetros
- BETO — para español
- MultiBERT — 104 idiomas