Qué es Embeddings
Representaciones vectoriales de datos para ML
Embeddings — vectores numéricos que representan objetos (palabras, imágenes, usuarios) en espacio multidimensional para que objetos similares estén cerca.
Tipos de Embeddings
- Texto — Word2Vec, GloVe, FastText, embeddings BERT
- Oraciones — Sentence-BERT, Universal Sentence Encoder
- Imágenes — características ResNet, embeddings CLIP
- Usuario/producto — para sistemas de recomendación
- Grafos — Node2Vec, GraphSAGE para datos de red
Propiedades Clave
- Similitud semántica — objetos similares están cerca en el espacio
- Aritmética vectorial — rey - hombre + mujer = reina
- Dimensionalidad — típicamente 128-1536 dimensiones
- Similitud coseno — métrica para comparar vectores
Aplicaciones Empresariales
- Búsqueda semántica — buscar por significado, no por palabras clave
- Recomendaciones — "productos similares", "te puede gustar"
- Chatbots — sistemas RAG para respuestas de base de conocimiento
- Clustering — agrupación automática de contenido
- Detección de duplicados — encontrar documentos e imágenes similares