Qu'est-ce que Embeddings
Représentations vectorielles des données pour ML
Embeddings — vecteurs numériques représentant des objets (mots, images, utilisateurs) dans un espace multidimensionnel pour que les objets similaires soient proches.
Types d'Embeddings
- Texte — Word2Vec, GloVe, FastText, embeddings BERT
- Phrases — Sentence-BERT, Universal Sentence Encoder
- Images — caractéristiques ResNet, embeddings CLIP
- Utilisateur/produit — pour les systèmes de recommandation
- Graphes — Node2Vec, GraphSAGE pour données réseau
Propriétés Clés
- Similarité sémantique — objets similaires proches dans l'espace
- Arithmétique vectorielle — roi - homme + femme = reine
- Dimensionnalité — typiquement 128-1536 dimensions
- Similarité cosinus — métrique de comparaison des vecteurs
Applications Business
- Recherche sémantique — recherche par sens, pas par mots-clés
- Recommandations — "produits similaires", "vous pourriez aimer"
- Chatbots — systèmes RAG pour réponses base de connaissances
- Clustering — regroupement automatique du contenu
- Détection de doublons — trouver documents et images similaires