Hva er Embeddings
Vektorrepresentasjoner av data for ML
Embeddings — numeriske vektorer som representerer objekter (ord, bilder, brukere) i flerdimensjonalt rom slik at lignende objekter er nær hverandre.
Typer Embeddings
- Tekst — Word2Vec, GloVe, FastText, BERT-embeddings
- Setninger — Sentence-BERT, Universal Sentence Encoder
- Bilder — ResNet-features, CLIP-embeddings
- Bruker/produkt — for anbefalingssystemer
- Graf — Node2Vec, GraphSAGE for nettverksdata
Nøkkelegenskaper
- Semantisk likhet — lignende objekter er nær i rommet
- Vektoraritmetikk — konge - mann + kvinne = dronning
- Dimensjonalitet — typisk 128-1536 dimensjoner
- Cosinuslikhet — metrikk for å sammenligne vektorer
Forretningsanvendelser
- Semantisk søk — søk etter mening, ikke nøkkelord
- Anbefalinger — "lignende produkter", "du vil kanskje like"
- Chatbots — RAG-systemer for kunnskapsbase-svar
- Klynging — automatisk innholdsgruppering
- Duplikatdeteksjon — finne lignende dokumenter og bilder