Hva er Tokenisering
Deling av tekst i tokens for modellbehandling
Tokenisering er prosessen med å bryte ned tekst i individuelle enheter (tokens) for påfølgende behandling av en språkmodell eller NLP-system.
Typer Tokenisering
- Ordbasert — oppdeling med mellomrom og skilletegn
- Underord (BPE) — oppdeling i hyppige delstrenger
- Tegnnivå — hvert tegn som en separat token
- SentencePiece — språkuavhengig tokenisering
Hvorfor Tokenisering er Viktig
- Definerer modellens ordforråd
- Påvirker håndtering av sjeldne ord
- Bestemmer API-forespørselskostnader (per token)
- Påvirker behandlingshastighet
Token-eksempler
- "hei verden" → ["hei", " verden"]
- "maskinlæring" → ["maskin", "læring"]
- "kunstig intelligens" → ["kunstig", " intelligens"]
Populære Tokenizers
- tiktoken (OpenAI) — for GPT-modeller
- SentencePiece — Google, språkuavhengig
- Byte-Level BPE — arbeider med bytes
- WordPiece — BERT og derivater