Vad är Tokenisering
Dela upp text i tokens för modellbearbetning
Tokenisering är processen att bryta ner text i enskilda enheter (tokens) för efterföljande bearbetning av en språkmodell eller NLP-system.
Typer av Tokenisering
- Ordbaserad — uppdelning med mellanslag och skiljetecken
- Underord (BPE) — uppdelning i frekventa delsträngar
- Teckennivå — varje tecken som en separat token
- SentencePiece — språkoberoende tokenisering
Varför Tokenisering är Viktigt
- Definierar modellens ordförråd
- Påverkar hantering av sällsynta ord
- Bestämmer API-förfrågningskostnader (per token)
- Påverkar bearbetningshastighet
Token-exempel
- "hej världen" → ["hej", " världen"]
- "maskininlärning" → ["maskin", "inlärning"]
- "artificiell intelligens" → ["artificiell", " intelligens"]
Populära Tokenizers
- tiktoken (OpenAI) — för GPT-modeller
- SentencePiece — Google, språkoberoende
- Byte-Level BPE — arbetar med bytes
- WordPiece — BERT och derivat