Was ist Tokenisierung
Aufteilen von Text in Token für die Modellverarbeitung
Tokenisierung ist der Prozess der Zerlegung von Text in einzelne Einheiten (Token) für die anschließende Verarbeitung durch ein Sprachmodell oder NLP-System.
Arten der Tokenisierung
- Wortbasiert — Aufteilung nach Leerzeichen und Interpunktion
- Subwort (BPE) — Aufteilung in häufige Teilzeichenketten
- Zeichenebene — jedes Zeichen als separater Token
- SentencePiece — sprachunabhängige Tokenisierung
Warum Tokenisierung wichtig ist
- Definiert das Vokabular des Modells
- Beeinflusst die Handhabung seltener Wörter
- Bestimmt API-Anfragekosten (pro Token)
- Beeinflusst die Verarbeitungsgeschwindigkeit
Token-Beispiele
- "Hallo Welt" → ["Hallo", " Welt"]
- "maschinelles Lernen" → ["maschin", "elles", " Lernen"]
- "unglaublich" → ["un", "glaub", "lich"]
Beliebte Tokenisierer
- tiktoken (OpenAI) — für GPT-Modelle
- SentencePiece — Google, sprachunabhängig
- Byte-Level BPE — arbeitet mit Bytes
- WordPiece — BERT und Ableitungen