Qu'est-ce que Tokenisation
Découpage du texte en tokens pour le traitement par le modèle
La Tokenisation est le processus de décomposition du texte en unités individuelles (tokens) pour le traitement ultérieur par un modèle de langage ou un système NLP.
Types de Tokenisation
- Basée sur les mots — division par espaces et ponctuation
- Sous-mot (BPE) — division en sous-chaînes fréquentes
- Niveau caractère — chaque caractère comme token séparé
- SentencePiece — tokenisation indépendante de la langue
Pourquoi la Tokenisation est importante
- Définit le vocabulaire du modèle
- Affecte le traitement des mots rares
- Détermine les coûts des requêtes API (par token)
- Impacte la vitesse de traitement
Exemples de Tokens
- "bonjour monde" → ["bonjour", " monde"]
- "apprentissage automatique" → ["apprenti", "ssage", " automatique"]
- "incroyable" → ["in", "croyable"]
Tokeniseurs Populaires
- tiktoken (OpenAI) — pour les modèles GPT
- SentencePiece — Google, indépendant de la langue
- Byte-Level BPE — travaille avec les octets
- WordPiece — BERT et dérivés