Nedir Tokenizasyon
Model işleme için metni tokenlere bölme
Tokenizasyon, bir dil modeli veya NLP sistemi tarafından sonraki işleme için metni ayrı birimlere (tokenlere) ayırma sürecidir.
Tokenizasyon Türleri
- Kelime tabanlı — boşluk ve noktalama işaretlerine göre bölme
- Alt kelime (BPE) — sık görülen alt dizelere bölme
- Karakter düzeyi — her karakter ayrı bir token olarak
- SentencePiece — dilden bağımsız tokenizasyon
Tokenizasyon Neden Önemli
- Modelin kelime dağarcığını tanımlar
- Nadir kelimelerin işlenmesini etkiler
- API istek maliyetlerini belirler (token başına)
- İşleme hızını etkiler
Token Örnekleri
- "merhaba dünya" → ["merhaba", " dünya"]
- "makine öğrenimi" → ["makine", " öğrenimi"]
- "yapay zeka" → ["yapay", " zeka"]
Popüler Tokenizer'lar
- tiktoken (OpenAI) — GPT modelleri için
- SentencePiece — Google, dilden bağımsız
- Byte-Level BPE — baytlarla çalışır
- WordPiece — BERT ve türevleri