Mikä on Tokenisointi
Tekstin jakaminen tokeneiksi mallinkäsittelyä varten
Tokenisointi on prosessi, jossa teksti jaetaan yksittäisiin yksiköihin (tokeneihin) kielimallin tai NLP-järjestelmän myöhempää käsittelyä varten.
Tokenisoinnin tyypit
- Sanapohjainen — jako välilyöntien ja välimerkkien mukaan
- Alasana (BPE) — jako usein esiintyviin alimerkkijonoihin
- Merkkitaso — jokainen merkki erillisenä tokenina
- SentencePiece — kieliriippumaton tokenisointi
Miksi Tokenisointi on Tärkeää
- Määrittää mallin sanaston
- Vaikuttaa harvinaisten sanojen käsittelyyn
- Määrittää API-pyyntökustannukset (per token)
- Vaikuttaa käsittelynopeuteen
Token-esimerkkejä
- "hei maailma" → ["hei", " maailma"]
- "koneoppiminen" → ["kone", "oppiminen"]
- "tekoäly" → ["teko", "äly"]
Suositut Tokenizerit
- tiktoken (OpenAI) — GPT-malleihin
- SentencePiece — Google, kieliriippumaton
- Byte-Level BPE — toimii tavuilla
- WordPiece — BERT ja johdannaiset