Mis on Tokeniseerimine
Teksti jagamine tokeniteks mudeli töötlemiseks
Tokeniseerimine on protsess, mille käigus tekst jagatakse üksikuteks üksusteks (tokeniteks) keelimudeli või NLP-süsteemi järgnevaks töötlemiseks.
Tokeniseerimise tüübid
- Sõnapõhine — jagamine tühikute ja kirjavahemärkide järgi
- Alamsõna (BPE) — jagamine sagedasemateks alamstringideks
- Märgitase — iga märk eraldi tokenina
- SentencePiece — keelest sõltumatu tokeniseerimine
Miks Tokeniseerimine on Oluline
- Määratleb mudeli sõnavara
- Mõjutab haruldaste sõnade käsitlemist
- Määrab API-päringu kulud (tokeni kohta)
- Mõjutab töötlemiskiirust
Tokenite näited
- "tere maailm" → ["tere", " maailm"]
- "masinõpe" → ["masin", "õpe"]
- "tehisintellekt" → ["tehis", "intellekt"]
Populaarsed Tokeniseerijad
- tiktoken (OpenAI) — GPT mudelitele
- SentencePiece — Google, keelest sõltumatu
- Byte-Level BPE — töötab baitidega
- WordPiece — BERT ja derivatiivid