トークン化 とは
モデル処理のためのテキストのトークン分割
トークン化 は、言語モデルやNLPシステムによる後続処理のために、テキストを個々の単位(トークン)に分割するプロセスです。
トークン化の種類
- 単語ベース — スペースと句読点で分割
- サブワード(BPE) — 頻出部分文字列に分割
- 文字レベル — 各文字を個別のトークンとして
- SentencePiece — 言語に依存しないトークン化
トークン化が重要な理由
- モデルの語彙を定義する
- 希少語の処理に影響する
- APIリクエストのコストを決定する(トークン単位)
- 処理速度に影響する
トークンの例
- "こんにちは世界" → ["こんにちは", "世界"]
- "機械学習" → ["機械", "学習"]
- "人工知能" → ["人工", "知能"]
人気のトークナイザー
- tiktoken(OpenAI)— GPTモデル用
- SentencePiece — Google、言語非依存
- Byte-Level BPE — バイトで動作
- WordPiece — BERTとその派生