토큰화 이란
모델 처리를 위한 텍스트 토큰 분할
토큰화는 언어 모델이나 NLP 시스템의 후속 처리를 위해 텍스트를 개별 단위(토큰)로 분해하는 프로세스입니다.
토큰화 유형
- 단어 기반 — 공백과 구두점으로 분할
- 서브워드(BPE) — 빈도가 높은 부분 문자열로 분할
- 문자 수준 — 각 문자를 별도의 토큰으로
- SentencePiece — 언어 독립적 토큰화
토큰화가 중요한 이유
- 모델의 어휘 정의
- 희귀 단어 처리에 영향
- API 요청 비용 결정(토큰당)
- 처리 속도에 영향
토큰 예시
- "안녕하세요" → ["안녕", "하세요"]
- "기계학습" → ["기계", "학습"]
- "인공지능" → ["인공", "지능"]
인기 토크나이저
- tiktoken(OpenAI) — GPT 모델용
- SentencePiece — Google, 언어 독립적
- Byte-Level BPE — 바이트로 작동
- WordPiece — BERT 및 파생 모델