BERT とは
テキスト理解のためのGoogle言語モデル
BERT(Bidirectional Encoder Representations from Transformers)
BERTは、自然言語処理(NLP)に革命をもたらしたGoogleの事前学習済み言語モデルです。
主な特徴
| 特徴 | 説明 | |------|------| | 双方向 | 左右のコンテキストを同時に分析 | | 事前学習 | Wikipedia + BookCorpusで学習(33億語) | | Transformer | アテンションアーキテクチャに基づく | | ファインチューニング | 特定のタスクに容易に適応可能 |
事前学習タスク
- Masked Language Model (MLM) — マスクされた単語の予測
- Next Sentence Prediction (NSP) — 文の関係性の判定
BERTの応用
| タスク | 例 | |--------|-----| | テキスト分類 | レビューの感情分析 | | NER | 名前、日付、組織の抽出 | | 質問応答 | テキストから質問に回答 | | セマンティック検索 | 単語ではなく意味で検索 |
モデルバージョン
- BERT-Base — 12層、1.1億パラメータ
- BERT-Large — 24層、3.4億パラメータ
- 日本語BERT — 日本語用
- MultiBERT — 104言語