Mikä on BERT
Googlen kielimalli tekstin ymmärtämiseen
BERT (Bidirectional Encoder Representations from Transformers)
BERT on Googlen esikoulutettu kielimalli, joka mullisti luonnollisen kielen käsittelyn (NLP).
Pääominaisuudet
| Ominaisuus | Kuvaus | |------------|--------| | Kaksisuuntainen | Analysoi kontekstin vasemmalta ja oikealta samanaikaisesti | | Esikoulutus | Koulutettu Wikipedialla + BookCorpuksella (3,3B sanaa) | | Transformer | Perustuu attention-arkkitehtuuriin | | Hienosäätö | Helposti mukautettavissa tiettyihin tehtäviin |
Esikoulutustehtävät
- Masked Language Model (MLM) — peitettyjen sanojen ennustaminen
- Next Sentence Prediction (NSP) — lauseiden suhteiden määrittäminen
BERT Sovellukset
| Tehtävä | Esimerkki | |---------|-----------| | Tekstin luokittelu | Arvostelujen sentimenttianalyysi | | NER | Nimien, päivämäärien, organisaatioiden poiminta | | Kysymyksiin vastaaminen | Vastaa kysymyksiin tekstistä | | Semanttinen haku | Haku merkityksen, ei sanojen mukaan |
Malliversiot
- BERT-Base — 12 kerrosta, 110M parametria
- BERT-Large — 24 kerrosta, 340M parametria
- FinBERT — suomenkielinen
- MultiBERT — 104 kieltä