Mikä on Datan lisäys
Koulutusdatan keinotekoinen laajentaminen
Datan Lisäys
Datan lisäys on tekniikka koulutusdatan määrän keinotekoiseen kasvattamiseen luomalla muokattuja kopioita olemassa olevasta datasta.
Miksi käyttää lisäystä
- Datajoukkon koon kasvattaminen — kun dataa ei ole riittävästi koulutukseen
- Ylisovittamisen estäminen — malli oppii erilaisista variaatioista
- Kestävyyden parantaminen — malli yleistää paremmin uudella datalla
- Kustannusten vähentäminen — halvempaa kuin oikean datan kerääminen
Menetelmiä Kuville
| Menetelmä | Kuvaus | |-----------|--------| | Kierto | Kierto mielivaltaisella kulmalla | | Peilaus | Vaaka-/pystypeilaus | | Skaalaus | Lähentäminen/loitontaminen | | Rajaus | Satunnainen kuvan osan rajaus | | Kirkkaus/Kontrasti | Väriominaisuuksien säädöt | | Kohina | Gaussisen kohinan lisääminen | | Cutout/Mixup | Modernit tekniikat |
Menetelmiä Tekstille
- Käännös edestakaisin — kääntäminen edestakaisin toisen kielen kautta
- Synonyymit — sanojen korvaaminen synonyymeillä
- Lisäys/poisto — satunnaiset sanat
- Sekoitus — sanajärjestyksen muuttaminen
- Generointi — uusien tekstien luominen LLM:llä
Menetelmiä Äänelle
- Toistonopeuden muutos
- Sävelkorkeuden siirto
- Taustakohinan lisääminen
- Aikamuokkaus
Työkalut
- imgaug — kuvien lisäyskirjasto (Python)
- Albumentations — nopea kuvien lisäys
- nlpaug — tekstin lisäys
- audiomentations — äänen lisäys
- TensorFlow/PyTorch — sisäänrakennetut muunnoskerrokset