Vad är Syntetisk data
Artificiellt skapade träningsdata
Syntetisk data är artificiellt genererad data som efterliknar verklig data samtidigt som den bevarar dess statistiska egenskaper och struktur.
Fördelar
- Integritet — ingen risk för läckage av personuppgifter
- Skalbarhet — kan skapa vilken mängd data som helst
- Klassbalans — lätt att eliminera obalans i dataset
- Sällsynta scenarier — modellering av gränsfall
Genereringsmetoder
- Statistiska modeller — baserade på fördelningar
- GAN — generativa motståndarbaserade nätverk
- VAE — variationella autoencoders
- Simuleringar — fysisk modellering
Tillämpningar
- Träning av ML-modeller vid databrist
- Testning av databehandlingssystem
- Applikationsutveckling och felsökning
- Förstärkning av befintliga dataset