Mis on Multimodaalne tehisintellekt
Erinevate andmetüüpidega töötav AI: tekst, pildid, heli
Multimodaalne tehisintellekt — tehisintellektisüsteemid, mis suudavad töödelda ja mõista teavet mitmest modaalsusest: tekst, pildid, heli, video.
Modaalsused
- Tekst — loomuliku keele mõistmine ja genereerimine
- Pildid — visuaalse sisu analüüs ja loomine
- Heli — kõne ja muusika tuvastamine ning süntees
- Video — dünaamiliste visuaalsete andmete mõistmine
- Anduriandmed — IoT andurite andmed
Mudelinäited
- GPT-4V/GPT-4o — tekst + pildid + heli
- Claude 3 — tekst + pildid
- Gemini — tekst + pildid + heli + video
- DALL-E 3 — piltide genereerimine tekstist
- Whisper — kõnetuvastus
Võimekused
- Pildikirjeldused — teksti genereerimine fotodest
- Visuaalne küsimus-vastus — piltidega seotud küsimustele vastamine
- Ristmodaalne otsing — piltide otsimine teksti järgi
- Multimodaalne genereerimine — erinevate sisutüüpide loomine
Ärirakendused
- Sisu modereerimine — piltide ja teksti analüüs
- Dokumendianalüüs — andmete eraldamine skaneeringutest
- Virtuaalsed assistendid — hääle ja piltide mõistmine
- Turundus — multimeediasisu genereerimine