
U složenim okruženjima, ljudi mogu razumjeti značenje govora bolje od umjetne inteligencije, jer ne koristimo samo uši već i oči.
Na primjer, vidimo kako se nečija usta pomiču i intuitivno znamo da zvuk koji čujemo mora dolaziti od te osobe.
Meta AI radi na novom AI sustavu dijaloga, koji će AI naučiti prepoznavati suptilne korelacije između onoga što vidi i čuje u razgovoru.
VisualVoice uči na sličan način na koji ljudi uče svladavati nove vještine, omogućujući audio-vizualno odvajanje govora učenjem vizualnih i slušnih znakova iz neoznačenih videozapisa.
Za strojeve to stvara bolju percepciju, dok se ljudska percepcija poboljšava.
Zamislite da možete sudjelovati u grupnim sastancima u metaverzumu s kolegama iz cijelog svijeta, pridruživati se manjim grupnim sastancima dok se kreću kroz virtualni prostor, tijekom kojih se zvučni reverberi i tembri u sceni prilagođavaju u skladu s okolinom.
To jest, može istovremeno primati audio, video i tekstualne informacije te ima bogatiji model razumijevanja okoliša, što korisnicima omogućuje "vrlo impresivno" zvučno iskustvo.
Vrijeme objave: 20. srpnja 2022.