U složenim okruženjima, ljudi mogu razumjeti značenje govora bolje od AI, jer koristimo ne samo uši nego i oči.
Na primjer, vidimo kako se nečija usta pomiču i možda intuitivno znamo da zvuk koji čujemo mora dolaziti od te osobe.
Meta AI radi na novom AI sistemu za dijalog, koji treba da nauči AI da takođe nauči da prepozna suptilne korelacije između onoga što vidi i čuje u razgovoru.
VisualVoice uči na sličan način kao što ljudi uče da ovladaju novim vještinama, omogućavajući audio-vizuelno razdvajanje govora učenjem vizualnih i slušnih znakova iz neoznačenih videozapisa.
Za mašine to stvara bolju percepciju, dok se ljudska percepcija poboljšava.
Zamislite da možete da učestvujete u grupnim sastancima u metaverzumu sa kolegama iz celog sveta, pridružujete se manjim grupnim sastancima dok se kreću kroz virtuelni prostor, tokom kojih se zvučni odjeci i tembrovi u sceni prilagođavaju u skladu sa okruženjem.
Odnosno, može istovremeno da dobije audio, video i tekstualne informacije i ima bogatiji model razumevanja životne sredine, omogućavajući korisnicima da imaju "veoma vau" zvučno iskustvo.
Vrijeme objave: Jul-20-2022