En entornos complejos, los humanos pueden comprender el significado del habla mejor que la IA, porque no sólo utilizamos nuestros oídos sino también nuestros ojos.
Por ejemplo, vemos la boca de alguien moverse y podemos saber intuitivamente que el sonido que escuchamos debe provenir de esa persona.
Meta AI está trabajando en un nuevo sistema de diálogo de IA, cuyo objetivo es enseñarle a la IA a aprender también a reconocer correlaciones sutiles entre lo que ve y oye en una conversación.
VisualVoice aprende de manera similar a cómo los humanos aprenden a dominar nuevas habilidades, permitiendo la separación del habla audiovisual al aprender señales visuales y auditivas de videos sin etiquetar.
Para las máquinas, esto crea una mejor percepción, mientras que la percepción humana mejora.
Imagine poder participar en reuniones grupales en el metaverso con colegas de todo el mundo, uniéndose a reuniones de grupos más pequeños mientras se mueven por el espacio virtual, durante el cual las reverberaciones de sonido y los timbres en la escena se ajustan en consecuencia según el entorno.
Es decir, puede obtener información de audio, vídeo y texto al mismo tiempo y tiene un modelo de comprensión ambiental más rico, lo que permite a los usuarios tener una experiencia de sonido "muy sorprendente".
Hora de publicación: 20-jul-2022