
En entornos complejos, los humanos pueden entender el significado del habla mejor que la IA, porque usamos no solo nuestros oídos sino también nuestros ojos.
Por ejemplo, vemos que la boca de alguien se mueve y podemos saber intuitivamente que el sonido que escuchamos debe provenir de esa persona.
Meta AI está trabajando en un nuevo sistema de diálogo de IA, que es enseñar a la IA a aprender también a reconocer correlaciones sutiles entre lo que ve y escucha en una conversación.
Visualvoice aprende de manera similar a cómo los humanos aprenden a dominar nuevas habilidades, permitiendo la separación del habla audiovisual al aprender señales visuales y auditivas de videos no etiquetados.
Para las máquinas, esto crea una mejor percepción, mientras que la percepción humana mejora.
Imagínese poder participar en reuniones grupales en el Metverse con colegas de todo el mundo, uniéndose a reuniones grupales más pequeñas a medida que se mueven a través del espacio virtual, durante el cual las reverberación y los timbres en la escena se ajustan según el entorno en consecuencia.
Es decir, puede obtener información de audio, video y texto al mismo tiempo, y tiene un modelo de comprensión ambiental más rico, lo que permite a los usuarios tener una experiencia de sonido "muy WOW".
Tiempo de publicación: 20-2022