Modelos de lenguaje visual entrenan robots para leer emociones humanas

Este artículo es parte de nuestra exclusiva Serie IEEE Journal Watch en asociación con IEEE Xplore.

Mientras los robots avanzan en términos de destreza y otras capacidades físicas, se vuelve más probable que los humanos se encuentren trabajando junto a ellos. Si eso sucede, ¿cómo tendrán que avanzar las capacidades emocionales de los robots para que trabajen con éxito con la gente?

En un estudio reciente, investigadores capacitados robots colaborativos leer emociones humanas no sólo contando expresiones faciales, sino también factores contextuales en las interacciones también. A través de experimentos con 40 voluntarios, los investigadores evaluaron cómo la capacidad de un robot para leer las emociones humanas y ajustar su comportamiento a su vez impactó la percepción humana del robot y sus capacidades como ambos colaboraron en tareas. El resultados—que muestran que las capacidades emocionales de los robots sólo van tan lejos con los humanos— fueron publicadas el 18 de mayo en Cartas de Robótica y Automatización de IEEE.

Seung Chan Hong lideró el estudio como parte de su tesis de grado mientras estudiaba en la Universidad de Melbourne, en Australia. Él observa que, aunque ha habido mucha hippie en las habilidades físicas avanzadas de los robots, esto es sólo una pieza del rompecabezas. “Necesitamos también innovar cuando se trata de que realmente interactúen con los humanos, no sólo sus capacidades físicas”, dice.

Esto le llevó a profundizar en los aspectos emocionales de las interacciones humana-robot. En primer lugar, Hong y sus coautores decidieron entrenar a un robot para leer las emociones humanas utilizando un modelo de lenguaje de visión (VLM), que es similar a los modelos de lenguaje grandes como ChatGPT, pero que también puede tomar entradas visuales.

Formación de VLM para el reconocimiento de la emoción humana

Para entrenar su VLM, los investigadores tenían voluntarios para ver vídeos de robots que entregaban objetos a seres humanos, con diferentes grados de éxito, y describir las emociones que los humanos estaban expresando. Importantemente, los voluntarios que etiquetan estos vídeos pudieron tener en cuenta más contexto en estas interacciones, en lugar de informar únicamente sobre las expresiones faciales de los humanos en el vídeo. Por ejemplo, una persona que hace pisar para pensar con una ceja surcada puede simplemente concentrarse en su tarea a la mano, y no necesariamente estar enojada. Factores contextuales como batir sus dedos, purgar sus labios, u otros comportamientos pueden apuntar a la verdadera causa de la ceja surcada de una persona.

Los investigadores compararon su VLM a un sistema convencional de IA que se basa en el análisis facial estándar y el seguimiento de objetos que se utiliza en interacciones humana-robot. Encontraron que el VLM superaba el enfoque tradicional. En una escala de 0 (sin similitud en significado a la emoción identificada por los voluntarios humanos) a 1 (un perfecto partido en significado), el sistema convencional de inteligencia artificial alcanzó una puntuación de 0.77. En comparación, el VLM alcanzó una puntuación de 0.86.

Hong dice, “Creo que [el VLM] fue capaz de alinearse con lo que los observadores humanos estaban viendo mucho mejor, porque no sólo estaba mirando la cara de la persona por una breve cantidad de tiempo, sino viendo toda la escena, donde estaba la persona y lo que estaban haciendo, y cómo estaban interactuando con el robot”.

En un segundo experimento, el equipo de investigación pidió a 40 voluntarios que interactuaran con un robot usando su VLM, pero programó deliberadamente al robot para cometer un error. El robot entonces tuvo que ofrecer una apología emocionalmente adaptativa que representaba la respuesta percibida del ser humano al error, o una disculpa hablada prescripta.

Los participantes prefirieron abrumadoramente la respuesta emocionalmente adaptativa, con 31 de cada 40 personas favoreciendo este enfoque sobre una disculpa de caldera.

Sin embargo, sus respuestas a la encuesta subrayaron cómo esta adaptación emocional era mucho menos importante que la funcionalidad del robot. Después de colaborar con un robot que falló en su tarea, muchos participantes clasificaron su confianza en el robot como inferior, independientemente de cómo se disculpó por su error. “Una disculpa personalizada actúa como lubricante social, pero no puede reparar la confianza perdida por el robot que falla su tarea física”, dice Hong.

Curiosamente, el VLM clasificó las emociones de sus socios humanos de manera similar a los voluntarios humanos que observaron una interacción desde una perspectiva de terceros. Pero cuando las evaluaciones del VLM se midieron contra las emociones autoreportadas de los seres humanos durante el segundo experimento, las descripciones más precisas de sus verdaderas emociones, su capacidad para predecir con precisión las emociones cayó significativamente.

“Mientras que el VLM es un buen observador de las señales sociales externas, no es un lector de mentes”, dice Hong. “Se ajustaba bien a los observadores humanos de tercera persona, pero no siempre se alineaba con los sentimientos internos y autodenominados del usuario”.

Juntos, estos resultados muestran que los robots no son perfectos para leer las emociones humanas. Así que, aunque la gente pueda apreciar sus esfuerzos, todavía en última instancia querrán colaboradores competentes.

Fuente: Leer completo

What's Hot

Modelos de lenguaje visual entrenan robots para leer emociones humanas

AI en almacenamiento: visión de Akash Gupta para el futuro

MassRobotics anuncia los ganadores de 2026 Medalla de Robótica y Rising Star premios

Ciberseguridad Industrial en Uruguay:El factor invisible que define la continuidad operativa

Uruguay frente a la Industria 4.0: la oportunidad de formar parte de la nueva revolución industrial del Cono Sur

Beekhoff

Subscribe to Updates

What's Hot

Modelos de lenguaje visual entrenan robots para leer emociones humanas

AI en almacenamiento: visión de Akash Gupta para el futuro

MassRobotics anuncia los ganadores de 2026 Medalla de Robótica y Rising Star premios

Modelos de lenguaje visual entrenan robots para leer emociones humanas

Formación de VLM para el reconocimiento de la emoción humana

Ciberseguridad Industrial en Uruguay:El factor invisible que define la continuidad operativa

Uruguay frente a la Industria 4.0: la oportunidad de formar parte de la nueva revolución industrial del Cono Sur

Beekhoff