
Lo asombroso y frustrante de los robots es que pueden hacer casi cualquier cosa que quieras que hagan, siempre y cuando sepas cómo preguntar correctamente. En el pasado no tan distante, preguntando correctamente significaba código de escritura, y mientras hemos movido con gratitud más allá de esa restricción frágil, todavía hay una correlación irritantemente inversa entre facilidad de uso y complejidad de la tarea.
AI ha prometido cambiar eso. La idea es que cuando AI está encarnado dentro de robots —dar software AI una presencia física en el mundo— esos robots serán impregnados con razonamiento y comprensión. Esto es algo de vanguardia, sin embargo, y aunque hemos visto muchos ejemplos de IA encarnada en un contexto de investigación, encontrar aplicaciones donde los robots de razonamiento pueden proporcionar valor comercial confiable no ha sido fácil. Boston Dynamics es una de las pocas empresas para desplegar comercialmente robots legged a cualquier escala apreciable; ahora hay varios miles de duros en el trabajo. Hoy la compañía es anunciando que su robot cuadruplicado Spot ahora está equipado con Google DeepMind’s Gemini Robotics-ER 1.6, a modelo de razonamiento encarnado de alto nivel que trae usabilidad e inteligencia a tareas complejas.
YouTube.com
Aunque este vídeo muestra Spot in a home context, the focus of this partnership is on one of the very few applications where legged robots have proven themselves to be commercially viable: inspection. Es decir, vagando por las instalaciones industriales, comprobando para asegurarse de que nada está inminentemente explotando. Con la nueva IA a bordo, Spot ahora es capaz de buscar de forma autónoma residuos peligrosos o derrames, leer calibres complejos y gafas de vista, y llamar a herramientas como modelos de acción de lenguaje de visión cuando necesita ayudar a entender lo que está pasando en el entorno que lo rodea.
“Los avances como Gemini Robotics ER 1.6 marcan un paso importante hacia los robots que pueden entender y operar mejor en el mundo físico”, Marco da Silva, el vicepresidente y gerente general de Spot en Boston Dynamics, dice en un comunicado de prensa. “Las capacidades como la lectura de instrumentos y el razonamiento de tareas más confiable permitirán a Spot ver, comprender y reaccionar a los desafíos del mundo real completamente autónomamente. ”
Comprensión de Robot
Las palabras “reasoning” y “comprender” se aplican cada vez más a la IA y la robótica, pero como Gill Pratt del Toyota Research Institute señaló recientemente, lo que esas palabras en realidad Quiero decir para robots en la práctica no siempre es claro. “El punto de referencia en el que nos midemos cuando se trata de entender es que el sistema debe responder a la forma en que un ser humano”, Carolina Parada, Jefe de Robotics en Google DeepMind, explicó en una entrevista. Para que los robots realicen tareas confiables y seguras, esta conexión entre cómo los robots entienden el mundo y cómo lo hacen los humanos es crítica. De lo contrario, puede haber una desconexión entre las instrucciones que un humano da un robot, y cómo el robot decide llevar a cabo esa tarea.
El vídeo de Boston Dynamics es un ejemplo potencialmente desordenado de esto. Una de las instrucciones para Spot era “reciclar cualquier lata en el salón”. No tiene ningún problema para completar la tarea, como muestra el video, pero al hacerlo agarre las barras laterales, que no va a terminar bien para las latas que tienen líquido sobrante en ellos. Nosotros los humanos evitaríamos esto porque podemos aprovechar una vida de experiencia para saber cómo se deben mantener las latas, pero los robots no tienen ese tipo de conocimiento del mundo.
Parada dice que Gemini Robotics-ER 1.6 aborda situaciones como esta desde una perspectiva de seguridad. “Si pides al robot que te traiga una taza de agua, razonará no colocarla en el borde de una mesa donde podría caer. Rastreamos esto usando nuestro Punto de referencia ASIMOV, que incluye un montón de ejemplos de lenguaje natural de cosas que el robot no debe hacer.” La versión actual de Spot no utiliza estos modelos de seguridad semántica para la manipulación, pero el plan es hacer que las versiones futuras razonen sobre la retención de objetos en formas que son seguras.
YouTube.com
Todavía parece haber una desconexión entre Gemini Robotics-ER 1.6 como un modelo de razonamiento de alto nivel para un robot, y el propio robot como una interfaz con el mundo físico. Una de las nuevas características de 1.6 es detección del éxito, que combina múltiples ángulos de cámara para ser más confiablemente capaz de saber cuándo Spot ha captado con éxito un objeto. Esto es genial si confías completamente en la visión de tu interacción con el objeto, pero los robots tienen todo tipo de otras formas bien establecidas para detectar una captación exitosa, incluyendo sensores táctiles y sensores de fuerza, que 1.6 no está usando. La razón por la que este es el caso habla a un problema fundamental que el campo robótico todavía está tratando de averiguar: cómo entrenar modelos cuando usted necesita datos físicos.
“De momento, estos modelos son estrictamente sólo visionarios”, explica Parada. “Hay mucha información [visual] en la web sobre cómo recoger un bolígrafo. Si tuviéramos suficientes datos con información táctil, podríamos aprenderlo fácilmente, pero no hay muchos datos con sensibilidad táctil en Internet”. Los clientes que utilizan estas nuevas capacidades para la inspección con Spot serán obligados a compartir sus datos con Boston Dynamics, de donde vendrán algunos de estos datos.
Robots del mundo real que son útiles
El hecho de que Boston Dynamics tiene clientes les hace algo de anomalía cuando se trata de robots afilados que confían en AI en implementaciones comerciales. Y esos clientes tendrán que ser capaces de confiar en el robot…siempre un problema cuando AI está involucrado. “Lo tomamos muy en serio”, dijo da Silva en una entrevista. “Desplegamos nuevas capacidades de DeepMind a través de programas beta a un conjunto más pequeño de clientes para entender qué anticipar, y sólo anunciamos activamente características que estamos seguros de que trabajarán”. Hay un umbral de utilidad que los robots como Spot necesitan alcanzar, y por suerte, el mundo real no exige la perfección. “La mayor infraestructura crítica en una instalación será instrumentada para decirte si algo está mal”, dice da Silva. “Pero hay muchas cosas que no se instrumentan que todavía pueden causar un problema si usted no está prestando atención a él. Hemos encontrado que en algún lugar al norte del 80 por ciento es el umbral donde no es molesto. Debajo de eso, básicamente el robot está llorando lobo, y los operadores comenzarán a ignorarlo. ”
Tanto da Silva como Parada están de acuerdo en que todavía hay mucho espacio para mejorar la inspección robótica. Como señala Parada, el estatus raro de Spot como una plataforma comercial escalable ofrece una oportunidad valiosa para aprender cómo los modelos como Gemini Robotics-ER 1.6 pueden ser los más útiles, y luego aplicar ese conocimiento a otras plataformas de IA encarnadas, incluyendo Atlas de Boston Dynamics. ¿Eso significa que Atlas va a ser el próximo robot de inspección industrial? Probablemente no. Pero si esta experiencia del mundo real puede acercarnos a robots seguros y confiables que pueden recoger la ropa, tomar un perro para caminar, y limpiar los latas de soda sin hacer un desastre, eso es algo que todos podemos emocionarnos.
Fuente: Leer completo
Líderes en información sobre robótica latinoamérica.
Somos tu guía de robótica referente en la región.

