
Este artículo es traído a usted por Robotics DAIMON.
Este mes de abril, Hong Kong Robotics DAIMON ha liberado Daimon-Infinity, que describe como el conjunto de datos robótico multimodal más grande para la IA física, con detección táctil de alta resolución y abarca una amplia gama de tareas desde la lavandería plegable en casa a la fabricación en líneas de montaje de fábrica. El proyecto cuenta con el apoyo de iniciativas de colaboración de asociados de toda China y el mundo, incluyendo Google DeepMind, Northwestern University, y la Universidad Nacional de Singapur.
El movimiento indica una iniciativa estratégica clave para DAIMON, una empresa de dos años y medio conocida por su hardware avanzado de sensores táctiles, sobre todo un sensor táctil monocromático basado en la visión que empaqueta más de 110.000 unidades de detección efectivas en un módulo de tamaño de mano. Basándose en su tecnología de detección táctil de alta resolución y en una red distribuida de colección fuera de losas capaz de generar millones de horas de datos anualmente, DAIMON está construyendo conjuntos de datos de manipulación robótica a gran escala que incluyen enormes cantidades de datos de detección táctil. Para acelerar el despliegue del mundo real de la IA encarnada, la empresa también ha abierto 10.000 horas de sus datos.
El Prof. Michael Yu Wang, cofundador y científico principal de DAIMON Robotics, ha sido pionero en la arquitectura Vision-Tactile-Language-Action (VTLA), elevando el tactil a una modalidad a la par con la visión.Robotics DAIMON
Detrás de la estrategia está el Prof. Michael Yu Wang, cofundador y científico jefe de DAIMON. Prof. Wang ganó su doctorado en Carnegie Mellon — estudiando manipulación bajo Matt Mason – y fue a fundar el Instituto Robotics en la Universidad de Ciencia y Tecnología de Hong Kong. Un miembro de IEEE y ex editor en jefe de Transacciones IEEE en Ciencias de la Automatización e IngenieríaHa pasado aproximadamente cuatro décadas en el campo. Su objetivo es abordar la falta de “insensibilidad” de la manipulación de robots, que prácticamente se basa en el modelo de Vision-Language-Action (VLA). Él y su equipo han pionero en la arquitectura Vision-Tactile-Language-Action (VTLA), elevando el tactil a una modalidad a la par con la visión.
Hablamos con el Prof. Wang acerca de cómo la retroalimentación táctil pretende cambiar la manipulación dexterous, cómo se prevé la iniciativa de conjunto de datos para mejorar nuestra comprensión de las manos robóticas en entornos naturales, y donde —de hoteles a tiendas de conveniencia en China— ve a los robots habilitados para el tacto haciendo su primera incursión en el mundo real.
Daimon-Infinity es el conjunto de datos multimodal más grande del mundo para la IA Física, con datos multimodales de escala de millones de horas, retroalimentación táctil ultra-alta, datos de escenarios reales 80+ y habilidades humanas 2000+, y más.Robotics DAIMON
The Dataset Initiative
Esto mes, DAIMON Robotics liberación♪ mayor y más completo conjunto de datos de manipulación robótica con múltiples instituciones y empresas académicas líderes. ¿Por qué se libera?ing the dataset now, rather than continuing to focus on product ¿desarrollo? ¿Qué impacto tendrá esto en la industria de inteligencia encarnada?
DAIMON La robótica ha estado cerca durante casi dos años y medio. Nos hemos comprometido a desarrollar dispositivos de detección táctil multimodal de alta resolución para percibir la interacción entre la mano de un robot (en particular su punta de dedo) y los objetos. Nuestros dispositivos se han vuelto bastante robustos. Ahora son aceptados y utilizados por un gran segmento de usuarios, incluyendo institutos académicos y de investigación, así como empresas de robótica humanoides líderes.
Como la IA encarnada sigue avanzando, el papel crítico de los datos ha sido más claro. La escasez de datos sigue siendo un obstáculo primario en el aprendizaje de robots, en particular la falta de datos de interacción física, que es esencial para que los robots funcionen eficazmente en el mundo real. En consecuencia, la calidad de los datos, la fiabilidad y el costo se han convertido en importantes preocupaciones tanto en investigación como en desarrollo comercial.
Aquí es exactamente donde destaca DAIMON. Nuestra tecnología táctil basada en la visión captura datos táctiles multimodales de alta calidad. Más allá de las fuerzas básicas de contacto, registra deformación, deslizamiento y fricción, propiedades materiales y texturas superficiales, lo que permite una reconstrucción integral de interacciones físicas. Basándonos en nuestra experiencia en la fusión multimodal, hemos desarrollado un sólido gasoducto de procesamiento de datos que integra perfectamente la retroalimentación táctil con visión, trayectorias de movimiento y lenguaje natural, transformando insumos crudos en conjunto de datos listos para la formación de modelos de aprendizaje automático.
Reconociendo la brecha de datos en toda la industria, consideramos que la recopilación de datos a gran escala no sólo es nuestra ventaja competitiva única, sino una responsabilidad para la comunidad en general.
Al construir y abrir el conjunto de datos, buscamos proporcionar el “fuel” de alta calidad necesario para potenciar la IA encarnada, acelerando finalmente el despliegue real de modelos de base robótica de uso general.
La industria robótica es altamente competitiva, y muchos equipos han elegido centrarse en los datos. DAIMON está liberando un conjunto de datos de manipulación robótica multimodal basado en la visión, amplio y completo. ¿Cómo pudiste lograr esto?
Contamos con un equipo interno dedicado a ampliar nuestras capacidades, incluyendo la construcción de dispositivos de hardware y el desarrollo de nuestro propio modelo a gran escala. Aunque somos una empresa relativamente pequeña, nuestra tecnología central de detección táctil y paradigma innovador de recopilación de datos nos permiten construir conjuntos de datos a gran escala.
Nuestro enfoque es ampliar nuestra oferta. Hemos construido la red de recopilación de datos distribuida más grande del mundo. En lugar de depender de fábricas de datos centralizadas, este sistema ligero y escalable permite reunir datos en diversos entornos del mundo real, lo que nos permite generar millones de horas de datos al año.
“Para impulsar el avance de todo el campo de IA encarnado, hemos abierto 10.000 horas del conjunto de datos para la comunidad en general. ” —Prof. Michael Yu Wang, DAIMON Robotics
Este conjunto de datos está siendo conjunto desarrolladas con varias instituciones en todo el mundo. ¿Qué roles jugaron en su desarrollo, y cómo beneficiará el conjunto de datos su investigación y productos?
Además de los equipos basados en China, nuestros socios incluyen grupos de investigación líderes de universidades, como la Universidad Northwestern y la Universidad Nacional de Singapur, así como empresas globales como Google DeepMind y China Mobile. Su decisión de asociarse con DAIMON es un fuerte testamento al valor de nuestro conjunto de datos táctilmente ricos.
Entre las empresas involucradas hay algunas que ya han construido sus propios modelos pero ahora están incorporando información táctil. Mediante el despliegue de nuestros dispositivos de reunión de datos en escenarios de investigación, fabricación y otros escenarios del mundo real, nos ayudan a recopilar datos altamente prácticos y basados en aplicaciones. A su vez, nuestros socios aprovechan los datos para formar modelos adaptados a sus casos de uso específicos. Además, para impulsar el avance de todo el campo de IA encarnado, hemos abierto 10.000 horas del conjunto de datos para la comunidad en general.
Equipado con el sensor visuotactil de Daimon, el agarre siente delicadamente el contacto y controla precisamente la fuerza para recoger una frágil cáscara de huevos.Robot de Daimon
De VLA a VTLA: Por qué la sensación táctil cambia la ecuación
El paradigma principal de la robótica es actualmente el modelo Vision-Language-Action (VLA), pero su equipo ha propuesto un modelo Vision-Tactile-Language-Action (VTLA). ¿Por qué es necesario incorporar la sensibilidad táctil? ¿Qué permite que los robots logren, y qué tareas pueden fracasar sin retroalimentación táctil?
A lo largo de estos años de trabajo para hacer robots generalistas capaces de realizar tareas de manipulación, especialmente la manipulación dexterous — no sólo captar o sostener un objeto, sino manipular objetos y utilizar herramientas para impartir fuerzas y movimiento a partes — vemos que estos robots se utilizan en el hogar, así como en la configuración de montaje industrial.
Está bien establecido que la información táctil es esencial para proporcionar información sobre los estados de contacto para que los robots puedan guiar sus manos y dedos para realizar una manipulación fiable. Sin sensibilidad táctil, los robots son severamente limitados. Ellos luchan por localizar objetos en ambientes oscuros, y sin detección de resbalones, pueden dejar fácilmente objetos frágiles como el vidrio. Además, la imposibilidad de controlar precisamente la fuerza suele llevar a tareas de manipulación fallidas o, en casos graves, daños físicos. Naturalmente, es necesario mejorar el enfoque VLA para incorporar información táctil. Ampliamos el marco VLA para incorporar datos táctiles, creando el modelo VTLA.
Un beneficio adicional de nuestro sensor táctil es que está basado en la visión: Capturamos imágenes visuales de la deformación en la superficie del dedo. Capturamos múltiples imágenes en una secuencia de tiempo que codifica información de contacto, desde la cual podemos inferir fuerzas y otros estados de contacto. Esto se alinea bien con el marco visual en el que se basa VLA. Tener información táctil en un formato de imagen visual lo hace naturalmente adecuado para la integración en el marco VLA, transformándolo en un sistema VTLA. Esa es la ventaja clave: Los sensores táctiles basados en la visión proporcionan una resolución muy alta a nivel de píxeles, y estos datos se pueden incorporar en el marco, ya sea un modelo de extremo a extremo u otro tipo de arquitectura.
DAIMON ha sido conocido por sus sensores táctiles basados en la visión que pueden empaquetar más de 110.000 unidades de detección efectivas.Robotics DAIMON
La tecnología: Sensación Tactil basada en la visión monocromática
Usted y su equipo han pasado muchos años profundamente comprometidos en la detección táctil basada en la visión y han desarrollado la primera tecnología de detección táctil monocromática basada en la visión del mundo. ¿Por qué escogiste este camino técnico?
Una vez que empezamos a investigar sensores táctiles, entendimos nuestras necesidades. Queríamos sensores que imitan de cerca lo que tenemos debajo de nuestra piel. Estudios fisiológicos han documentado bien las capacidades que los humanos tienen a su alcance —conociendo lo que tocamos, qué tipo de material es, cómo se distribuyen las fuerzas, y si se mueve en la posición correcta mientras nuestro cerebro controla nuestras manos. Sabíamos que replicar estas capacidades en la mano de un robot ayudaría considerablemente.
Cuando analizamos las tecnologías existentes, encontramos muchos tipos, incluyendo sensores táctiles basados en la visión con óptica tricolor y otros diseños más simples. Decidimos integrar lo mejor de estos en una solución de trabajo de ingeniería que funciona bien sin ser demasiado complicado, manteniendo el costo, la fiabilidad y la sensibilidad dentro de un rango satisfactorio, desarrollando así finalmente una técnica de detección táctil monocromática basada en la visión. Esto es fundamentalmente un enfoque de ingeniería más que un enfoque puramente científico, ya que ya existía una gran cantidad de investigación fundamental. Con la creciente realización de la necesidad de datos táctiles, todo esto avanzará mano a mano.
DAIMON sensor táctil basado en la visión captura datos táctiles multimodales de alta calidad.Robotics DAIMON
El año pasado, DAIMON lanzó un sensor táctil multidimensional, de alta resolución y de alta frecuencia basado en la visión. Comparado con sensores táctiles tradicionales, ¿dónde está su ventaja central? ¿Qué industrias podría transformarse potencialmente?
Las características clave de nuestros sensores son la densidad de la medición de la fuerza distribuida y la deformación que podemos capturar sobre el área de la punta de los dedos. Creo que tenemos la mayor densidad en términos de unidades de detección. Es una métrica muy importante. La otra es dinámica: la frecuencia y ancho de banda — lo rápido que podemos detectar cambios de fuerza, transmitir señales y procesarlos en tiempo real. Otros aspectos importantes son en gran parte relacionados con la ingeniería, como la fiabilidad, la deriva, la durabilidad de la superficie blanda y la resistencia a la interferencia de factores magnéticos, ópticos o ambientales.
Un creciente número de investigadores y empresas están reconociendo la importancia de la detección táctil y la adopción de nuestra tecnología. Creo que los avances en la detección táctil elevarán a toda la comunidad e industria a un nivel superior. Uno de nuestros clientes potenciales está implementando robots humanoides en una pequeña tienda de conveniencia, con estantes densamente empaquetados donde el espacio de estantería está en una prima. El robot necesita llegar a espacios muy estrechos —más estrechos que los libros en un estante— para elegir un objeto. Los actuales agarre paralelo de dos mandíbulas no pueden encajar en la mayoría de estos espacios. Observando cómo los humanos recogen objetos, claramente necesitas al menos tres dedos delgados para tocar y rodar el objeto hacia ti y asegurarlo. Por lo tanto, estamos empezando a ver necesidades muy específicas donde las capacidades de detección táctil son esenciales.
De Academia a Startup
Después de 40 años en la academia — fundando el HKUST Robotics Institute, ganando prestigiosos honores incluyendo IEEE Fellow, y sirviendo como Editor-en-Jefe de IEEE TASE — ¿qué te motivó a fundar DAIMON Robotics?
He recorrido un largo camino. Comencé a aprender robótica durante mi doctorado en Carnegie Mellon, donde había grupos realmente notables trabajando en locomoción bajo Marc Raibert, quien fundó Boston Dynamics, y en manipulación bajo mi asesor, Matt Mason, un líder en el campo. Hemos estado trabajando en la manipulación dexterous, no sólo en Carnegie Mellon, sino globalmente durante muchos años.
Sin embargo, el progreso ha sido limitado durante mucho tiempo, especialmente en la construcción de manos dexterosas y hacerlas trabajar. Sólo recientemente han robado robots locomotion realmente, y sólo en los últimos años hemos comenzado a ver grandes avances en manos de robot. Hay claramente margen para avanzar en las capacidades de manipulación, lo que permitiría a los robots hacer trabajo como humanos. Mientras que en la Universidad de Ciencia y Tecnología de Hong Kong, vi a personas cada vez más grandes entrando en esta área en forma de estudiantes e investigadores postdoctorales. Queríamos poner en marcha nuestro esfuerzo aprovechando los recursos disponibles de capital y talento.
Afortunadamente, uno de mis postdocs, Dr. Duan Jianghua, tiene un fuerte sentido para las oportunidades comerciales. Reconociendo el rápido crecimiento del mercado robótico y el valor único que nuestra tecnología de detección táctil basada en la visión podría aportar, juntos empezamos DAIMON Robotics, y ha progresado bien. La comunidad ha crecido enormemente en China, Japón, Corea, Estados Unidos y Europa.
Los robots equipados con tecnología DAIMON se han desplegado en la configuración de fábrica. La compañía tiene como objetivo permitir que los robots alcancen la “inteligencia simulada” y cerrar la brecha entre lo que pueden ver y lo que pueden sentir.Robotics DAIMON
Modelo empresarial y estrategia comercial
¿Cuál es el actual modelo de negocio y enfoque estratégico de DAIMON? ¿Qué papel juega la versión de dataset en su estrategia comercial?
Comenzamos como una empresa de dispositivos enfocada en hacer sensores táctiles altamente capaces, especialmente para manos robot. Pero a medida que la tecnología y el negocio se desarrollaron, todos se dieron cuenta de que no es sólo un componente, sino toda la cadena tecnológica: dispositivos, datos de calidad y cantidad adecuadas, y finalmente el marco adecuado para construir, entrenar y desplegar modelos en robots en entornos de aplicaciones reales.
Nuestra estrategia empresarial se describe mejor como “3D”: Dispositivos, datos y despliegue. Construimos dispositivos para la recopilación de datos, nuestro propio ecosistema y para implementarlos en los dominios de aplicaciones potenciales de nuestros socios. Esto permite la recopilación de datos ricos en tátiles del mundo real y la validación completa de circuito cerrado. Esto se convertirá en parte integral del modelo de negocio 3D. La mayoría de las startups en este espacio están siguiendo un camino similar hasta que eventualmente algunas pueden ser más especializadas o más estrechamente integradas con otras empresas. Por ahora, es mayormente la integración vertical.
Habilidades incrustadas y el Momento de Convergencia
Usted ha introducido el concepto de “destrezas simuladas” como esencial para los robots humanoides para ir más allá de tener un “cerebro” avanzado de IA. ¿Qué provocó esta visión? ¿Qué nuevas capacidades podrían permitir las habilidades encarnadas? Después de la rápida evolución de modelos y hardware en los últimos dos años, ¿ha evolucionado su definición o hoja de ruta para las habilidades encarnadas?
Hemos recorrido un largo camino ahora para ver un punto de convergencia donde las tecnologías de hardware eléctricas, electrónicas y mecatrónicas han avanzado enormemente en las últimas dos décadas. Los robots son ahora totalmente eléctricos, no requieren hidráulica, porque el hardware ha evolucionado rápidamente. La electrónica moderna proporciona un tremendo ancho de banda con torcas altas. Si podemos construir inteligencia en estos sistemas, podemos crear robots verdaderamente humanoides con la capacidad de operar en entornos no estructurados, tomar decisiones y tomar acciones autónomamente.
“Nuestra visión es que los robots alcancen capacidades de manipulación robustas y se conviertan en socios confiables para los humanos. ” —Prof. Michael Yu Wang, DAIMON Robotics
AI ha llegado exactamente al momento adecuado. Se han invertido recursos enérgicos en el desarrollo de la IA, especialmente en los modelos de idiomas grandes, que ahora se generalizan en los modelos mundiales que permiten la capacidad física de la IA. Nos gustaría ver estos manifiestos en sistemas del mundo real.
Si bien las tecnologías de inteligencia artificial y hardware básicos siguen evolucionando, el enfoque es mucho más claro ahora. Por ejemplo, los robots de tamaño humano son preferidos en un entorno hogareño. Este es un dominio emocionante con una promesa de gran beneficio social si eventualmente podemos lograr robots seguros, fiables y rentables.
El camino hacia el despliegue en el mundo real
Hoy en día, muchos robots pueden ofrecer impresionantes demos, sin embargo queda una brecha antes de que realmente entren en aplicaciones del mundo real. ¿Qué podría ser un desencadenante potencial para la implementación del mundo real? ¿Qué escenarios son más propensos a lograr el despliegue a gran escala primero?
Creo que el camino hacia el despliegue a gran escala de robots generalistas sigue siendo largo, pero estamos empezando a ver signos de viabilidad dentro de dominios específicos. Es muy similar a los vehículos autónomos, donde todavía no vemos el despliegue completo de robo-taxis, mientras que ya hemos comenzado a encontrar robots móviles y vehículos más pequeños ampliamente desplegados en la industria de la hospitalidad. Casi todos los principales hoteles de China tienen ahora un robot de entrega, sin brazos, solo un vehículo que recoge artículos del vestíbulo del hotel (por ejemplo, entregas de alimentos). El repartidor solo carga la comida y selecciona el número de habitación. Depende del robot a partir de entonces navegar y llegar a la habitación del huésped, que incluye el uso del ascensor, para entregar la comida. Esto ya está casi 100 por ciento desplegado en los principales hoteles chinos.
Los robots de hotel y restaurante son vistos como un modelo para desplegar robots humanoides en dominios específicos como farmacias nocturnas y tiendas de conveniencia. Espero el despliegue completo en tales ajustes dentro de un plazo corto, seguido de otras aplicaciones. En general, podemos esperar que los robots autónomos, incluyendo humanoides, penetren progresivamente sectores específicos, aportando valor en cada uno y expandiéndose en otros.
En última instancia, nuestra visión es que los robots alcancen capacidades de manipulación robustas y se conviertan en socios confiables para los humanos. Al integrarse perfectamente en nuestros hogares y vidas cotidianas, se beneficiarán y servirán verdaderamente a la humanidad.
Esta entrevista ha sido editada para su longitud y claridad.
Fuente: Leer completo
Seguí las últimas noticias de robótica en español.

