Resultados 1 al 1 de 1

ManualVLA mejora la planificación robótica con manuales multimodales

  1. #1
    Fecha de ingreso
    Apr 2002
    Mensajes
    34,955

    ManualVLA mejora la planificación robótica con manuales multimodales

    Los modelos Visión-Lenguaje-Acción (VLA) muestran una gran capacidad para generalizar en tareas robóticas. Sin embargo, cuando deben completar tareas complejas que requieren un estado objetivo definido, como ensamblar LEGO o reorganizar objetos, les cuesta coordinar la planificación de alto nivel con la manipulación precisa. Para resolver esto, presentamos ManualVLA, un marco unificado que permite a un modelo VLA inferir el proceso cómo a partir del resultado qué, transformando metas en procedimientos ejecutables.


    Un marco con dos expertos y un razonamiento guiado

    ManualVLA se construye sobre una arquitectura Mixture-of-Transformers (MoT). En lugar de mapear entradas sensoriales directamente a acciones, primero un experto en planificación genera manuales intermedios. Estos manuales son multimodales e incluyen imágenes, indicaciones de posición e instrucciones de texto. Luego, un proceso de razonamiento Manual Chain-of-Thought (ManualCoT) alimenta estos manuales al experto en acción. Cada paso del manual proporciona condiciones de control explícitas, mientras que su representación latente ofrece una guía implícita para manipular con precisión.

    Generación automática de datos para entrenar

    Recopilar datos manuales para entrenar al experto en planificación supone una gran carga. Para aliviarla, desarrollamos un kit de herramientas de gemelo digital basado en 3D Gaussian Splatting. Este kit genera automáticamente datos de manuales de alta fidelidad que se usan para entrenar al planificador. En pruebas del mundo real, ManualVLA logra una tasa de éxito promedio un 32% más alta que el mejor modelo jerárquico anterior en tareas de ensamblaje LEGO y reorganización de objetos.

    Así que, si alguna vez te has quejado de que las instrucciones de montaje son confusas, imagina tener que programar a un robot para que las siga y, de paso, las genere desde cero.
    |Agradecer cuando alguien te ayuda es de ser agradecido|

Temas similares

  1. General La resistencia de modelos multimodales frente a errores adversos
    Por 3dpoder en el foro Programas de Diseño 3D y CAD
    Respuestas: 0
    : 24-11-2025, 19:56
  2. General Generar videos mediante planificación y verificación de trayectorias
    Por 3dpoder en el foro Programas de Diseño 3D y CAD
    Respuestas: 0
    : 24-11-2025, 18:34
  3. Respuestas: 0
    : 24-11-2025, 12:35
  4. Dudas presupuestando programa de planificación de cocinas
    Por Tei en el foro Programas de Diseño 3D y CAD
    Respuestas: 0
    : 13-02-2008, 15:07
  5. Planificación
    Por Peto en el foro Modelado
    Respuestas: 2
    : 21-11-2005, 02:54

Etiquetas para este tema