La investigación en aprendizaje por refuerzo avanza al reinterpretar el aprendizaje por refuerzo de máxima entropía (MaxEntRL) como un problema de muestreo basado en modelos de difusión. Este enfoque innovador minimiza la divergencia KL inversa entre la política de difusión y la distribución de política óptima, utilizando un límite superior manejable. Al aplicar el teorema del gradiente de políticas a este objetivo, se deriva una función objetivo modificada que incorpora la dinámica de difusión de manera fundamental. Este marco teórico conduce al desarrollo de variantes simples de algoritmos populares.


Derivación de algoritmos DiffSAC, DiffPPO y DiffWPO

La aplicación práctica de este marco da lugar a variantes de difusión de algoritmos establecidos: Soft Actor-Critic (SAC), Proximal Policy Optimization (PPO) y Wasserstein Policy Optimization (WPO). Los nuevos métodos, denominados DiffSAC, DiffPPO y DiffWPO, requieren solo cambios menores de implementación en sus algoritmos base. La modificación principal reside en el objetivo sustituto, que ahora guía la política a través del proceso de difusión inversa para aproximarse a la distribución óptima, manteniendo la esencia y estructura de los algoritmos originales.

Resultados en benchmarks de control continuo

Las evaluaciones experimentales en benchmarks estándar de control continuo demuestran que los métodos basados en difusión superan a sus contrapartes tradicionales. DiffSAC, DiffPPO y DiffWPO logran mejores retornos y una mayor eficiencia muestral en comparación con SAC y PPO. Estos resultados sugieren que la incorporación de la dinámica de difusión proporciona una ventaja significativa en la exploración y explotación del espacio de acciones, permitiendo que los agentes converjan más rápido a políticas de alto rendimiento mientras mantienen la robustez característica de MaxEntRL.

Parece que ahora, para mejorar un algoritmo de RL, solo hay que añadir Diff al nombre y dejar que un proceso estocástico haga el trabajo pesado de encontrar la política óptima, una partícula de ruido a la vez.