Microsoft refuerza la fiabilidad de los agentes de IA con UI-Evol

UI-Evol mejora la precisión y fiabilidad de los agentes de IA de Microsoft.

Microsoft mejora la fiabilidad de los agentes de IA con UI-Evol
Microsoft mejora la fiabilidad de los agentes de IA.

Los agentes de IA de uso informático están revolucionando la automatización en sistemas operativos, pero su rendimiento todavía deja mucho que desear. Estos modelos, capaces de interactuar con las aplicaciones y ejecutar tareas autónomas, suele fallar al interpretar interfaces cambiantes o traducir instrucciones de forma precisa. Ahora, Microsoft Research Asia parece haber dado con una solución solida: un nuevo componente diseñado para hacer que estos agentes sean mucho más fiables y consistentes.

El componente se llama UI-Evol, y promete cerrar una brecha crítica conocida como la «brecha entre conocimiento y acción«. Este problema surge cuando los agentes aprenden de datos o ejemplos en línea, pero se enfrentan a interfaces que ya han cambiado. El resultado: errores constantes e interacción poco predecibles.

Microsoft mejora la fiabilidad de los agentes de IA

UI-Evol: el nuevo estándar para agentes de IA más precisos

La división de investigación de Microsoft presentó UI-Evol, como un componente listo para usar, capaz de integrarse directamente en los flujos de trabajo de los agentes existentes. Su propósito es claro: mantener actualizado el conocimiento de las interfaces en tiempo real, reduciendo errores y mejorando la ejecución de tareas.

Incluso con instrucciones correctas en el 90 % de los casos, los agentes solo tenían éxito el 41 % de las veces, detalla el estudio de Microsoft Research Asia.

La propuesta de Microsoft se centrar en un proceso de dos fases: Retrace y Critique. En la primera, el sistema registra paso a paso las acciones que un agente realiza cuando completa una tarea con éxito (clics, teclas, comandos). Con ello, UI-Evol aprende de los casos reales y adapta su conocimiento al entorno actual del software, eliminando así la dependencia de la información desactualizada.

Resultados medidos y mejora tangible

Para validar su eficacia, Microsoft probó UI-Evol en el Agente S2, considerado uno de los más avanzados en su categoría. Usando el conjunto de datos OSWorld y modelos de IA líderes como GPT-4o y OpenAI-o3, los resultados fueron claros: los agentes lograron mayores tasas de éxito y una menor variabilidad en su comportamiento.

Esto significa que los agentes no solo completan más tareas correctamente, sino que lo hacen de forma más estable y predecible, una cualidad esencial para aplicaciones empresariales y sistemas automatizados de oficina.

El impacto potencial de UI-Evol va más allá del laboratorio; en escenarios reales, podría transformar la manera en que los asistentes virtuales y los sistemas de automatización interactúan con las aplicaciones, mejorando su autonomía y reduciendo la necesidad de supervisión humana constante.

Con este avance, Microsoft refuerza su posición en la carrera por desarrollar agentes de IA confiables, un paso clave hacia una inteligencia artificial que realmente pueda operar como un asistente digital eficaz en cualquier entorno operativo.

Salir de la versión móvil