
En una emocionante actualización desde las oficinas de Google en Madrid, la compañía ha presentado la vista previa de su innovador modelo de inteligencia artificial, denominado Gemini 2.5 Computer Use, que promete revolucionar la forma en que las máquinas interactúan con el mundo digital. Este avanzado sistema es capaz de navegar por páginas web y aplicaciones realizando acciones como "hacer clic", permitiendo que los agentes de IA realicen tareas de manera autónoma en entornos visuales similares a los que utilizan los humanos.
A pesar de que la mayoría de las IA actuales gestionan su funcionamiento a través de APIs estructuradas, Google ha destacado que para muchas tareas digitales todavía es esencial que exista una interacción directa con las interfaces gráficas de usuario (IU). Esto es especialmente relevante cuando se trata de actividades como llenar y enviar formularios, donde la comprensión y la acción manual se vuelven indispensables.
Con este fin, la empresa ha señalado que es crucial que la IA pueda navegar y operar en aplicaciones y sitios web de la misma manera que lo haría un usuario humano: haciendo clic, escribiendo y desplazándose a través de la interfaz según sea necesario. Con esto en mente, Gemini 2.5 Computer Use se lanza con el propósito de brindar esas capacidades, al basarse en el modelo de razonamiento y comprensión visual de Gemini 2.5 Pro, facilitando así interacciones más naturales y efectivas entre los agentes de IA y los entornos digitales.
En un comunicado en su blog, Google explicó que gracias a su habilidad para razonar sobre contextos visuales, este modelo puede realizar una serie de acciones complejas: visitar páginas web, desplazarse a través de interfaces, buscar información y realizar acciones como hacer clic en botones, completar formularios y arrastrar y soltar elementos. Todo ello está diseñado para optimizar la experiencia del usuario.
El nuevo modelo se ha adaptado principalmente para su uso en navegadores web, aunque también tiene características que le permiten gestionar tareas en interfaces móviles. A pesar de ello, Google ha aclarado que este modelo no está diseñado para el control directo a nivel de sistema operativo en escritorios, un matiz importante para los desarrolladores.
Las funcionalidades clave de Gemini 2.5 Computer Use están disponibles a través de una nueva herramienta denominada 'computer_use' en la API de Gemini. Este sistema acepta como insumos la solicitud del usuario, una captura de pantalla del entorno y un historial reciente de acciones, con el fin de generar respuestas adecuadas que reflejen acciones de la interfaz de usuario, como escribir o hacer clic. Notablemente, también se incluye una función de confirmación del usuario para ciertas acciones, especialmente en compras en línea, todo ello vigilado por un sistema de seguridad externo para garantizar la fiabilidad y seguridad de las transacciones.
Google ha reportado un "excelente rendimiento" de Gemini 2.5 Computer Use en diversas pruebas de navegación web y móvil, superando los estándares establecidos por evaluaciones internas y de terceros como Browserbase. Estos estudios indican que el modelo no solo logra un alto grado de precisión al interactuar con navegadores, sino que también operan con una baja latencia, lo que es crucial para los usuarios que buscan eficiencia.
La empresa enfatiza que la capacidad de manejar formularios de manera nativa, así como interactuar con elementos dinámicos de las interfaces, marca un hito fundamental en la creación de agentes de IA versátiles y efectivos. Esta evolución permite anticipar un futuro en el que las máquinas puedan llevar a cabo tareas cada vez más complejas en la web.
Por último, los desarrolladores ya pueden acceder a la vista previa de Gemini 2.5 Computer Use a través de Google AI Studio y Vertex AI. Además, este nuevo enfoque ya está siendo utilizado para potenciar funciones dentro del Modo IA de Búsqueda y en investigaciones como Project Mariner, que exploran cómo los agentes de IA pueden llevar a cabo tareas de navegación y compra de forma autónoma.
Categoría:
Newsletter
Entérate de las últimas noticias cómodamente desde tu mail.