
En Madrid, el 27 de agosto se ha dado a conocer una emocionante novedad por parte de Google: el lanzamiento de Gemini 2.5 Flash Image. Este innovador modelo está diseñado para revolucionar la generación y edición de imágenes, proporcionando a los usuarios la capacidad de fusionar múltiples imágenes sin perder la coherencia entre los personajes y elementos que aparecen en ellas. Además, permite realizar transformaciones personalizadas usando lenguaje natural a través de la aplicación Gemini y Google AI Studio.
El nuevo modelo de razonamiento, denominado Gemini 2.5 Flash, fue introducido en abril para la plataforma Vertex AI, destacándose por su flexibilidad. Esta opción permite a los usuarios activar o desactivar sus capacidades de razonamiento, logrando así un balance óptimo entre la calidad de las respuestas, el coste y la latencia en el rendimiento.
Con la intención de enriquecer la experiencia de edición de imágenes tanto para desarrolladores como para usuarios, Google ha hecho accesible el nuevo modelo Gemini 2.5 Flash Image. Este avance promete una calidad superior en los resultados y un control creativo sin precedentes.
Internamente apodado como 'nanobanana', este modelo no solo permite unir imágenes en una única composición, sino que también se asegura de mantener el contexto y coherencia de los diferentes elementos involucrados. Además, brinda la posibilidad de modificar imágenes mediante instrucciones en lenguaje natural, facilitando así el proceso creativo.
La compañía ha compartido detalles sobre estas funciones en un comunicado de su blog dirigido a desarrolladores, informando que se han activado en el "modo de creación" de Google AI Studio. Esto permite a los desarrolladores dar vida a sus ideas con simples indicaciones y, posteriormente, compartir sus creaciones en Google AI Studio o guardar el código en GitHub.
Asimismo, la actualización de la herramienta de edición de imágenes en la aplicación de Gemini ahora está disponible para todos los usuarios. Este avance busca mejorar las capacidades de modificación y asegurar que la "similitud entre las imágenes" se mantenga, ya que según la compañía, "una representación ligeramente alterada puede no ser estéticamente adecuada".
Los usuarios simplemente deberán proporcionar a Gemini una foto para realizar modificaciones específicas y añadir un toque único. Por ejemplo, pueden solicitar que la persona presente en la imagen sea colocada en nuevos entornos, mientras se mantiene su apariencia original en todas las versiones. También es posible cambiar sus vestimentas o profesiones, o incluso reinventar al individuo en un contexto temporal diferente, todo sin sacrificar su identidad visual.
Adicionalmente, la herramienta permite fusionar fotos, integrando varias imágenes en una sola para generar una escena completamente nueva. Así, por ejemplo, es posible anidar la imagen de un perro junto a la de una persona de manera coherente.
La plataforma también permite realizar ajustes específicos, como alterar el color de las paredes de una habitación o añadir muebles mientras se conserva el resto de la imagen intacto.
Entre las innovaciones del modelo se encuentra la posibilidad de mezclar estilos, lo que permite aplicar el diseño de una imagen a un objeto de otra. Por ejemplo, se podría usar el color y la textura de los pétalos de una flor para personalizar unas botas de lluvia.
Nicole Brichtova, directora de producto de modelos visuales en Google DeepMind, enfatizó en sus declaraciones a TechCrunch que "esta actualización mejora significativamente el proceso, haciendo que las ediciones sean más fluidas, y los resultados generados pueden ser utilizados para cualquier fin".
Además, se aclaró que todas las imágenes creadas o editadas a través de la aplicación de Gemini presentan una marca de agua visible, junto con una marca de agua digital invisible conocida como SynthID.
En resumen, Gemini 2.5 Flash Image ya está disponible para desarrolladores a través de la API de Gemini y Google AI Studio, así como a través de Vertex AI para empresas. El acceso está sujeto a un coste de 30 dólares (25,86 euros al tipo de cambio) por cada millón de tokens de salida, donde cada imagen se traduce en 1.290 tokens, implicando que generar una imagen costará 0,039 dólares (0,034 euros al cambio).
Por su parte, la reciente actualización de la herramienta de edición de imágenes en la aplicación de Gemini ya está disponible de forma gratuita para todos los usuarios.
Tags:
Categoría:
Newsletter
Entérate de las últimas noticias cómodamente desde tu mail.