Alibaba lanza Qwen VLo, una innovadora herramienta de generación de imágenes por técnicas progresivas.
En un paso significativo hacia la innovación en el campo de la inteligencia artificial, Alibaba ha presentado su última creación: el modelo de IA conocido como Qwen VLo. Este sistema destaca por su capacidad para comprender y generar contenido multimodal, permitiendo así la creación y modificación de imágenes de alta calidad a partir de descripciones en lenguaje natural.
Este lanzamiento sigue a la introducción del modelo Qwen2.5-VL, que tuvo lugar a principios de 2023. En ese momento, la empresa enfatizó las capacidades avanzadas del modelo para analizar documentos, interpretar videos y desempeñar tareas de manera autónoma. Desde entonces, Alibaba ha centrado su esfuerzo en mejorar la comprensión visual de su tecnología.
El nuevo modelo, Qwen VLo, se propone simplificar la generación visual. Utilizando una innovadora técnica de generación progresiva, Qwen VLo puede crear imágenes complejas a partir de texto, lo que simplifica enormemente el proceso creativo para los usuarios.
La empresa ha indicado en un comunicado que este modelo tiene la habilidad de "comprender y recrear el mundo", lo que le permite generar imágenes de alta calidad que reflejan esa comprensión. En otras palabras, este avance tecnológico busca acortar la brecha entre la percepción y la creación artística.
Los usuarios pueden interactuar con Qwen VLo mediante solicitudes en lenguaje natural para producir nuevas imágenes, así como también pueden cargar fotografías y pedir que sean modificadas según sus indicaciones específicas.
El método de generación progresiva es clave en este proceso. Consiste en la construcción gradual de una imagen, añadiendo capas y texturas en un formato que va de lo difuso a lo nítido, permitiendo así que el modelo refine y optimice continuamente sus predicciones a medida que trabaja en la imagen final.
Este enfoque innovador procura asegurar que la imagen resultante sea "coherente y armoniosa", además de ofrecer una calidad visual superior. El proceso también promete una experiencia creativa más flexible para los usuarios, que pueden observar y ajustar las etapas de creación en tiempo real para satisfacer sus necesidades.
Alibaba ha subrayado las notables mejoras en la comprensión multimodal de Qwen VLo, que ahora es capaz de procesar de manera más efectiva textos, imágenes, audio y video. Esto contrasta con modelos anteriores, que solían mostrar inestabilidad semántica durante la generación de imágenes; Qwen VLo se distingue por su alta consistencia semántica a lo largo de todo el proceso de creación.
Gracias a estas características, los usuarios pueden dar instrucciones creativas detalladas, incluidas referencias artísticas y ajustes precisos, que el modelo manejará de forma eficiente. Esto incluye tareas como modificar objetos, editar textos y cambiar fondos, todo ejecutado con un único comando.
Actualmente, Alibaba ha lanzado una versión preliminar de Qwen VLo, invitando a los usuarios a explorar sus capacidades a través del chat Qwen. Esta nueva herramienta es accesible en varios idiomas, entre ellos chino e inglés, ampliando su alcance a una audiencia global ansiosa por descubrir el potencial de esta innovadora inteligencia artificial.
Tags:
Categoría:
Newsletter
Entérate de las últimas noticias cómodamente desde tu mail.