Mistral presenta Voxtral: un innovador sistema de transcripción de voz que procesa audios de hasta 30 minutos con alta exactitud.
En una jugada que promete revolucionar el panorama de la interacción hombre-máquina, Mistral ha presentado su innovador sistema Voxtral, el primer modelo de voz de acceso abierto. Este software tiene la capacidad de transcribir audios de hasta 30 minutos y comprender grabaciones de hasta 40 minutos, además de ofrecer respuestas sobre el contenido y generar resúmenes estructurados.
Mistral enfatiza la relevancia del habla como el medio más intuitivo para comunicarse con dispositivos tecnológicos, y con Voxtral busca proporcionar herramientas de transcripción de alta calidad. La empresa aspira a una implementación abierta y accesible, en contraste con las soluciones cerradas y monopolizadas que dominan el mercado.
La familia Voxtral incluye dos versiones: una robusta de 24B, ideal para aplicaciones a gran escala, y otra más ligera de 3B, especialmente diseñada para el uso local y en dispositivos 'edge'. Este enfoque busca democratizar el acceso a tecnologías de inteligencia de voz, ofreciendo alternativas totalmente gratuitas.
Mistral destaca que Voxtral no solo ofrece una precisión sobresaliente, sino que también cuenta con habilidades de comprensión semántica en un entorno abierto. Ambas versiones son capaces de manejar audios extensos, con un contexto de token de 32K, y proporcionan transcripciones y análisis detallados sin necesidad de integrar diferentes modelos de lenguaje y ASR.
La compatibilidad multilingüe de Voxtral es otra de sus grandes ventajas; el sistema detecta automáticamente diversos idiomas y muestra un rendimiento superior en idiomas como inglés, español, francés y alemán, entre otros. Esto aumenta su versatilidad y aplicación en un mundo globalizado.
Un aspecto innovador de Voxtral es su capacidad para ejecutar funciones mediante comandos de voz, lo que permite a los usuarios activar procesos en el backend o llamar a API directamente a través de interacciones habladas. Esta funcionalidad convierte las solicitudes de voz en acciones del sistema de manera efectiva y fluida.
La base de este software se apoya en Mistral Small 3.1, un modelo de lenguaje que respalda su notable capacidad para comprender texto. Voxtral se perfila como una herramienta destinada a facilitar interacciones significativas y gestiones efectivas, incluyendo resúmenes y análisis.
Además, Mistral resalta que para aquellos con un presupuesto limitado, Voxtral Mini (3B) supera las expectativas de transcripción de su competidor Whisper de OpenAI, ofreciendo este servicio a una fracción del costo. Para usuarios con necesidades más sofisticadas, Voxtral ofrece un rendimiento equivalente al de ElevenLabs Scribe.
Finalmente, Mistral ha decidido ofrecer estos modelos de forma gratuita bajo la licencia Apache 2.0. Los usuarios pueden acceder a Voxtral a través de la API de la compañía y del asistente Le Chat, mientras que próximamente lanzarán un punto final optimizado exclusivo para tareas de transcripción.
Categoría:
Newsletter
Entérate de las últimas noticias cómodamente desde tu mail.