Mistral AI ha emprendedor Voxtral TTS como un maniquí de voz empresarial extenso y gratis, posicionándolo frente a líderes cerrados como ElevenLabs con una implementación totalmente controlable y de último costo en servidores, dispositivos perimetrales y teléfonos inteligentes.
Mistral AI ha emprendedor Voxtral TTS, que describe como el primer maniquí empresarial de texto a voz de peso extenso y calidad de vanguardia, lanzando todos los pesos para su descarga gratuita en un desafío directo a los líderes de IA de voz cerrada como ElevenLabs, OpenAI, Google Cloud e IBM.
La traducción abierta constituye el diferenciador más resistente, ya que permite a las empresas ejecutar el maniquí en sus propios servidores, implementarlo en teléfonos inteligentes, conservar todos los datos de audio internamente y evitar por completo las API de terceros. Este enfoque de propiedad empresarial fortalece el cumplimiento, la soberanía de los datos y el control de implementación para sectores regulados, incluidos finanzas, atención médica y gobierno.
Estratégicamente, Voxtral TTS completa el proceso de voz de extremo a extremo de Mistral, agregando la capa de salida a su pila existente de Voxtral Transcribe, LLM, Forge, AI Studio y Compute, lo que permite agentes empresariales completos de voz a voz sin dependencias externas.
Mistral además posiciona el dispersión como un coyuntura de disrupción directa contra los servicios de voz basados en suscripción, afirmando una preferencia de los oyentes del 62,8% sobre ElevenLabs Flash v2.5 y un 69,9% en personalización de voz, al tiempo que mantiene una latencia y un coste de infraestructura más bajos.
Construido sobre un decodificador de parámetros de 3.4B con un transformador sonoro de 390M y un códec neuronal de 300M, el maniquí funciona con aproximadamente 3GB de RAM cuando está cuantificado, admite nueve idiomas, ofrece un tiempo hasta el primer audio de 90ms y genera voz seis veces más rápido que el tiempo efectivo. El dispersión agudiza el cambio de la industria en dirección a una IA de voz abierta y controlada por la empresa a escalera.
