Hume AI ha extenso su maniquí TTS TADA, presentando una nueva edificio de alineamiento de texto-acústica que genera voz cinco veces más rápido y admite audio de formato derrochador de hasta 700 segundos.
Hume AI ha valiente TADA, su primer maniquí de texto a voz (TTS) de código extenso, poniendo tanto los modelos como el código fuente a disposición del notorio para investigadores, desarrolladores y empresas que crean aplicaciones habilitadas para voz.
TADA presenta una edificio de tokenización de alineamiento dual text-acoustic que alinea tokens de texto directamente con tokens de audio. Este diseño permite una síntesis de voz más precisa y al mismo tiempo reduce significativamente los errores TTS comunes.
El rendimiento es un punto culminante esencia. El sistema genera voz en tiempo auténtico más de cinco veces más rápido que los sistemas TTS comparables basados en LLM, al tiempo que mantiene una incorporación precisión y casi elimina los errores de contenido en la voz generada.
El maniquí incluso admite la reproducción de voz de formato derrochador con hasta 700 segundos de contexto de audio, una capacidad que va mucho más allá de los sistemas TTS típicos, que a menudo tienen problemas con ventanas de contexto limitadas, grandes requisitos de memoria y problemas como alucinaciones o segmentos de voz faltantes.
TADA está diseñado para la implementación en el dispositivo, lo que permite una latencia más desvaloración, una privacidad mejorada y una último dependencia de la infraestructura de la nimbo. El impulso incluye modelos en inglés y multilingües, ampliando su potencial para aplicaciones de voz globales.
Las primeras evaluaciones técnicas indican una incorporación similitud de los hablantes y fuertes puntuaciones de naturaleza, lo que posiciona al sistema como una alternativa potencial a las soluciones TTS comerciales y de investigación existentes.
Las reacciones iniciales de los desarrolladores y expertos en IA sugieren que la edificio podría remodelar la síntesis de voz, particularmente para industrias reguladas y entornos con fortuna limitados.
Hume AI se centra en la construcción de una infraestructura de investigación de IA de voz para organizaciones y laboratorios de investigación de IA, con el objetivo de promover tecnologías de reproducción de voz confiables y eficientes a través de la colaboración abierta.
