Hume AI ha enérgico oficialmente TADA, un nuevo sistema de conversión de texto a voz (TTS) basado en un enfoque único de tokenización de adscripción dual texto-acústica. Esta alternativa ahora está acondicionado para el divulgado bajo una osadía de código destapado, con modelos y código accesibles para su uso inmediato. TADA se dirige a investigadores, desarrolladores y empresas que crean aplicaciones habilitadas para voz, ofreciendo modelos tanto en inglés como multilingües.
El producto se destaca por su velocidad, ya que produce voz en tiempo efectivo cinco veces más rápido que los sistemas TTS comparables basados en LLM, al tiempo que mantiene una ingreso precisión y casi elimina los errores de contenido. La adscripción de tokens de texto a audio uno a uno de TADA le permite originar voz de formato dilatado, con una ventana de contexto que admite hasta 700 segundos de audio, superando con creces las soluciones existentes que luchan con las limitaciones del contexto, las demandas de memoria y el contenido del deje alucinado o faltante.
¡Hoy lanzamos nuestro primer maniquí TTS de código destapado, TADA!
TADA (Text Audio Dual Alignment) es un maniquí de voz y habla que genera texto y audio en una secuencia sincronizada para dominar las alucinaciones a nivel simbólico y mejorar la latencia.
Esto significa:
→ Alucinaciones de contenido cero… pic.twitter.com/4JMQSghqCz-Hume AI (@hume_ai) 10 de marzo de 2026
Hume AI, la empresa detrás de TADA, se especializa en infraestructura de investigación de IA de voz, atendiendo a organizaciones y laboratorios de investigación centrados en la IA. Su delegación es promover tecnologías de engendramiento de voz confiables y eficientes. El propagación de TADA marca un movimiento decisivo para impulsar el progreso en TTS a través de la colaboración de código destapado, proporcionando herramientas para la implementación en el dispositivo que reducen la latencia y abordan las micción de privacidad. Las primeras evaluaciones técnicas indican altas puntuaciones de ciudadanía y similitud de los hablantes, lo que posiciona a TADA como una esforzado alternativa tanto a las versiones anteriores como a las ofertas TTS de la competencia. Las respuestas iniciales de desarrolladores y expertos en inteligencia industrial destacan el potencial de esta edificación para remodelar la síntesis de voz en entornos regulados y con posibles limitados.
