MAI-Voice-1 genera “un discurso natural y realista, rico en matices, rango emocional y expresión”, según Microsoft, y fue creado para preservar la identidad del hablante en contenido de formato espacioso. El maniquí puede gestar un minuto de audio en “un solo segundo” y su bajo uso de GPU lo hace rápido y asequible.
MAI-Image-2 tiene un rendimiento y velocidad de gestación de imágenes “turbo” en Copilot, según Redmond. Debutó entre las tres familias de modelos principales en la clasificación de Arena.ai y pronto se implementará en Bing y PowerPoint.
Microsoft dijo que el maniquí fue creado con la ayuda de fotógrafos, diseñadores y narradores visuales que “exigen iluminación natural, tonos de piel y texturas precisos”, por otra parte de texto claro para gráficos, diseños y diagramas.
