Nombres destacados como Anthropic y Uber están “poniendo a prueba las afirmaciones de eficiencia de AWS”, señaló; por otro costado, clientes como Cohere y Stability AI prefieren el situación de herramientas prudente de Nvidia y los “diseños de chips superiores”, citando problemas de disponibilidad y servicio de AWS.
Kimball de Moor señaló que otro divisor a considerar es AWS asociación con cerebros. Trainium está optimizado para precarga y Cerebras CS-3 está optimizado para decodificación, lo que permite a los dos ofrecer lo que afirman es el mejor rendimiento de inferencia sin indigencia de intervención del heredero. “Este es el tipo de simplicidad de ‘apuntar y hacer clic’ que buscan los usuarios empresariales”, afirmó.
En última instancia, Jassy está trazando una cadena directa entre lo que Graviton le hizo a x86 y lo que Trainium le está haciendo a Nvidia, dijo. La inferencia es la “carga de trabajo de más rápido crecimiento y más sensible a los costos en la IA empresarial, y ahí es exactamente donde Trainium está ganando más contorno”.
Aprendiendo de la ampliación de Mantle
Jassy además destacó la importancia de poder retornar a la cadena de salida para “reorientar la trayectoria”. Por ejemplo, Amazon Bedrock se construyó rápidamente y se escaló “más rápido de lo esperado”, y el equipo se dio cuenta de que necesitaba un tipo de motor de inferencia completamente diferente, no solo un ajuste.
El equipo de Bedrock formó rápidamente un congregación de seis “ingenieros muy capacitados” que utilizaron el servicio de codificación agente de AWS, Kiro, para entregar un nuevo motor, Mantle, en 76 días. Desde entonces, Mantle se ha convertido en la columna vertebral de Bedrock, que procesó más tokens en el primer trimestre de 2026, afirmó Jassy, que los que se habían procesado en todos los primaveras anteriores combinados.
La capacidad de un equipo pequeño para ganar una reconstrucción tan ancho en un período de tiempo tan corto, encima de unir características como dirección de conversaciones con estado, inferencia asincrónica y cuotas predeterminadas más altas, entre otras, es “impresionante a primera traza”, señaló Bickley de Info-Tech.
