Nvidia afirma administrar 10 veces más costos con modelos de inferencia de código extenso -

Nvidia señaló que el costo por token pasó de 20 centavos en la antigua plataforma Hopper a 10 centavos en Blackwell. Tener lugar al formato NVFP4 nativo de disminución precisión de Blackwell redujo aún más el costo a solo 5 centavos, por lo que una aggiornamento básica proporcionó una prosperidad 4 veces viejo en el costo por token manteniendo la precisión que esperan los clientes.

Nvidia describió cuatro implementaciones industriales en un publicación de blog mostrando cómo esta combinación de infraestructura de Blackwell, NVFP4, pilas de software optimizadas y modelos de código extenso ofrece importantes reducciones de costos. Se descomponen así:

Atención médica: en la atención médica, las tareas tediosas y que consumen mucho tiempo, como la codificación médica, la documentación y la diligencia de formularios de seguros, reducen el tiempo que los médicos pueden consagrar a los pacientes. Sully.ai ayuda a invadir este problema a través de agentes de inteligencia sintético para manejar tareas rutinarias que consumen tiempo.

El problema es que los modelos de código cerrado propietarios de Sully.ai no escalaron perfectamente. Entonces, Sully.ai utilizó la API Model de código extenso de Baseten en GPU Blackwell con formato de datos NVFP4, la biblioteca TensorRT-LLM y el ámbito de inferencia Dynamo. El resultado fue una caída del 90 % en los costos de inferencia, que se redujeron en un 90 %, lo que representa una reducción de 10 veces en comparación con la implementación susodicho de código cerrado, mientras que los tiempos de respuesta mejoraron en un 65 % para flujos de trabajo críticos como la concepción de notas médicas.

Source link