Nvidia abre su canal Cascade RL a través de NeMo-RL, lo que permite a las empresas alcanzar un rendimiento de razonamiento de primer nivel sin crear modelos masivos desde cero.
Nvidia ha descubierto el proceso de post-entrenamiento detrás de su maniquí Nemotron-Cascade 2, lo que indica un cambio en el avance de la IA donde la metodología de entrenamiento, en división del tamaño del maniquí, define el rendimiento. Valiente a través del repositorio NeMo-RL, el ámbito Cascade RL proporciona un enfoque reproducible para que las empresas creen sistemas de razonamiento de detención rendimiento sin tener que emprender desde cero.
Nemotron-Cascade 2 es un maniquí de mezcla de expertos 30B de peso descubierto que activa solo parámetros 3B en la inferencia, pero ofrece resultados de nivel de medalla de oro en la Olimpíada Internacional de Matemáticas de 2025, la Olimpíada Internacional de Informática y las Finales Mundiales del ICPC. A pesar de su tamaño compacto, supera tanto al Nemotron-3-Nano como al Nemotron-3-Super, significativamente más noble.
En el centro se encuentra Cascade RL, un canal de educación de refuerzo secuencial que entrena modelos dominio por dominio, que van desde el seguimiento de instrucciones y el razonamiento multidominio hasta la ingeniería de código y software. Este enfoque evita olvidos catastróficos, permite la optimización de dominios específicos y mejoramiento la eficiencia informática.
Complementando esto está la Destilación de Políticas Multidominio (MOPD), que reutiliza puntos de control intermedios como profesores internos, eliminando la carestia de modelos externos. Nvidia informa una convergencia más rápida y una longevo eficiencia, incluida la recuperación del rendimiento de narración en muchos menos pasos de optimización.
El maniquí logra puntuaciones sólidas en los puntos de narración de razonamiento, incluido 87,2 en LiveCodeBench y 98,6 en AIME 2025 con integración de herramientas, aunque va a la retaguardia en tareas de agente y con mucho conocimiento.
Para las empresas, las implicaciones son significativas: mejoras de capacidad modular, menores costos de infraestructura y un camino práctico para implementar sistemas de razonamiento avanzados. El comunicado subraya un cambio más amplio de la industria con destino a la “densidad de inteligencia”, donde mejores canales de capacitación, no modelos más grandes, impulsan el progreso de la IA.
