Google DeepMind ha hendido Gemma Scope 2, un enorme conjunto de herramientas de interpretabilidad que permite a los investigadores rastrear cómo piensan los modelos de IA.
Google DeepMind ha enérgico Gemma Scope 2, una suite integral de interpretabilidad de código hendido diseñada para mapear y rastrear circuitos de razonamiento internos en toda la comunidad de modelos Gemma 3. Situadas como un microscopio para grandes modelos de jerga, las herramientas permiten a los investigadores inspeccionar cómo se toman las decisiones interiormente de los sistemas de IA en ocupación de tratarlas como cajas negras opacas.
El emanación permite a los investigadores rastrear circuitos internos relacionados con alucinaciones, fugas y razonamientos engañosos o inseguros, lo que respalda la depuración de la causa raíz en ocupación de mitigaciones a nivel superficial, como el formación reforzado a partir de la feedback humana. Google describe el esquema como su esfuerzo de transparencia más arribista hasta la época.
Según el equipo de interpretabilidad del maniquí de jerga de Google DeepMind, “Hasta donde sabemos, este es el veterano emanación de código hendido de herramientas de interpretabilidad realizado por un laboratorio de inteligencia químico hasta la época”.
Gemma Scope 2 es completamente de código hendido, con pesos de maniquí de interpretabilidad publicados en Hugging Face y una demostración de visualización interactiva alojada en Neuronpedia. El conjunto cubre todas las capas y subcapas de todos los modelos Gemma 3, desde los parámetros 270M hasta 27B.
La escalera no tiene precedentes. Google DeepMind declaró: “La producción de Gemma Scope 2 implicó juntar aproximadamente 110 petabytes de datos, así como entrenar más de 1 billón de parámetros en total”.
En esencia, la suite presenta los codificadores automáticos dispersos JumpReLU, que reemplazan los métodos tradicionales de TopK con umbrales dinámicos y fáciles de instruirse que filtran el ruido y preservan las señales de suscripción fidelidad. Combinadas con transcodificadores de capas cruzadas y de brinco, las herramientas cambian la interpretabilidad de instantáneas de una sola capa al seguimiento completo a nivel de circuito en las capas del maniquí.
Al aclarar el dictamen de seguridad de todo el maniquí, Google está posicionando a Gemma Scope 2 como una infraestructura pública compartida para la investigación de seguridad de la IA. Sin secuestro, las demandas extremas de computación y almacenamiento significan que el uso práctico sigue estando menguado en gran medida a laboratorios de investigación e instituciones académicas proporcionadamente financiados.
