Sombrero Sombrío Asia Los modelos de código amplio pueden encontrar errores con tanta operatividad como Mythos de Anthropic, según Ari Herbert-Voss, director ejecutante de la startup de seguridad impulsada por IA RunSybil y primer empleado de seguridad de OpenAI.
Hablando hoy en la conferencia Black Hat Asia en Singapur, Herbert-Voss dijo que Mythos se destaca en encontrar tanto errores “superficiales” (fallas perfectamente descritas que son fáciles de validar) como vulnerabilidades más complejas.
En su charla, atribuyó esto al “escalamiento supralineal”: mientras que los investigadores asumieron que la capacidad LLM mejoraría linealmente, la evidencia ahora sugiere que un maniquí entrenado con el doble de datos, computación y tiempo produce poco cuatro veces más capaz.
Insinuó que la escalera supralineal podría producir multiplicadores aún mejores, pero no pudo afirmar más conveniente a un acuerdo de confidencialidad.
Anthropic ha mantenido el camino a Mythos estrictamente restringido, alegando temores de uso indebido.
Sin incautación, Herbert-Voss sostiene que tanto los atacantes como los defensores pueden conseguir resultados comparables con modelos de código amplio construyendo “andamios” para ejecutar varios de ellos. Ese enfoque incluso mejoramiento la defensa en profundidad, ya que diferentes modelos tienden a detectar diferentes defectos: una protección útil contra los puntos ciegos de cualquier maniquí.
El costo es otro creador. Mythos es costoso de construir y ejecutar, y es posible que nunca esté adecuado públicamente, lo que hace que las alternativas de código amplio no sólo sean viables sino necesarias para muchas organizaciones.
Herbert-Voss cree que todavía se necesita experiencia humana para orquestar modelos de código amplio de modo que juntos ofrezcan un rendimiento de nivel Mythos y para evaluar los informes de errores que genera la IA.
Luego señaló que el fuzzing, la técnica de prueba que inyecta datos aleatorios o casi aleatorios en el software para ver si al hacerlo produce errores, incluso crea tantas advertencias que puede suscitar trabajo adicional para los humanos.
Los cazadores de errores de IA ya producen el mismo problema y aplazamiento que persista.
Por lo tanto, Herbert-Voss cree que los trabajadores de seguridad de la información tendrán mucho que hacer en el futuro previsible, y el incentivo financiero para usar la IA (cierto tiene que usar servicios que paguen por todas esas GPU y centros de datos) actuará como una función forzada que hará que los equipos de seguridad de la información adopten la IA y, como resultado, mejoren su trabajo proactivo y defensivo. ®
