Ilustración de Tag Hartman-Simkins / Futurismo. Fuente: Getty Images
Los modelos de IA están ahora en todas partes, desde hospitales a iglesias.
Lo sorprendente es que ni siquiera los expertos en inteligencia químico saben exactamente qué sucede adentro de estos caja negra modelos, incluso cuando se están implementando en los entornos de decano aventura imaginables. La última logística para resolverlo: estudiarlos como sistemas biológicos.
Por ejemplo, Revisión técnica del MIT informeslos científicos de Anthropic han desarrollado herramientas que les permiten rastrear lo que sucede adentro de los modelos mientras realizan una tarea, un tipo de estudio llamado interpretabilidad mecanicista, que se asemeja cómo los médicos usan las resonancias magnéticas para estudiar la actividad cerebral, otro tipo de inteligencia que aún no entendemos del todo.
“Este es en gran medida un tipo de exploración biológico”, dijo Josh Batson, verificado investigador de Anthropic. Revisión técnica. “No es como las matemáticas o la física”.
En otro indagación que se asemeja a cómo usan los biólogos organoidesque son versiones en miniatura de órganos humanos, la revista informa que Anthropic desarrolló una red neuronal particular indicación codificador automotriz disperso cuyo funcionamiento interno es más obediente de entender y analizar que los modelos de jerga grandes (LLM) regulares.
Otra técnica es el monitoreo de la cautiverio de pensamiento, en el que los modelos explican el razonamiento detrás de su comportamiento y acciones, muy parecido a escuchar el monólogo interno de una persona efectivo. Esto ha ayudado a los científicos a detectar comportamientos desalineados.
“Ha tenido un gran éxito en términos de poder encontrar el maniquí haciendo cosas malas”, dijo Bowen Baker, verificado investigador de OpenAI, a MIT.
Un peligro inminente es que los modelos futuros se vuelvan tan complejos (especialmente si están diseñados por IA) que en efectividad no tendremos idea de cómo funcionan. Incluso ahora, con las herramientas y técnicas actuales a nuestra disposición, todavía surgen comportamientos inesperados que no se alinean con los objetivos humanos de verdad y seguridad.
Vemos pruebas contundentes de esto en las noticiero, que están plagadas de informes de personas que se autolesionan porque la IA se lo indicó, lo que hace que sea aún más inquietante que todavía no entendamos del todo cómo funcionan.
Más sobre IA: Desarrollador independiente elimina el gozne completo de Steam correcto a la vergüenza de acaecer usado IA
