Havard y la Universidad de Michigan no son los primeros en intentar comprender las capacidades del modelo de IA, y los investigadores de Anthropic han presentado un artículo titulado "aprendizaje de diccionario". El artículo analiza el mapeo de conexiones en su lenguaje Claude con conceptos específicos que entiende. Aunque la mayoría de estas investigaciones tomaron diferentes ángulos, su objetivo principal es comprender los modelos de IA. Anthropic reveló que encontró características que podrían vincularse a diferentes conceptos interpretables. "Encontramos millones de características que parecen corresponder a conceptos interpretables que van desde objetos concretos como personas, países y edificios famosos hasta ideas trac como emociones, estilos de escritura y pasos de razonamiento", reveló la investigación. Durante su investigación, los investigadores llevaron a cabo varios experimentos utilizando el modelo de difusión, una de las arquitecturas más populares para la IA . Durante el experimento, se dieron cuenta de que los modelos tenían distintas formas de manipular conceptos básicos. Los patrones fueron consistentes ya que los modelos de IA mostraron nuevas capacidades en diferentes fases y un punto de transición agudo que señala cuando se adquiere una nueva habilidad. Durante el entrenamiento, los modelos demostraron que habían dominado conceptos alrededor de 2.000 pasos antes de lo que detectaría una prueba estándar. Los conceptos tron aparecieron alrededor de 6.000 pasos y los más débiles fueron visibles alrededor de 20.000 pasos. Después de ajustar las señales conceptuales, descubrieron una correlación directa con la velocidad de aprendizaje. Los investigadores utilizaron métodos de estimulación alternativos para revelar capacidades ocultas antes de que fueran exhibidas en pruebas estándar. La naturaleza desenfrenada de la aparición oculta tiene efectos en la evaluación y la seguridad de la IA. Por ejemplo, los puntos de referencia tradicionales pueden pasar por alto ciertas capacidades de los modelos de IA, perdiendo así tanto las beneficiosas como las preocupantes. Durante la investigación, el equipo descubrió ciertos métodos para acceder a las capacidades ocultas de los modelos de IA. La investigación denominó a los métodos intervención latente lineal y estimulación excesiva, ya que los investigadores hicieron que los modelos exhibieran comportamientos complejos antes de que se mostraran en las pruebas estándar. Los investigadores también descubrieron que los modelos de IA manipulaban ciertas características complejas antes de poder mostrarlas mediante indicaciones estándar. Por ejemplo, se podría pedir a los modelos que generen con éxito "mujeres sonrientes" u "hombres con sombreros" antes de pedirles que los combinen. Sin embargo, la investigación demostró que aprendieron a combinarlo antes, pero no podrán demostrarlo mediante indicaciones convencionales. Se puede decir que los modelos que muestran capacidades están asimilando, una situación en la que los modelos exhiben un rendimiento perfecto en las pruebas después de un entrenamiento prolongado. Sin embargo, los investigadores dijeron que existen diferencias clave entre ambos. Si bien la asimilación ocurre después de varias sesiones de capacitación e implica refinar varias distribuciones de los mismos conjuntos de datos, la investigación muestra que estas capacidades surgen durante el aprendizaje activo. Los investigadores notaron que los modelos encontraron nuevas formas de manipular conceptos a través de cambios en fases en lugar de mejoras graduales en la representación en la asimilación. Según la investigación, muestra que los modelos de IA conocen estos conceptos, pero simplemente no pueden mostrarlos. Es similar a que la gente vea y entienda una película extranjera pero no pueda hablar el idioma. Esto muestra que la mayoría de los modelos tienen más capacidades de las que muestran, y también muestra la dificultad para comprender y controlar sus capacidades. De cero a Web3 Pro: su plan de lanzamiento profesional de 90 días La investigación muestra que los modelos de IA internalizan conceptos
Los investigadores revelan métodos para acceder a capacidades ocultas