Havard e a Universidade de Michigan não são os primeiros a tentar compreender as capacidades do modelo de IA, com pesquisadores da Anthropic revelando um artigo intitulado “aprendizado de dicionário”. O artigo discutiu o mapeamento de conexões em sua linguagem Claude com conceitos específicos que ela entende. Embora a maioria dessas pesquisas tenha tomado ângulos diferentes, é principalmente para compreender os modelos de IA. A Antrópica revelou que encontrou características que poderiam ser vinculadas a diferentes conceitos interpretáveis. “Encontramos milhões de características que parecem corresponder a conceitos interpretáveis, desde objetos concretos como pessoas, países e edifícios famosos até ideias trac como emoções, estilos de escrita e etapas de raciocínio”, revelou a pesquisa. Durante sua pesquisa, os pesquisadores realizaram diversos experimentos utilizando o modelo de difusão, uma das arquiteturas mais populares para IA . Durante o experimento, eles perceberam que os modelos tinham formas distintas de manipular conceitos básicos. Os padrões foram consistentes, pois os modelos de IA mostraram novas capacidades em diferentes fases e um ponto de transição nítido sinalizando quando uma nova habilidade é adquirida. Durante o treinamento, os modelos mostraram que dominaram os conceitos cerca de 2.000 passos antes do que um teste padrão detectaria. Conceitos tron apareceram por volta dos 6.000 passos e os mais fracos eram visíveis por volta dos 20.000 passos. Depois que os sinais conceituais foram ajustados, eles descobriram uma correlação direta com a velocidade de aprendizagem. Os pesquisadores usaram métodos alternativos de alerta para revelar capacidades ocultas antes de serem exibidas em testes padrão. A natureza desenfreada da emergência oculta tem efeitos na avaliação e segurança da IA. Por exemplo, os benchmarks tradicionais podem perder certas capacidades dos modelos de IA, perdendo assim tanto as benéficas como as preocupantes. Durante a pesquisa, a equipe descobriu certos métodos para acessar os recursos ocultos dos modelos de IA. A pesquisa denominou os métodos de intervenção latente linear e solicitação excessiva, pois os pesquisadores fizeram os modelos exibirem comportamentos complexos antes de aparecerem em testes padrão. Os pesquisadores também descobriram que os modelos de IA manipulavam certos recursos complexos antes que pudessem mostrá-los por meio de prompts padrão. Por exemplo, os modelos poderiam ser solicitados a gerar com sucesso “mulheres sorridentes” ou “homens usando chapéus” antes de serem solicitados a combiná-los. No entanto, a pesquisa mostrou que eles aprenderam a combiná-lo antes, mas não serão capazes de demonstrá-lo por meio de instruções convencionais. Pode-se dizer que os modelos que apresentam capacidades são grokking, uma situação em que os modelos exibem desempenho de teste perfeito após treinamento prolongado. No entanto, os pesquisadores disseram que existem diferenças importantes entre ambos. Embora o grokking aconteça após várias sessões de treinamento e envolva o refinamento de diversas distribuições dos mesmos conjuntos de dados, a pesquisa mostra que essas capacidades emergem durante a aprendizagem ativa. Os pesquisadores observaram que os modelos encontraram novas maneiras de manipular conceitos por meio de mudanças nas fases, em vez de melhorias graduais na representação no grokking. De acordo com a pesquisa, isso mostra que os modelos de IA conhecem esses conceitos, mas são incapazes de apresentá-los. É semelhante a pessoas que assistem e entendem um filme estrangeiro, mas não conseguem falar a língua. Isto mostra que a maioria dos modelos tem mais capacidades do que mostram, e também mostra a dificuldade em compreender e controlar as suas capacidades. Do zero ao Web3 Pro: seu plano de lançamento de carreira de 90 dias Pesquisa mostra que modelos de IA internalizam conceitos
Pesquisadores revelam métodos para acessar capacidades ocultas