OpenAI avançará nos modelos de IA o1 e o3 com novo paradigma de treinamento de segurança

Fonte Cryptopolitan

Na sexta-feira, a OpenAI anunciou o lançamento de uma nova família de modelos de IA, chamada o3. A empresa afirma que os novos produtos são mais avançados do que os modelos anteriores, incluindo o o1. Os avanços, segundo a startup, decorrem de melhorias no dimensionamento da computação em tempo de teste, tema que foi explorado nos últimos meses, e da introdução de um novo paradigma de segurança que tem sido utilizado para treinar esses modelos.

Como parte do seu compromisso contínuo de melhorar a segurança da IA, a OpenAI partilhou uma nova investigação que detalha a implementação do “alinhamento deliberativo”. O novo método de segurança visa garantir que os modelos de raciocínio de IA estejam alinhados com os valores definidos pelos seus desenvolvedores.

Esta abordagem, afirma a OpenAI, foi usada para melhorar o alinhamento dos modelos o1 e o3, orientando-os a pensar sobre as políticas de segurança da OpenAI durante a fase de inferência. A fase de inferência é o período após um usuário enviar um prompt ao modelo e antes de o modelo gerar uma resposta.

Na sua investigação, a OpenAI observa que o alinhamento deliberativo levou a uma redução na taxa a que os modelos produziram respostas “inseguras” ou respostas que a empresa considera uma violação das suas políticas de segurança, melhorando ao mesmo tempo a capacidade dos modelos de responder a perguntas benignas de forma mais eficaz.

Como funciona o alinhamento deliberativo

Basicamente, o processo funciona fazendo com que os modelos se repitam durante a fase de cadeia de pensamento. Depois que um usuário envia uma pergunta ao ChatGPT, por exemplo, os modelos de raciocínio de IA levam de alguns segundos a vários minutos para dividir o problema em etapas menores.

Os modelos então geram uma resposta com base em seu processo de pensamento. No caso do alinhamento deliberativo, os modelos incorporam a política de segurança da OpenAI como parte desta “deliberação” interna.

A OpenAI treinou seus modelos, incluindo o1 e o3, para relembrar seções da política de segurança da empresa como parte desse processo de cadeia de pensamento. Isto foi feito para garantir que, quando confrontados com questões sensíveis ou inseguras, os modelos se autorregulassem e se recusassem a fornecer respostas que pudessem causar danos.

No entanto, a implementação desta funcionalidade de segurança revelou-se um desafio, uma vez que os investigadores da OpenAI tiveram de garantir que as verificações de segurança adicionais não impactavam negativamente a velocidade e a eficiência dos modelos.

Um exemplo fornecido na pesquisa da OpenAI, citado pelo TechCrunch, demonstrou como os modelos usam alinhamento deliberativo para responder com segurança a solicitações potencialmente prejudiciais. No exemplo, um usuário pergunta como criar um cartaz de estacionamento realista para pessoas com deficiência.

Durante a cadeia de pensamento interna do modelo, o modelo relembra a política de segurança da OpenAI, reconhece que o pedido envolve atividade ilegal (falsificação de uma placa de estacionamento) e recusa-se a ajudar, desculpando-se pela sua recusa.

Este tipo de deliberação interna é uma parte fundamental de como a OpenAI está trabalhando para alinhar seus modelos com protocolos de segurança. Em vez de simplesmente bloquear qualquer prompt relacionado a um tópico delicado como “bomba”, por exemplo, o que restringiria excessivamente as respostas do modelo, o alinhamento deliberativo permite que a IA avalie o contexto específico do prompt e tome uma decisão mais sutil sobre se ou não responder.

Além dos avanços em segurança, a OpenAI também compartilhou resultados de testes de benchmarking que mostraram a eficácia do alinhamento deliberativo na melhoria do desempenho do modelo. Um benchmark, conhecido como Pareto, mede a resistência de um modelo a jailbreaks comuns e tentativas de contornar as salvaguardas da IA.

Nestes testes, o modelo o1-preview da OpenAI superou outros modelos populares, como GPT-4o, Gemini 1.5 Flash e Claude 3.5 Sonnet em termos de evitar saídas inseguras.

Autoridade italiana de proteção de dados multa OpenAI por violações de privacidade

Num desenvolvimento separado, mas relacionado, a OpenAI foi multada em 15 milhões de euros (15,58 milhões de dólares) pela agência italiana de proteção de dados, Garante, na sequência de uma investigação sobre o tratamento de dados pessoais pela empresa.

A multa decorre da conclusão da agência de que a OpenAI processava dados pessoais dos usuários sem base legal, violando a transparência e as obrigações de informação do usuário exigidas pelas leis de privacidade da UE.

De acordo com a Reuters, a investigação, que começou em 2023, também revelou que a OpenAI não tinha um sistema adequado de verificação de idade, expondo potencialmente crianças menores de 13 anos a conteúdo impróprio gerado por IA.

Garante, um dos reguladores de IA mais rigorosos da União Europeia, ordenou que a OpenAI lançasse uma campanha pública de seis meses na Itália para aumentar a conscientização sobre as práticas de coleta de dados do ChatGPT, particularmente o uso de dados pessoais para treinar algoritmos.

Em resposta, a OpenAI descreveu a multa como “desproporcional” e indicou a sua intenção de recorrer da decisão. A empresa criticou ainda a multa como excessivamente elevada em relação às suas receitas em Itália durante o período relevante.

Garante também observou que a multa foi calculada considerando a “postura cooperativa” da OpenAI, o que significa que poderia ter sido maior se a empresa não tivesse sido vista como cooperativa durante a investigação.

Esta última multa não é a primeira vez que a OpenAI enfrenta escrutínio na Itália. No ano passado, Garante proibiu brevemente o uso do ChatGPT na Itália devido a supostas violações das regras de privacidade da UE. O serviço foi reinstaurado depois que a OpenAI resolveu preocupações, incluindo permitir que os usuários recusassem o consentimento para o uso de seus dados pessoais para treinar algoritmos.

Consiga um emprego bem remunerado na Web3 em 90 dias: o roteiro definitivo

Isenção de responsabilidade: Apenas para fins informativos. O desempenho passado não é indicativo de resultados futuros.
placeholder
Calendário Econômico: IPCA-15 e mercado de trabalho no Brasil na semana de NatalInvesting.com - O fim de ano chegou e a agenda econômica fica esvaziada no apagar das luzes de 2024. Além do feriado de Natal, alguns países não têm expediente na véspera ou no dia seguinte na semana
Autor  Investing.com
13 horas atrás
Investing.com - O fim de ano chegou e a agenda econômica fica esvaziada no apagar das luzes de 2024. Além do feriado de Natal, alguns países não têm expediente na véspera ou no dia seguinte na semana
placeholder
Fed trouxe “ajuste necessário” para euforia com Trump trades, diz BarclaysInvesting.com – A postura rígida do Federal Reserve (Fed), banco central dos EUA, na última reunião de política monetária trouxe “um ajuste necessário às expectativas eufóricas relacionadas aos Trump
Autor  Investing.com
13 horas atrás
Investing.com – A postura rígida do Federal Reserve (Fed), banco central dos EUA, na última reunião de política monetária trouxe “um ajuste necessário às expectativas eufóricas relacionadas aos Trump
placeholder
Ainda podemos ver um rali de Natal nas ações, defendem analistasInvesting.com – Apesar das recentes turbulências nos mercados, analistas do Stock Trader's Almanac permanecem otimistas sobre a possibilidade de um rali de Natal.Esse otimismo surge após o Dow Jones I
Autor  Investing.com
13 horas atrás
Investing.com – Apesar das recentes turbulências nos mercados, analistas do Stock Trader's Almanac permanecem otimistas sobre a possibilidade de um rali de Natal.Esse otimismo surge após o Dow Jones I
placeholder
O que fazer com suas ações da Nvidia em 2025? Morgan respondeInvesting.com – O Morgan Stanley (NYSE:MS) reafirmou a Nvidia (BVMF:NVDC34) (NASDAQ:NVDA) como uma de suas principais recomendações para 2025, mantendo a classificação “overweight” (acima da média)
Autor  Investing.com
13 horas atrás
Investing.com – O Morgan Stanley (NYSE:MS) reafirmou a Nvidia (BVMF:NVDC34) (NASDAQ:NVDA) como uma de suas principais recomendações para 2025, mantendo a classificação “overweight” (acima da média)
placeholder
Medidas tarifárias e anti-imigratórias podem atrasar cortes de juros nos EUAInvesting.com – O Federal Reserve (Fed), banco central dos EUA, ajustou sua posição sobre cortes de juros, atribuindo o adiamento de novas reduções a possíveis medidas comerciais e imigratórias mais r
Autor  Investing.com
13 horas atrás
Investing.com – O Federal Reserve (Fed), banco central dos EUA, ajustou sua posição sobre cortes de juros, atribuindo o adiamento de novas reduções a possíveis medidas comerciais e imigratórias mais r
goTop
quote