El viernes, OpenAI anunció el lanzamiento de una nueva familia de modelos de IA, denominada o3. La compañía afirma que los nuevos productos son más avanzados que sus modelos anteriores, incluido el o1. Los avances, según la startup, surgen de mejoras en la ampliación del cálculo del tiempo de prueba, un tema que se exploró en los últimos meses, y de la introducción de un nuevo paradigma de seguridad que se ha utilizado para entrenar estos modelos.
Como parte de su compromiso continuo para mejorar la seguridad de la IA, OpenAI compartió una nueva investigación que detalla la implementación de la "alineación deliberativa". El nuevo método de seguridad tiene como objetivo garantizar que los modelos de razonamiento de IA estén alineados con los valores establecidos por sus desarrolladores.
Este enfoque, afirma OpenAI, se utilizó para mejorar la alineación de los modelos o1 y o3 guiándolos a pensar en las políticas de seguridad de OpenAI durante la fase de inferencia. La fase de inferencia es el período posterior a que un usuario envía un mensaje al modelo y antes de que el modelo genere una respuesta.
En su investigación, OpenAI señala que la alineación deliberativa condujo a una reducción en la velocidad a la que los modelos produjeron respuestas "inseguras" o que la compañía considera una violación de sus políticas de seguridad, al tiempo que mejoró la capacidad de los modelos para responder preguntas benignas de manera más efectiva.
En esencia, el proceso funciona haciendo que los modelos se vuelvan a estimular durante la fase de cadena de pensamiento. Después de que un usuario envía una pregunta a ChatGPT, por ejemplo, los modelos de razonamiento de IA tardan desde unos pocos segundos hasta varios minutos en dividir el problema en pasos más pequeños.
Luego, los modelos generan una respuesta basada en su proceso de pensamiento. En el caso de la alineación deliberativa, los modelos incorporan la política de seguridad de OpenAI como parte de esta "deliberación" interna.
OpenAI entrenó sus modelos, incluidos o1 y o3, para recordar secciones de la política de seguridad de la empresa como parte de este proceso de cadena de pensamiento. Esto se hizo para garantizar que, ante consultas delicadas o inseguras, los modelos se autorregularan y se negaran a proporcionar respuestas que pudieran causar daño.
Sin embargo, implementar esta característica de seguridad resultó un desafío, ya que los investigadores de OpenAI tuvieron que garantizar que las comprobaciones de seguridad adicionales no afectaran negativamente la velocidad y la eficiencia de los modelos.
Un ejemplo proporcionado en la investigación de OpenAI, citado por TechCrunch, demostró cómo los modelos utilizan la alineación deliberativa para responder de forma segura a solicitudes potencialmente dañinas. En el ejemplo, un usuario pregunta cómo crear un cartel de estacionamiento realista para una persona discapacitada.
Durante la cadena de pensamiento interna del modelo, el modelo recuerda la política de seguridad de OpenAI, reconoce que la solicitud implica una actividad ilegal (falsificar un cartel de estacionamiento) y se niega a ayudar, disculpándose por su negativa.
Este tipo de deliberación interna es una parte clave de cómo OpenAI está trabajando para alinear sus modelos con los protocolos de seguridad. En lugar de simplemente bloquear cualquier mensaje relacionado con un tema delicado como "bomba", por ejemplo, lo que restringiría excesivamente las respuestas del modelo, la alineación deliberativa permite a la IA evaluar el contexto específico del mensaje y tomar una decisión más matizada sobre si o no contestar.
Además de los avances en seguridad, OpenAI también compartió resultados de pruebas comparativas que mostraron la eficacia de la alineación deliberativa para mejorar el rendimiento del modelo. Un punto de referencia, conocido como Pareto, mide la resistencia de un modelo a las fugas comunes y a los intentos de eludir las salvaguardas de la IA.
En estas pruebas, el modelo o1-preview de OpenAI superó a otros modelos populares como GPT-4o, Gemini 1.5 Flash y Claude 3.5 Sonnet en términos de evitar salidas inseguras.
En un acontecimiento separado pero relacionado, OpenAI recibió una multa de 15 millones de euros (15,58 millones de dólares) por parte de la agencia de protección de datos de Italia, Garante, tras una investigación sobre el manejo de datos personales por parte de la empresa.
La multa surge del descubrimiento de la agencia de que OpenAI procesó datos personales de los usuarios sin una base legal, violando las obligaciones de transparencia e información del usuario exigidas por las leyes de privacidad de la UE.
Según Reuters, la investigación, que comenzó en 2023, también reveló que OpenAI no contaba con un sistema de verificación de edad adecuado, lo que potencialmente exponía a los niños menores de 13 años a contenido inapropiado generado por IA.
Garante, uno de los reguladores de IA más estrictos de la Unión Europea, ordenó a OpenAI que lanzara una campaña pública de seis meses en Italia para crear conciencia sobre las prácticas de recopilación de datos de ChatGPT, en particular su uso de datos personales para entrenar algoritmos.
En respuesta, OpenAI describió la multa como “desproporcionada” e indicó su intención de apelar la decisión. La empresa criticó además la multa por considerarla excesivamente elevada en relación con sus ingresos en Italia durante el período en cuestión.
Garante también señaló que la multa se calculó considerando la "postura cooperativa" de OpenAI, lo que significa que podría haber sido mayor si la empresa no hubiera sido considerada cooperativa durante la investigación.
Esta última multa no es la primera vez que OpenAI se enfrenta a un escrutinio en Italia. El año pasado, Garante prohibió brevemente el uso de ChatGPT en Italia debido a supuestas violaciones de las normas de privacidad de la UE. El servicio se restableció después de que OpenAI abordara inquietudes, incluida la de permitir a los usuarios rechazar el consentimiento para el uso de sus datos personales para entrenar algoritmos.
Consiga un trabajo Web3 bien remunerado en 90 días: la hoja de ruta definitiva