A raíz de los mitos de Anthropic, OpenAI tiene un nuevo modelo y estrategia de ciberseguridad

OpenAI el martes anunció la siguiente fase de su estrategia de ciberseguridad y un nuevo modelo diseñado específicamente para ser utilizado por defensores digitales, GPT-5.4-Cyber.

La noticia llega a raíz de un anuncio la semana pasada por parte del competidor Anthropic de que su nuevo modelo Claude Mythos Preview solo se lanzará de forma privada por ahora, porque, según la compañía, podría ser explotado por piratas informáticos y malos actores. Anthropic también anunció una coalición industrial, que incluye competidores como Google, centrada en cómo los avances en la IA generativa en todo el campo afectarán la ciberseguridad.

OpenAI parecía estar buscando diferenciar su mensaje el martes adoptando un tono menos catastrófico y promocionando sus barreras y defensas existentes, al tiempo que insinuaba la necesidad de protecciones más avanzadas a largo plazo.

"Creemos que el tipo de salvaguardias que se utilizan hoy en día reducen suficientemente el riesgo cibernético como para respaldar una amplia implementación de los modelos actuales", escribió la compañía en una publicación de blog. "Esperamos que las versiones de estas salvaguardas sean suficientes para los próximos modelos más potentes, mientras que los modelos entrenados explícitamente y hechos más permisivos para el trabajo de ciberseguridad requieren implementaciones más restrictivas y controles apropiados. A largo plazo, para garantizar la suficiencia continua de la seguridad de la IA en la ciberseguridad, también esperamos la necesidad de defensas más amplias para los modelos futuros, cuyas capacidades superarán rápidamente incluso a los mejores modelos diseñados específicamente en la actualidad".

La compañía dice que se ha centrado en tres pilares para su enfoque de ciberseguridad. El primero implica los llamados sistemas de validación de “conozca a su cliente” para permitir un acceso controlado a nuevos modelos que sea lo más amplio y “democratizado” posible. "Diseñamos mecanismos que evitan decidir arbitrariamente quién obtiene acceso para uso legítimo y quién no", escribió la compañía el martes. OpenAI está combinando un modelo en el que se asocia con ciertas organizaciones en lanzamientos limitados con un sistema automatizado introducido en febrero, conocido como Trusted Access for Cyber o TAC.

El segundo componente de la estrategia implica una “implementación iterativa” o un proceso de liberación “cuidadosa” y luego refinamiento de nuevas capacidades para que la empresa pueda obtener información y retroalimentación del mundo real. La publicación del blog destaca particularmente “la resistencia a los jailbreaks y otros ataques adversarios, y la mejora de las capacidades defensivas”. Finalmente, el tercer enfoque está en las inversiones que, según la compañía, respaldan la seguridad del software y otras defensas digitales a medida que prolifera la IA generativa.

OpenAI dice que la iniciativa encaja en sus esfuerzos de seguridad más amplios, incluido un agente de IA de seguridad de aplicaciones lanzado el mes pasado conocido como Codex Security, un programa de subvenciones de ciberseguridad que comenzó en 2023, una donación reciente a la Fundación Linux para apoyar la seguridad de código abierto y el "Marco de preparación" que está destinado a evaluar y defenderse contra "daños graves causados por las capacidades fronterizas de la IA".

Las afirmaciones de Anthropic la semana pasada de que modelos de IA más capaces necesitan un ajuste de cuentas en materia de ciberseguridad han sido controvertidas entre los expertos en seguridad. Algunos dicen que la preocupación es exagerada y podría alimentar una nueva ola de sentimiento anti-hackers, consolidando aún más el poder entre los gigantes tecnológicos. Otros, sin embargo, enfatizan que las vulnerabilidades y deficiencias de las actuales defensas de seguridad son bien conocidas y realmente podrían ser explotadas con nueva velocidad e intensidad por una gama aún más amplia de malos actores en la era de la IA agente.

Source link

Deja una respuesta Cancelar la respuesta