OpenAI alerta: la IA está programada para engañarte con respuestas falsas

by hola@conectate.ar

¿Podemos confiar en la inteligencia artificial? OpenAI admite que sus sistemas mienten con seguridad

La fiabilidad de la inteligencia artificial vuelve a estar bajo la lupa. Un nuevo estudio de OpenAI, recogido por Futurism, revela que las llamadas alucinaciones —respuestas inventadas pero plausibles— no son un simple error técnico, sino una consecuencia directa de cómo se entrenan y evalúan los modelos actuales.

Según el informe, los sistemas de lenguaje están optimizados para “ser buenos en los exámenes”, lo que implica que ante una pregunta difícil prefieren arriesgar con una respuesta inventada antes que admitir incertidumbre. ¿La razón? Los criterios de evaluación predominantes premian la precisión aparente y penalizan tanto los errores como las abstenciones, sin diferenciar entre una respuesta incorrecta y un honesto “no lo sé”.

Qué son las alucinaciones en IA

En este contexto, alucinar significa generar información incorrecta pero expresada con seguridad. OpenAI distingue dos tipos:

  • Intrínsecas: contradicen directamente lo que dice el usuario.
  • Extrínsecas: se oponen a la realidad o a los datos de entrenamiento.

Esto ocurre incluso si los datos de entrenamiento son impecables. Por ejemplo, si el 20% de los hechos sobre cumpleaños aparece solo una vez en el set de datos, los modelos tenderán a inventar en al menos ese mismo porcentaje de casos.

Incentivos mal diseñados

El estudio subraya que los sistemas de evaluación actuales son parte del problema. Métricas y benchmarks influyentes como MMLU-Pro, GPQA o SWE-bench no contemplan respuestas del tipo “no lo sé” y suelen premiar las conjeturas afortunadas. Incluso en pruebas donde se permite expresar incertidumbre, como WildBench, las respuestas con dudas suelen recibir peor puntuación que las equivocadas pero seguras.

Esto genera un efecto perverso: los modelos aprenden que conviene inventar antes que reconocer sus límites.

La propuesta de OpenAI

Para revertir esta tendencia, la compañía propone rediseñar los sistemas de evaluación:

  • Penalizar más los errores cometidos con exceso de confianza.
  • Otorgar crédito parcial a las respuestas que expresen incertidumbre de forma adecuada.
  • Introducir umbrales explícitos de confianza en las pruebas, de modo que un modelo pueda abstenerse si su certeza no supera cierto nivel.

El objetivo es avanzar hacia modelos más calibrados, capaces de ajustar la seguridad de sus respuestas al nivel real de acierto.

Un desafío abierto

Pese a los avances en técnicas de reducción de alucinaciones, como el aprendizaje por refuerzo con retroalimentación humana o la integración de sistemas de recuperación de información, OpenAI admite que el problema persiste. Y mientras los principales benchmarks sigan premiando las conjeturas, los modelos continuarán arriesgando.

“Las alucinaciones siguen siendo un desafío fundamental para todos los grandes modelos de lenguaje, pero estamos trabajando arduamente para reducirlas aún más”, aseguró la compañía.