La IA es cada vez más potente, pero sus alucinaciones son cada vez peores

Comparte esta noticia

El mes pasado, un bot de inteligencia artificial que se ocupa del soporte técnico de Cursor, una prometedora herramienta para programadores informáticos, alertó a varios clientes sobre un cambio en la política de la empresa. Afirmaba que ya no se les permitía utilizar Cursor en más de una computadora.

En foros de internet, los clientes expresaron su molestia. Algunos cancelaron sus cuentas de Cursor. Y otros se enfadaron aún más cuando se dieron cuenta de lo que había ocurrido: el bot de IA había anunciado un cambio de política que no existía.

“No tenemos esa política. Por supuesto que pueden usar Cursor en varias máquinas”, escribió el director general y cofundador de la empresa, Michael Truell, en una publicación de Reddit. “Por desgracia, esta es una respuesta incorrecta de un bot de soporte de IA de primera línea”.

Más de dos años después de la llegada de ChatGPT, las empresas tecnológicas, los trabajadores de oficina y los consumidores en general utilizan bots de IA para una gama cada vez más amplia de tareas. Pero todavía no hay manera de garantizar que estos sistemas produzcan información precisa.

Las tecnologías más nuevas y potentes ─los llamados sistemas de razonamiento de empresas como OpenAI, Google y la empresa emergente china DeepSeek─ están generando más errores, no menos. Mientras que sus habilidades matemáticas han mejorado de manera considerable, su manejo de los hechos se ha vuelto más inestable. No está del todo claro por qué.

Los bots de IA actuales se basan en complejos sistemas matemáticos que aprenden sus habilidades analizando enormes cantidades de datos digitales. No deciden, ni son capaces de decidir, qué es verdad o qué es mentira. A veces inventan, un fenómeno que algunos investigadores de IA denominan alucinaciones. En una prueba, los índices de alucinación de los sistemas de IA más recientes alcanzaron el 79 por ciento.

Estos sistemas utilizan probabilidades matemáticas para adivinar cuál es la mejor respuesta, y no se valen de un conjunto estricto de reglas definidas por ingenieros humanos. Por eso cometen un cierto número de errores. “A pesar de nuestros mejores esfuerzos, siempre van a alucinar”, dijo Amr Awadallah, quien fue ejecutivo de Google y ahora es director general de Vectara, una empresa emergente que crea herramientas de IA para empresas. “Eso nunca va a desaparecer”

Durante varios años, el fenómeno ha suscitado preocupación sobre la confiabilidad de estos sistemas. Aunque son útiles en algunas situaciones, como escribir trabajos de fin de curso, resumir documentos de oficina y generar código informático, sus errores pueden causar problemas.

Los bots de inteligencia artificial vinculados a motores de búsqueda como Google y Bing a veces generan resultados de búsqueda cuyos resultados son tan erróneos que dan risa. Si les preguntas por un buen maratón en la costa oeste, podrían sugerirte una carrera en Filadelfia, que está en la costa opuesta. Si te dicen el número de hogares de Illinois, puede que citen una fuente que no incluye esa información.

Puede que esas alucinaciones no sean un gran problema para mucha gente, pero sí lo son para quien utilice la tecnología con documentos judiciales, información médica o datos empresariales confidenciales.

“Pasas mucho tiempo tratando de averiguar cuáles respuestas se basan en hechos y cuáles no”, explicó Pratik Verma, cofundador y director general de Okahu, una empresa que ayuda a las empresas a sortear el problema de las alucinaciones. “No gestionar estos errores adecuadamente en esencia elimina el valor de los sistemas de IA, que se supone que automatizan tareas para ti”.

Cursor y Truell no respondieron a las solicitudes de comentarios.

Durante más de dos años, empresas como OpenAI y Google mejoraron constantemente sus sistemas de IA y redujeron la frecuencia de estos errores. Pero con el uso de nuevos sistemas de razonamiento, los errores están aumentando. Según sus propias pruebas, la versión más reciente de los sistemas de OpenAI alucina en mayor proporción que el sistema anterior de la empresa.

La empresa descubrió que o3, su sistema más potente, alucinaba el 33 por ciento de las veces al ejecutar su prueba de referencia PersonQA, que consiste en responder a preguntas sobre personajes públicos. Esto supone más del doble de alucinaciones que el anterior sistema de razonamiento de OpenAI, llamado o1. El nuevo o4-mini alucinó en un porcentaje aún mayor: 48 por ciento.

Al ejecutar otra prueba llamada SimpleQA, que hace preguntas más generales, los índices de alucinación de o3 y o4-mini fueron del 51 y el 79 por ciento. El sistema anterior, o1, alucinaba el 44 por ciento de las veces.

En un documento en el que se detallan las pruebas, OpenAI afirma que se necesitan más investigaciones para comprender la causa de estos resultados. Dado que los sistemas de IA aprenden a partir de más datos de los que la gente puede comprender, los tecnólogos se esfuerzan por determinar por qué se comportan de esa forma.

“Las alucinaciones no son intrínsecamente más frecuentes en los modelos de razonamiento, aunque estamos trabajando activamente a fin de reducir los mayores índices de alucinación que observamos en o3 y o4-mini”, dijo una portavoz de la empresa, Gaby Raila. “Seguiremos investigando las alucinaciones en todos los modelos para mejorar la precisión y la fiabilidad”.

Las pruebas realizadas por empresas e investigadores independientes indican que los índices de alucinación también están aumentando en los modelos de razonamiento de empresas como Google y DeepSeek.

Desde finales de 2023, la empresa de Awadallah, Vectara, ha dado seguimiento de la frecuencia con que los chatbots se desvían de la verdad. La empresa pide a estos sistemas que realicen una tarea sencilla y fácilmente verificable: resumir determinados artículos de noticias. Incluso así, los chatbots inventan información de forma persistente.

La investigación original de Vectara estimó que, en esta situación, los chatbots inventaban información al menos un 3 por ciento del tiempo y, a veces, hasta un 27 por ciento.

En el año y medio transcurrido desde entonces, empresas como OpenAI y Google redujeron esas cifras al 1 o 2 por ciento. Otras, como la empresa emergente de San Francisco Anthropic, se acercaron al 4 por ciento. Pero esos porcentajes de alucinación en esta prueba han aumentado con los sistemas de razonamiento. El sistema de razonamiento de DeepSeek, R1, alucinó el 14,3 por ciento de las veces. El o3 de OpenAI subió al 6,8 por ciento.

(The New York Times demandó a OpenAI y a su socio, Microsoft, por infringir los derechos de autor en relación con el contenido de noticias relacionadas con sistemas de IA. OpenAI y Microsoft niegan esas acusaciones).

Durante años, empresas como OpenAI se basaron en un concepto sencillo: cuantos más datos de internet introdujeran en sus sistemas de IA, mejor funcionarían. Pero solo utilizaron todo el texto en inglés de internet, lo que significaba que necesitaban una nueva forma de mejorar sus chatbots.

Así que estas empresas dependen más de una técnica que los científicos llaman aprendizaje por refuerzo. Con este proceso, un sistema puede aprender comportamientos mediante ensayo y error. Funciona bien en determinadas áreas, como las matemáticas y la programación informática. Pero se está quedando corto en otras áreas.

“Por la forma en cómo se entrenan estos sistemas, empezarán a centrarse en una tarea y a olvidarse de las demás”, señaló Laura Pérez-Beltrachini, investigadora de la Universidad de Edimburgo que forma parte de un equipo que examina de cerca el problema de las alucinaciones.

Otra cuestión es que los modelos de razonamiento están diseñados para pasar tiempo “pensando” en problemas complejos antes de decidirse por una respuesta. Al intentar abordar un problema paso a paso, corren el riesgo de alucinar en cada paso. Los errores pueden agravarse a medida que pasan más tiempo pensando.

Los últimos bots dan a conocer cada paso a los usuarios, lo que significa que las personas también pueden ver cada error. Los investigadores también han descubierto que, en muchos casos, los pasos que muestra un bot no están relacionados con la respuesta que finalmente ofrece.

“Lo que el sistema dice que está pensando no es necesariamente lo que está pensando”, dijo Aryo Pradipta Gema, investigador en IA de la Universidad de Edimburgo y miembro de Anthropic.


Comparte esta noticia

Written by 

ÚLTIMAS NOTICIAS