Los chatbots a veces inventan cosas. ¿Se puede solucionar el problema de las alucinaciones de la IA?
Si uno pasa suficiente tiempo interactuando con ChatGPT y otros chatbots de inteligencia artificial, no tardarán en decirte falsedades.
Tal fenómeno, descrito como alucinación, confabulación o simplemente inventar cosas, es ahora un problema para todas las empresas, organizaciones y estudiantes que intentan obtener un sistema de “IA generativa” para redactar documentos y realizar el trabajo. Algunos los están usando en tareas que pueden tener consecuencias de alto riesgo, desde psicoterapia hasta investigación y redacción de informes legales.
“No creo que haya un modelo hoy en día que no sufra alguna alucinación”, señaló Daniela Amodei, cofundadora y presidenta de Anthropic, desarrollador del chatbot Claude 2.
“En realidad simplemente están diseñados para predecir la siguiente palabra”, explicó Amodei. “Así que habrá una cierta tasa en la que el modelo lo haga de manera errónea”.
Anthropic, OpenAI —el desarrollador de ChatGPT— y otros desarrolladores importantes de sistemas de IA conocidos como modelos de lenguaje extenso dicen que trabajan para hacerlos más veraces.
Queda por ver cuánto tiempo llevará eso —y si alguna vez serán lo suficientemente buenos como para, digamos, dar consejos médicos de manera segura—.
“Esto no se puede arreglar”, opinó Emily Bender, profesora de lingüística y directora del Laboratorio de Lingüística Computacional de la Universidad de Washington. “Es inherente a la disparidad entre la tecnología y los casos de uso propuestos”.
Mucho depende de la confiabilidad de la tecnología de IA generativa. El Instituto Global McKinsey proyecta que añadirá el equivalente a entre 2,6 billones y 4,4 billones de dólares a la economía mundial. Los chatbots son sólo una parte de ese frenesí, que también incluye tecnología que puede generar nuevas imágenes, videos, música y código de programación. Casi todas las herramientas incluyen algún componente de lenguaje.
Google ya está ofreciendo un producto de IA de redacción de noticias a las organizaciones de prensa, para las cuales la precisión es primordial. The Associated Press también explora el uso de la tecnología como parte de una asociación con OpenAI, que paga para usar parte del archivo de texto de la AP para mejorar sus sistemas de IA.
En asociación con los institutos de administración hotelera de India, el científico informático Ganesh Bagler ha trabajado durante años para lograr que los sistemas de IA, incluido un precursor de ChatGPT, inventen recetas para las cocinas del sur de Asia, como versiones novedosas de biryani, un platillo a base de arroz. Un solo ingrediente “alucinado” puede ser la diferencia entre una comida deliciosa y una incomible.
Cuando Sam Altman, director general de OpenAI, visitó India en junio, el profesor del Instituto Indraprastha de Tecnología de la Información, en Delhi, tuvo algunas preguntas incisivas.
“Supongo que las alucinaciones en ChatGPT siguen siendo aceptables, pero cuando entrega una receta con alucinaciones, se convierte en un problema grave”, manifestó Bagler de pie en un auditorio atiborrado del campus para dirigirse a Altman en la escala que el ejecutivo estadounidense de tecnología hizo en Nueva Delhi.
“¿Cuál es tu opinión al respecto?”, preguntó Bagler finalmente.
Altman expresó optimismo, aunque no un compromiso definitivo.
“Creo que llevaremos el problema de las alucinaciones a un lugar mucho, mucho mejor”, respondió Altman. “Creo que nos llevará un año y medio, dos años. Algo así. Pero en ese momento ya no seguiremos hablando de ellas. Hay un equilibrio entre la creatividad y la precisión perfecta, y el modelo necesitará aprender cuándo quieres una o la otra”.
Pero para algunos expertos que han estudiado la tecnología —como Bender, el lingüista de la Universidad de Washington_, esas mejoras no serán suficientes.
Bender describe un modelo de lenguaje como un sistema para “modelar la probabilidad de diferentes cadenas de formas de palabras”, con base en algunos datos escritos sobre los que ha sido entrenado.
Es así como los correctores ortográficos pueden detectar cuando se ha escrito una palabra incorrecta. También ayuda a potenciar los servicios de transcripción y traducción automática, “puliendo el resultado para que se parezca más a un texto típico en el idioma de destino”, indicó Bender. Muchas personas confían en una versión de esta tecnología cada vez que utilizan la función “autocompletar” al redactar mensajes de texto o correos electrónicos.
El último grupo de chatbots como ChatGPT, Claude 2 o Bard, de Google, intentan llevar eso al siguiente nivel al generar pasajes de texto completamente nuevos, pero Bender dijo que todavía están simplemente seleccionando la palabra siguiente más plausible en una cadena de palabras.
Cuando se usan para generar texto, los modelos de lenguaje “están diseñados para inventar cosas. Eso es todo lo que hacen”, agregó Bender. Son buenos para imitar formas de escritura, como contratos legales, guiones de televisión o sonetos.
“Pero dado que sólo inventan cosas, cuando el texto que han extrudido puede ser interpretado como algo que consideramos que está en lo correcto, es por casualidad”, dijo Bender. “Incluso si se pueden ajustar para que sean acertados la mayor parte del tiempo, seguirán teniendo modos de falla —y es probable que esas fallas ocurran en los casos en los que es más difícil que una persona que lee el texto se dé cuenta, porque estarán más ocultas—”.
Esos errores no son un gran problema para las empresas de marketing que han recurrido a Jasper AI en busca de ayuda para escribir presentaciones, dijo Shane Orlick, presidente de la compañía.
“Las alucinaciones son en realidad una ventaja adicional”, agregó Orlick. “Todo el tiempo tenemos clientes que nos cuentan cómo se le ocurrieron ideas, cómo Jasper creó una visión de las historias o ángulos que ellos nunca habrían pensado”.
La startup con sede en Texas trabaja con socios como OpenAI, Anthropic, Google o Meta, matriz de Facebook, para ofrecer a sus clientes una selección variada de modelos de lenguaje de IA adaptados a sus necesidades. Para alguien preocupado por la precisión, podría ofrecer el modelo de Anthropic, mientras que alguien preocupado por la seguridad de sus datos fuente patentados podría obtener un modelo diferente, explicó Orlick.
Orlick dijo que sabe que las alucinaciones no se solucionarán fácilmente. Cuenta con que empresas como Google —que, opina, debe tener un “estándar muy alto de contenido fáctico” para su motor de búsqueda— pongan mucha energía y recursos en las soluciones.
“Creo que tienen que resolver este problema”, agregó Orlick. “Tienen que abordar esto. Así que no sé si alguna vez será perfecto, pero probablemente continuará siendo mejor y mejor con el tiempo”.
Los tecnooptimistas, como Bill Gates, cofundador de Microsoft, han pronosticado una perspectiva entusiasta.
“Soy optimista de que, con el tiempo, se puede enseñar a los modelos de IA a distinguir la realidad de la ficción”, dijo Gates en una publicación de blog de julio que detalla sus pensamientos sobre los riesgos de la IA en la sociedad.
Citó un artículo de 2022 de OpenAI como un ejemplo de “trabajo prometedor en este frente”. Más recientemente, investigadores del Instituto Federal Suizo de Tecnología en Zúrich dijeron que desarrollaron un método para detectar parte del contenido alucinado de ChatGPT —aunque no todo— y eliminarlo automáticamente.
Pero incluso Altman, mientras comercializa los productos para diversos usos, no da por hecho que los modelos son veraces cuando él busca información.
“Probablemente confío en las respuestas que salen de ChatGPT menos que nadie en la Tierra”, dijo Altman a la multitud en la universidad de Bagler, lo cual fue recibido con risas.