La inteligencia artificial tiene un problema de medición
Hay un problema con las principales herramientas de inteligencia artificial, como ChatGPT, Gemini y Claude: en realidad, no sabemos cuán listas son.
Esto se debe a que, a diferencia de las empresas que fabrican autos, medicamentos o fórmulas infantiles, las empresas de inteligencia artificial no están obligadas a someter sus productos a pruebas antes de lanzarlos al público. No existe un sello de calidad para los chatbots de inteligencia artificial y son pocos los grupos independientes que someten a estas herramientas a pruebas rigurosas.
En cambio, nos queda confiar en las afirmaciones de las empresas de inteligencia artificial, las cuales a menudo utilizan frases vagas y confusas como “capacidades mejoradas” para describir en qué se diferencian sus modelos de una versión a otra. Y, aunque hay algunas pruebas estándar para evaluar la capacidad de los modelos de inteligencia artificial, digamos razonamiento matemático o lógico, muchos expertos dudan de la confiabilidad real de esas pruebas.
Esto puede sonar a una queja insignificante. No obstante, estoy convencido de que la falta de una buena medida y evaluación de los sistemas de inteligencia artificial es un problema importante.
Para empezar, sin información confiable sobre los productos de inteligencia artificial, ¿cómo se supone que la gente va a saber qué hacer con ellos?
No puedo contar la cantidad de veces que en el último año un amigo o un colega me preguntó qué herramienta de inteligencia artificial debía utilizar para una tarea determinada. ¿Cuál escribe mejor el código Python, ChatGPT o Gemini? ¿Es mejor DALL-E 3 o Midjourney para generar imágenes realistas de personas?
Simplemente, suelo encoger los hombros en respuesta. Incluso para alguien que se gana la vida escribiendo sobre inteligencia artificial y que prueba nuevas herramientas todo el tiempo, me desquicia lo difícil de seguir el ritmo de las fortalezas y debilidades relativas de los distintos productos de inteligencia artificial. La mayoría de las empresas tecnológicas no publican manuales de usuario ni comunicados detallados sobre sus productos de inteligencia artificial. Además, los modelos se actualizan con tanta frecuencia que un chatbot que un día tiene dificultades para realizar una tarea, al día siguiente puede destacar misteriosamente en ella.
Las mediciones deficientes también crean un riesgo para la seguridad. Sin mejores pruebas para los modelos de inteligencia artificial, es difícil saber qué capacidades están mejorando más rápido de lo esperado o qué productos podrían presentar amenazas reales de peligro.
En el AI Index de este año —un gran informe anual que elabora el Instituto de Inteligencia Artificial Centrada en el Ser Humano de la Universidad de Stanford—, los autores describen las mediciones deficientes como uno de los principales desafíos que enfrentan los investigadores de inteligencia artificial.
“La falta de una evaluación estandarizada dificulta una enormidad la comparación sistemática de las limitaciones y riesgos de varios modelos de inteligencia artificial”, me comentó Nestor Maslej, editor jefe del informe.
Una de las pruebas actuales más comunes que realizan los modelos de inteligencia artificial —casi el equivalente del examen para entrar a la universidad de los chatbots— es una prueba conocida como Massive Multitask Language Understanding (MMLU).
La MMLU, lanzada en 2020, consiste en una colección de unas 16.000 preguntas de opción múltiple que cubren decenas de temas académicos, que van desde el álgebra abstracta hasta el derecho y la medicina. Se supone que es una especie de examen de inteligencia general: mientras más de estas preguntas responda de manera correcta un chatbot, más inteligente es.
Se ha vuelto el criterio de referencia para las empresas de inteligencia artificial que compiten por el dominio. (A principios de este año, cuando Google lanzó su modelo de inteligencia artificial más avanzado, Gemini Ultra, la compañía presumió de haber obtenido un 90 por ciento en la MMLU, la puntuación más alta que se haya registrado).
Dan Hendrycks, un investigador en seguridad de la inteligencia artificial que ayudó a desarrollar la MMLU cuando estudiaba su posgrado en la Universidad de California, campus Berkeley, me contó que nunca se pensó que la prueba se usara para presumir. Le alarmaba la rapidez con la que mejoraban los sistemas de inteligencia artificial y quería animar a los investigadores a tomárselo más en serio.
Hendrycks señaló que, aunque pensaba que la MMLU “pueda tener uno o dos años más de vida útil”, pronto la tendrán que remplazar pruebas distintas y más difíciles. Los sistemas de inteligencia artificial se están volviendo demasiado inteligentes para las pruebas que tenemos ahora y cada vez es más difícil diseñar nuevas.
(The New York Times demandó a OpenAI, el fabricante de ChatGPT, y a su socio, Microsoft, por infringir derechos de autor en relación con sistemas de inteligencia artificial que generan texto).
También puede haber problemas con las pruebas mismas. Varios investigadores con los que hablé advirtieron que el proceso de administrar pruebas de referencia como la MMLU varía un poco de una empresa a otra y que las puntuaciones de varios modelos podrían no ser directamente comparables.
Hay un problema conocido como “contaminación de datos”, cuando las preguntas y respuestas de las pruebas de referencia se incluyen en los datos de entrenamiento de un modelo de inteligencia artificial, lo que en esencia le permite hacer trampa. Además, estos modelos no se someten a pruebas o auditorías independientes, es decir que las empresas de inteligencia artificial en esencia califican su propia tarea.
En resumen, la medición de la inteligencia artificial es un desastre: una maraña de pruebas descuidadas, comparaciones de manzanas con naranjas y publicidades interesadas que han dejado en la oscuridad a los usuarios, reguladores y a los propios desarrolladores de inteligencia artificial.
Es probable que la solución para esto sea una combinación de iniciativas públicas y privadas.
Los gobiernos pueden y deben idear programas de pruebas sólidos que midan tanto las capacidades brutas como los riesgos de seguridad de los modelos de inteligencia artificial y deben financiar subvenciones y proyectos de investigación destinados a idear nuevas evaluaciones de alta calidad. (En su orden ejecutiva sobre inteligencia artificial del año pasado, la Casa Blanca les ordenó a varias agencias federales, incluido el Instituto Nacional de Normas y Tecnología, que crearan y supervisaran nuevos mecanismos para evaluar los sistemas de inteligencia artificial).
En el ámbito académico también están surgiendo algunos avances. El año pasado, investigadores de Stanford presentaron una nueva prueba para modelos de inteligencia artificial que generan imágenes que utiliza evaluadores humanos, en vez de pruebas automatizadas, para determinar la capacidad de un modelo. Y un grupo de investigadores de la Universidad de California, campus Berkeley, acaba de lanzar Chatbot Arena, una popular tabla de clasificaciones que enfrenta modelos de inteligencia artificial anónimos y aleatorios y les pide a los usuarios que voten por el mejor modelo.
Las empresas de inteligencia artificial también pueden ayudar comprometiéndose a trabajar con evaluadores y auditores externos para que prueben sus modelos, al volver más disponibles los nuevos modelos para los investigadores y siendo más transparentes al momento de actualizar sus modelos. Y, en los medios, espero que con el tiempo surja algún tipo de publicación al estilo Wirecutter que se encargue de revisar los nuevos productos de inteligencia artificial de manera rigurosa y confiable.
El año pasado, los investigadores de la empresa de inteligencia artificial Anthropic publicaron en un blog que “la gobernanza eficaz de la inteligencia artificial depende de nuestra capacidad para evaluar de manera significativa los sistemas de inteligencia artificial”.
Estoy de acuerdo. La inteligencia artificial es una tecnología demasiado importante como para evaluarla según la vibra que te dé. Hasta que no tengamos mejores mecanismos para medir estas herramientas, no sabremos cómo utilizarlas ni si su progreso debe celebrarse o temerse.
c.2024 The New York Times Company