Fiabilidad vs. potencia: el dilema silencioso de la IA moderna
Fiabilidad vs. potencia: el dilema silencioso de la IA moderna

Durante años, la inteligencia artificial fue medida por su capacidad para superar pruebas. Velocidad, precisión, puntajes. Pero en 2024, mientras los modelos generativos se vuelven cada vez más presentes en nuestras vidas, una pregunta clave sigue sin respuesta clara: ¿cómo saber si un sistema de IA es realmente eficaz y confiable en entornos reales?

Según un análisis reciente de MIT Technology Review, la industria está atravesando lo que muchos ya llaman una crisis de evaluación. Los métodos tradicionales para medir el rendimiento de los modelos —basados en tests estandarizados conocidos como benchmarks— han dejado de reflejar su verdadero alcance y limitaciones. Y eso, en un momento en que confiamos cada vez más en ellos, representa un riesgo profundo.

Cuando la IA aprende a responder bien... pero no a pensar mejor

Durante años, los benchmarks fueron el estándar: pruebas objetivas que medían la cantidad de respuestas correctas frente a problemas específicos. Pero a medida que los modelos como ChatGPT, Gemini o los desarrollos de Anthropic evolucionaron, aprendieron a optimizar sus respuestas para brillar en esas pruebas, sin necesariamente desarrollar habilidades más amplias, ni ser más confiables.

Muchos de esos benchmarks, como SuperGLUE, ya fueron superados por los modelos actuales, que alcanzan puntajes cercanos al 100%. Esto ha convertido cualquier mejora adicional en lo que los expertos llaman “ruido estadístico”: aparentes avances que en realidad no implican un salto cualitativo.

Además, algunos modelos fueron entrenados con los mismos datos que se usan para evaluarlos, un fenómeno conocido como data leakage, que compromete la validez de los resultados.

Andrej Karpathy, exmiembro de OpenAI y Tesla, lo resumió sin rodeos: “Estamos viviendo una crisis de evaluación”. Porque ya no se trata de qué tanto aciertan los modelos, sino de si sus respuestas pueden confiarse en contextos reales.

Del laboratorio al mundo real: la fiabilidad como nuevo estándar

En respuesta a esta crisis, investigadores y empresas comenzaron a desarrollar nuevos enfoques. Uno de los más destacados es LiveCodeBench Pro, un benchmark basado en problemas reales de olimpiadas internacionales de programación. Los desafíos no pueden resolverse con fórmulas memorizadas, sino que requieren planificación, lógica y adaptabilidad.

¿El resultado? Modelos como GPT-4-mini-high y Gemini 2.5 apenas alcanzaron un 53% de aciertos en problemas de dificultad media. En los más difíciles, no lograron resolver ninguno. Aún están lejos de igualar a los mejores programadores humanos.

Pero incluso este nuevo enfoque tiene sus límites. Resolver acertijos complejos no equivale a funcionar bien en ambientes impredecibles o con consecuencias reales. Por eso, investigadores de distintas universidades proponen una evolución en la forma de evaluar: no basta con medir el rendimiento, hay que medir también el riesgo.

Errores, respuestas falsas o incoherentes las famosas alucinaciones pueden tener consecuencias graves si la IA se aplica en medicina, justicia, educación o seguridad. La fiabilidad se vuelve tan importante como la inteligencia.

Creatividad, contexto y una cultura de investigación en tensión

Además de los nuevos benchmarks, emergen enfoques más dinámicos. El método ARC-AGI, por ejemplo, mantiene parte de sus datos ocultos para evitar que los modelos se adapten específicamente a las pruebas. Otros, como LiveBench impulsado por Yann LeCun, de Meta actualizan sus preguntas cada seis meses para medir adaptabilidad.

Incluso se están usando evaluaciones basadas en juicio humano. Plataformas como LMarena permiten comparar respuestas de diferentes modelos y elegir la mejor según la percepción de los usuarios. Pero este método también tiene un sesgo: muchas veces se elige lo que suena bien, aunque no sea del todo correcto.

La investigación académica no escapa a estos dilemas. Durante la última edición de la conferencia CVPR, un profesor de la Universidad de Nueva York advirtió sobre la creciente presión por publicar resultados rápidos y espectaculares. Usó la metáfora de los “juegos finitos e infinitos”: “Si la academia se obsesiona con ganar rápido, terminará perdiendo todo lo que importa”, afirmó.

El gran desafío: construir una forma justa y útil de medir la inteligencia artificial

Pese a los avances, la evaluación integral de la IA sigue siendo una deuda pendiente. Aún no existen métodos que abarquen aspectos como la creatividad, el juicio contextual, la experiencia de usuarios comunes o la capacidad de colaborar entre disciplinas.

Y al mismo tiempo, los riesgos de un mal uso de la IA por error, sesgo o simple imprevisibilidad siguen siendo altos.

La buena noticia es que la industria está comenzando a cambiar su enfoque. Lo importante ya no es si un modelo responde rápido o con fluidez. Lo importante es si responde bien cuando realmente importa.

La inteligencia artificial sigue evolucionando, pero su verdadero progreso dependerá de cómo la medimos. Y, sobre todo, de si somos capaces de construir una cultura que valore no solo la innovación, sino también la responsabilidad.

Este artículo fue publicado originalmente en Infobae y está protegido por derechos de autor. Todos los derechos reservados a Infobae. Puedes consultar el artículo original en su (https://www.infoabe.com).