CENIA presentó sus benchmarks Trueque y Choclo para medir el conocimiento regional de LLM 

En una sesión técnica orientada a la comunidad de investigadores y desarrolladores, el Centro Nacional de Inteligencia Artificial (CENIA) abordó los detalles de Trueque y Choclo, los dos nuevos benchmarks diseñados como herramientas de explicabilidad y cuyo fin es medir cuánto sabe el gran modelo de lenguaje abierto Latam-GPT sobre la realidad, cultura y lenguaje de América Latina.

Estas pruebas de rendimiento aplicadas al LLM latinoamericano construido por CENIA constituyen el primer hito de una serie de releases técnicos que liberará el proyecto Latam-GPT durante el primer semestre de 2026 y que constituyen una herramienta de licencia abierta que se le entrega la comunidad de desarrolladores -incluyendo grandes empresas como Google o OpenAI- para medir qué tanto saben sus propios modelos sobre la cultura latinoamericana.

El desarrollo de estas herramientas surge como una respuesta a la brecha de representación en la Inteligencia Artificial actual. Según los datos expuestos, los modelos globales son entrenados mayoritariamente con datos del Norte Global, lo que deja al español con un 4% de presencia en los datasets de entrenamiento y al portugués con un 3%. Esta asimetría provoca que, al ser consultados sobre historia, gastronomía o contextos socioculturales locales, los modelos suelen entregar respuestas incompletas o distorsionadas. 

Durante el webinar, los ingenieros CENIA a cargo del desarrollo de ambos trabajos detallaron las estrategias que, además, fueron puestas a disposición de la comunidad.

Por un lado, Trueque, consiste en un benchmark que destaca por su validación humana y colaborativa por parte de quienes estuvieron detrás de la construcción de este “test”. Se trató de una curaduría manual de preguntas que levantaron las contrapartes de 20 países de la región sobre temas, dialectos y dichos populares que consideraron esenciales para representarlos. Fue una especie de “trueque cultural” en el que cada uno de los participantes aportó cerca de 500 consultas tanto en español como en portugués. 

Es importante mencionar que para su calificación se utilizó el paradigma LLM-as-a-judge, en el que un modelo de lenguaje actúa como evaluador bajo ciertos criterios predefinidos por los investigadores. 

El segundo de los benchmarks que construyeron ingenieros de CENIA fue Choclo, el que utilizó datos de Wikipedia para detectar sesgos y evaluar el conocimiento cultural en 18 países a través de 10.000 preguntas categorizadas por dificultad (“fácil”, “intermedia” y “difícil”) y que abarcaron siete dimensiones: platos tradicionales, tradiciones, figuras públicas, geografía, flora, fauna y objetos. 

Un desafío importante en su construcción fue el balance de datos. Tomando en cuenta que inicialmente predominaba la información sobre Chile por sobre países como Honduras o Nicaragua -entre otros- se cumplió con el desafío de tener un mínimo de 900 preguntas por país. 

En la construcción de este instrumento se utilizaron “tripletas” de conocimiento, es decir, unidades de información, como por ejemplo, “Salar de Uyuni – ubicado en – Bolivia”. 

Cabe destacar que en el caso de Trueque, el equipo realizó revisiones manuales para eliminar cualquier contenido que fuera tóxico, peyorativo o políticamente conflictivo, buscando que el benchmark se centrara en el conocimiento factual. 

Buenos resultados

Uno de los momentos más relevantes del webinar fue la exposición de los resultados obtenidos tras evaluar los modelos comerciales y abiertos más potentes del mercado. El diagnóstico revela que, en promedio, las IAs actuales no superan un puntaje de 0,48 sobre 1,0, lo que en la práctica significa que no logran aprobar un examen básico sobre cultura latinoamericana.

Los investigadores explicaron que los modelos a menudo tienen una idea vaga del tema (similitud léxica), pero fallan al utilizar los términos precisos con los que se nombra una realidad en cada país (similitud semántica).

Se presentó evidencia de que modelos recientes, como GPT-5 Mini, no muestran mejoras significativas en estos benchmarks respecto a sus versiones anteriores. Esto sugiere que el aumento en la capacidad de cómputo no se traduce automáticamente en una mayor “sabiduría cultural” si no hay un entrenamiento específico con datos regionales.

Curiosamente, los modelos tienden a fallar más en preguntas de nivel intermedio que en las difíciles, lo que según el equipo de CENIA, se debe a que el nivel intermedio exige una mayor capacidad de interpretar la ambigüedad y el contexto social, áreas donde la IA global sigue mostrando debilidades.

Fiel al compromiso de Latam-GPT como un proyecto de bien público, CENIA imprimió una característica clave a estos productos: el uso de licencias abiertas como MIT y Apache 2.0, lo que permite que cualquier desarrollador pueda usar, criticar o mejorar las herramientas, fomentando así la investigación y soberanía tecnológica en la región. Tanto los datasets como los resultados están disponibles de manera abierta en Hugging Face.

Noticias

Noticias Recientes