CENIA crea dos herramientas para medir el conocimiento de Latam-GPT sobre la región

Trueque y Choclo son los dos benchmarks de cultura latinoamericana liberados recientemente por el equipo de ingenieros de Latam-GPT.
Estos “exámenes”, que usan metodologías distintas, permitirán medir y explicar el conocimiento que tiene el gran modelo de lenguaje sobre la realidad regional
Su objetivo es entregar a la comunidad de desarrolladores una herramienta de licencia abierta que permite medir cuánto saben sus propios modelos sobre la cultura latinoamericana.

Luego de la ceremonia de lanzamiento de Latam-GPT realizada en febrero de 2026, el gran modelo de lenguaje ha seguido desarrollando un conjunto de entregables técnicos independientes cuyo valor radica en la entrega que se hace a la comunidad de investigadores y desarrolladores. Uno de ellos son los benchmarks: pruebas estandarizadas que funcionan como exámenes para la Inteligencia Artificial, y que permiten detectar si un modelo está fallando, si alucina o a quién le está respondiendo.

Hasta ahora, casi todos estos exámenes se diseñan en Estados Unidos o Europa, lo que podría llevar a situaciones como ignorar si el modelo sabe la diferencia entre “palta” y “aguacate”, o si comprende el peso histórico de palabras como “desaparecidos” en el Cono Sur. Es por eso que han nacido los proyectos Trueque y Choclo, que llenarán ese vacío y ayudarán a evaluar, con rigor científico, el conocimiento latinoamericano de los modelos.

Cabe recordar que Latam-GPT es un bien público alineado con la identidad cultural, social y lingüística de la región, coordinado por el Centro Nacional de Inteligencia Artificial (CENIA), con el apoyo de CAF, Amazon Web Services y el Data Observatory, y en el que participan más de 65 instituciones de 15 países. A diferencia de otros modelos, nace con el objetivo de desarrollar un LLM de gran escala construido por y para América Latina y el Caribe.

Un modelo de lenguaje es un sistema que aprende a generar texto tras leer millones de libros, artículos, conversaciones y otros. La computadora no comprende el mundo como las personas, sino que aprende a reconocer patrones: qué palabras suelen ir juntas y cómo se estructuran las respuestas. El gran problema es que los modelos globales se entrenan mayoritariamente con datos del Norte global. El español representa cerca de un 4% del contenido de internet, mientras que el portugués un 3%. Eso significa que, al momento de responder de historia, tradiciones o gastronomía, entre otros elementos más bien socioculturales, las respuestas pueden estar incompletas o distorsionadas por una visión ajena.

¿Qué es un benchmark y por qué es necesario?

Los benchmarks son pruebas. Funcionan como exámenes estandarizados para la Inteligencia Artificial. Así como un medicamento necesita de ensayos clínicos para saber si es seguro antes de sacarlo al mercado, un modelo de IA necesita de estos exámenes para detectar si está fallando, si alucina o a quién le está respondiendo.

Trueque es el primer gran hito de esta evaluación y se define como un examen hecho a mano por cientos de personas. Se trata de un benchmark colaborativo que cuenta con 500 preguntas curadas manualmente en 20 países. A diferencia de otros exámenes generados automáticamente por computadores, que suelen repetir los mismos errores y sesgos de siempre, Trueque apuesta por el conocimiento humano local. Estas preguntas evalúan dimensiones profundas de gastronomía regional, historia política, expresiones lingüísticas y tradiciones. Para calificar estas pruebas, se utiliza un sistema llamado “LLM-as-a-judge”, donde otro modelo de IA actúa como juez para determinar si la respuesta es correcta y culturalmente apropiada según estándares científicos.

Por otro lado, Choclo es un laboratorio robusto que mide la representación cultural y detecta errores u omisiones en los modelos actuales. Su nombre es metáfora de la identidad latinoamericana: el maíz andino que cambia de nombre y uso según el rincón del continente. A diferencia de Trueque, Choclo usa una metodología híbrida, que combina datos de Wikipedia con Inteligencia Artificial para crear “tripletas” de conocimiento, lo que se puede interpretar como unidades de conocimiento como “el cóndor – habita en . Los Andes”. Este examen divide el conocimiento en siete categorías: platos típicos, tradiciones, figuras públicas, geografía, flora y fauna, y objetos culturales.

Una de las innovaciones más importantes de Choclo es que clasifica sus preguntas en tres niveles de dificultad: fácil, intermedia y difícil. Lo curioso es que los investigadores descubrieron que los modelos a veces fallan en las preguntas “intermedias” más que en las “difíciles”. Esto se debe a que la dificultad no siempre está en el dato raro, sino en la ambigüedad y la interpretación del contexto, lo que demuestra que la IA aún tiene problemas para entender los matices de la realidad regional.

Resultados generales

Mientras avanza el proceso de evaluación de Latam-GPT 1.0, el diagnóstico revela que ninguno de los modelos más potentes del mundo logra superar un puntaje promedio de 0,48 sobre 1,0 en conocimiento cultural latinoamericano. Esto significa que reprueban, contestando correctamente menos de la mitad de las preguntas sobre nuestra región.

Fuera de lo anterior, se detectó una brecha preocupante entre lo que los expertos llaman similitud “léxica” y “semántica”. En palabras sencillas, los modelos tienen una idea vaga de qué se habla, pero no siempre conocen las palabras precisas con las que eso se nombra en cada rincón de la región..

Otro hallazgo impactante es que los modelos más recientes no necesariamente obtienen mejores resultados en estas pruebas culturales. Por ejemplo, el reciente GPT-5 Mini no superó a versiones anteriores en este examen cultural, lo que prueba que la IA no se vuelve “más culta” solo por ser un modelo más potente, sino que requiere un entrenamiento específico con datos locales. Sin este cuidado, aparecen las “alucinaciones”, invenciones de respuesta que suenan lógicas pero son falsas.

Los datasets están disponibles en Hugging Face, con acceso para que cualquier investigador, empresa o institución los descargue y use, mientras que los formularios de contribución están activos para que cualquier persona pueda aportar una pregunta sobre su cultura, su región o país. Cada contribución amplía la cobertura y mejora la calidad de la evaluación.

Trueque: https://huggingface.co/datasets/latam-gpt/Trueque-Benchmark-beta-0.1

Choclo: https://huggingface.co/datasets/latam-gpt/CHOCLO

CENIA crea dos herramientas para medir el conocimiento de Latam-GPT sobre la región

Noticias Recientes