CENIA impulsa el primer modelo de lenguaje colaborativo de Latinoamérica

LatamGPT es el nombre del primer modelo de lenguaje de gran tamaño (Large Language Model, LLM por sus siglas en inglés) que se está desarrollando de manera colaborativa en Latinoamérica y el Caribe. Coordinado por el Centro Nacional de Inteligencia Artificial (CENIA) e impulsado en conjunto con más de 30 instituciones de América Latina y el Caribe y más de 60 expertas y expertos, el proyecto cuenta con el apoyo del Ministerio de Ciencia, Tecnología, Conocimiento e Innovación en la coordinación internacional con los distintos estados de la región y el apoyo de recursos desde CAF para la ejecución del mismo

Actualmente, los modelos de lenguaje que han sido generados en el Norte Global y han estado expuesto a datos, no necesariamente reflejan la idiosincrasia y matices propios de Latinoamérica y el Caribe, una brecha de representatividad que conduce a limitaciones en su desempeño y puede generar inexactitudes o “alucinaciones” respecto de la información que involucra a nuestros países. El hecho se agrava con el uso cada más frecuente de datos sintéticos para el entrenamiento de modelos de otra generación

En febrero de 2023, se comenzó a trabajar en el primer LLM regional, en un modelo de lenguaje con un enfoque colaborativo en la construcción de las bases de datos, de modo que su entrenamiento reflejara la cultura, el lenguaje y la historia de Latinoamérica, ofreciendo información más precisa y representativa de los contextos locales.

“Uno de los problemas que tenemos en Latinoamérica y el Caribe es que los LLM que usamos, si bien funcionan en español y portugués, son bastante limitados en el conocimiento que tienen sobre la región. Al poco andar comienzan a alucinar, porque muy pocos de los datos con los que estos modelos fueron entrenados son de esta parte del mundo. Es importante que en la región podamos desarrollar capacidades para tener cierta independencia y tomar decisiones de cómo esta tecnología impacta a la sociedad. Hasta el momento no tenemos un modelo de lenguaje regional, y esta tarea no la puede asumir solo un grupo ni un solo país: es un desafío que requiere el esfuerzo de toda la región”, comenta Álvaro Soto, director de CENIA.

Por su parte, la ministra de Ciencia, Aisén Etcheverry, se refiere al proyecto como “un esfuerzo colectivo, abierto y que es reflejo de lo que esperamos sea este modelo de lenguaje. Cuando hablamos de Inteligencia Artificial, ésta tiene que proyectar el mundo que somos, su diversidad. Y en el caso de Latinoamérica, no solo hablar español o portugués, sino que entender nuestra idiosincrasia, aportar desde la cultura y desde la visión del mundo, y eso tiene que estar presente en el desarrollo”.

En comparación con otros modelos cerrados (o Propietary), el nuevo modelo de lenguaje LatamGPT será abierto, lo que implica que permitirá que más personas en América Latina y el Caribe lo estudien, usen y mejoren, construyendo sobre él. “Esto democratiza el conocimiento y promueve el desarrollo de capacidades para poder entender mejor los modelos de lenguaje, sus aplicaciones y límites”, explica el gerente de CENIA., Rodrigo Durán.

Un esfuerzo colaborativo para la soberanía tecnológica

Gracias al trabajo conjunto con universidades, fundaciones, bibliotecas, entidades gubernamentales y organizaciones de la sociedad civil de Latinoamérica y el Caribe, se han logrado reunir más de 8 TB (terabytes) de información en texto plano, lo que equivale a millones de libros. Estas alianzas incluyen a instituciones de Chile, Uruguay, Colombia, México, Perú, Ecuador, España, Estados Unidos, Argentina, y Costa Rica.

Un esfuerzo colaborativo para la soberanía tecnológica

Durante 2024, se consolidaron 33 alianzas estratégicas que han permitido formar un corpus de datos lo suficientemente amplio para dar vida a este modelo de 50 billones de parámetros, lo que es comparable a GPT-3.5.

“No buscamos competir con OpenAI o uno de los gigantes. Queremos un modelo propio de Latinoamérica y el Caribe, con los requisitos y desafíos culturales que eso implica, es decir, comprender los distintos dialectos, historia y aspectos culturales. Para lograr lo anterior estamos generando métricas propias que puedan evaluar estos conocimientos , como también recolectando datos atingentes a esto”, explica Rodrigo Durán.

Que el modelo de lenguaje cuente con 50 billones de parámetros implica que tiene una capacidad mediana-alta de funciones como el raciocinio, mejor traducción o de hacer asociaciones.

Centro de supercómputo en la Universidad de Tarapacá

Uno de los pilares fundamentales para el desarrollo de Latam GPT es la infraestructura de alto rendimiento instalada en la Universidad de Tarapacá (UTA), que planea invertir USD 10 millones para la creación del Centro de Supercómputo en dos etapas. Este clúster, con tecnología de punta en GPUs –12 nodos, cada uno implementado con 8 GPUs NVIDIA H200 – posibilita el entrenamiento del modelo a gran escala inexistente hasta ahora en Chile, promoviendo además la descentralización y eficiencia energética.

“La creación de tecnologías de IA también pueden empoderar a las comunidades locales al proporcionar herramientas que les permitan construir y definir su propio futuro digital. Entrenar en una versión inicial un modelo medianamente grande como éste, en un clúster multinodo como éste, es posible gracias a la visión del rector de la Universidad de Tarapacá, Emilio Rodríguez. Sin la inversión de esta entidad, sería imposible la ejecución”, sostiene el gerente de CENIA.

Durante el 2025, el proyecto seguirá levantando datos y aportes de diferentes instituciones y sumando a más países de la región, a la vez que se avanzará en la creación de benchmarks de desempeño, publicaciones científicas y nuevas alianzas.

La primera versión de Latam GPT verá la luz a mitad de 2025, con planes de fortalecimiento y mejoras continuas en la medida que se sumen más instituciones colaboradoras y se integren nuevos datos para perfeccionar el modelo.

CENIA impulsa el primer modelo de lenguaje colaborativo de Latinoamérica

Noticias Recientes