CENIA impulsa globalmente la preservación de lenguas originarias en la era de la Inteligencia Artificial

  • El Centro Nacional de Inteligencia Artificial de Chile administra la gestión de nueve proyectos internacionales que utilizan IA para documentar y revitalizar lenguas indígenas de América Latina y África en riesgo de desaparecer en la era digital.

En un mundo en el e la tecnología avanza a pasos agigantados, cientos de lenguas originarias corren el riesgo de desaparecer, porque no existen en el universo. Para que una Inteligencia Artificial (IA) pueda entender, hablar o traducir un idioma, necesita una enorme cantidad de datos -textos, audios- con los que aprender y al no tener estos insumos, la mayoría de las lenguas del mundo son invisibles para la tecnología, quedando excluidas de herramientas tan cotidianas como traductores automáticos, los asistentes de voz o incluso correctores ortográficos. 

Para cambiar este panorama, el Centro Nacional de Inteligencia Artificial (CENIA) se ha posicionado como un actor clave en la administración de fondos internacionales destinados a crear recursos tecnológicos para lenguas subrepresentadas. Como “Hub” regional para Lacuna Fund y financiado por Google, CENIA gestiona proyectos que utilizan Procesamiento de Lenguaje Natural (NLP) para preservar y potenciar lenguas originarias, alineándose con los objetivos del Decenio Internacional de las Lenguas Indígenas (2022-2032) de la UNESCO.

Proyectos que tejen un futuro para las lenguas

Los nueve proyectos apoyados, seleccionados mediante un riguroso proceso internacional gestionado por CENIA, crean datos con y para las comunidades, asegurando que la tecnología sirva a sus necesidades reales. 

En América Latina: 

El proyecto Qom en Argentina creará dos corpus de habla: uno de alta calidad para el desarrollo de herramientas y otro extenso, grabado por miembros de la comunidad. Con una metodología participativa, busca empoderar a los grupos Qom mediante formación técnica y está orientado a desarrollar aplicaciones educativas como traductores y asistentes de voz.

Para el Mapudungun y Rapa Nui en Chile, el proyecto expandirá un traductor de texto existente y desarrollará un nuevo corpus de voz para las cuatro variantes activas de Mapudungun (Pehuenche, Guluche, Lafkenche, Huilliche) y para Rapa Nui. Responde directamente a la solicitud de las comunidades de crear herramientas para quienes solo se comunican oralmente.

En Paraguay, el proyecto de Guaraní desarrollará un gran corpus moderno que incluye de manera innovadora tanto la variante “pura” o académica del Guaraní como el “Jopara” -la variedad mezclada con español que se usa en el día a día-. Este enfoque dual permitirá crear herramientas de NLP tanto en contextos formales como cotidianos.

El proyecto Nahuatl y Totonaco en México construirá un corpus paralelo con variantes de estas lenguas y traducciones al español e inglés. Impulsado por un equipo interdisciplinario con académicos y hablantes nativos, busca ser un recurso fundamental para la investigación, el desarrollo de herramientas de IA y, particularmente, apoyar la implementación de leyes que garanticen el derecho de los pueblos indígenas a acceder a servicios públicos e información en su propia lengua.

En África: 

Para el Luganda en Uganda, se creará el primer dataset bilingüe específicamente diseñado para aplicaciones de salud. Incluirá términos médicos, expresiones culturales y grabaciones de entornos sanitarios reales, con el objetivo de mejorar la comunicación en áreas críticas como la salud materna y la divulgación de tratamientos.

El proyecto AfriFact & AfriGuard desarrollará datasets para verificación de hechos (fact-checking) y detección de instrucciones maliciosas en 10 lenguas africanas clave, como afrikaans, amharic, yoruba y zulú. Busca combatir la desinformación traduciendo y adaptando prompts para asegurar que los modelos de lenguaje grandes (LLMs) sean seguros, precisos y resistentes al generar información en estos idiomas.

En Tanzania se creará un dataset integral de voz y texto para seis lenguas comunitarias. Recolectará más de 450 horas de audio a través de narraciones de historias y entrevistas, transcritas y traducidas al swahili para desarrollar herramientas de reconocimiento de voz  que promuevan la inclusión digital y preserven narrativas culturales en riesgo.

Para las Lenguas de Mozambique, el proyecto expandirá recursos de NLP para cuatro lenguas (emakhuwa, xichangana, nyanja y sena), habladas por casi 25 millones de personas. Culminará en una plataforma de tecnología lingüística abierta con herramientas de traducción asistida por computador y diccionarios, diseñada para empoderar a las comunidades y promover el acceso a la información.

El proyecto de Tonos Africanos se centra en documentar el tono -el uso del pitch para distinguir significado- en varias lenguas africanas. Al crear un dataset audiovisual anotado con precisión, aborda una brecha crítica, ya que la omisión del tono en los recursos digitales limita severamente la precisión de la IA.

Todos estos datasets serán lanzados en 2026 y se encontrarán en https://www.dsfsi.co.za/lacunafund-datasets/  

Noticias

Noticias Recientes