¿Cómo hacer más eficientes los modelos de Inteligencia Artificial sin perder su rendimiento? El método que propone una “cirugía de precisión” para redes neuronales

Un equipo de investigadores vinculado al Centro Nacional de Inteligencia Artificial – CENIA ha propuesto una nueva metodología para resolver uno de los mayores desafíos de la computación actual: identificar qué partes de un modelo de lenguaje (LLM) son imprescindibles y cuáles pueden eliminarse para crear sistemas más ligeros, rápidos y accesibles sin sacrificar su potencia, en un contexto de tareas específicas.

La investigación, titulada “Replanteando la relevancia de las capas en los grandes modelos de lenguaje: más allá de la similitud de coseno”, se centra en las “capas” de los modelos de Inteligencia Artificial. Estos sistemas funcionan como una secuencia de niveles en la que cada capa recibe información, la procesa y la entrega a la siguiente en una compleja cadena de toma de decisiones.

Para entender este hallazgo, primero hay que imaginar cómo funciona una IA por dentro. Un LLM no es un bloque de conocimiento, más bien funciona como un edificio con diferentes pisos uno sobre otro.

En esta estructura, la información entra por el primer piso (la primera capa) y va subiendo nivel tras nivel. Cada piso recibe datos del anterior, los procesa, les añade complejidad y los entrega al siguiente. Y el problema que aborda la nueva investigación de Cristian Hinostroza, junto a sus coautores Rodrigo Toro Icarte, Christ Devia, Andrés Carvallo, Eugenio Herrera-Berg, Denis Parra y Jorge Silva, es que no todos los pisos de ese edificio aportan de la misma manera al cumplimiento de una tarea específica.

Efecto “bola de nieve”

La investigación demuestra que algunas capas pueden ser irrelevantes o incluso entorpecer el resultado. Sin embargo, identificarlas no es sencillo debido al “efecto bola de nieve”, donde un cambio minúsculo que parece no importar en alguna de las capas anteriores, puede crecer en las siguientes etapas, lo que resulta vital para que la respuesta de la IA sea correcta o no.

Hasta ahora, la herramienta más popular en la comunidad científica para decidir qué capas eliminar era una métrica matemática llamada “Similitud de Coseno”. Esta técnica funciona, en términos simples, como si se observara el edificio desde afuera para ver cuánto cambia la información al pasar por cada nivel. Si el cambio es mínimo, se asume que el piso no aporta (respecto de la información asociada a la tarea específica) y podría ser removido.

Frente a las limitaciones de los métodos tradicionales, el equipo propuso un enfoque más directo y certero para solucionar este problema, el “puntaje de relevancia basado en el desempeño”. En lugar de basarse en estimaciones externas, este método realiza una prueba de estrés real: detecta con precisión qué capas tienen la información de una tarea en específico, retirarla y evaluar cómo cambia el rendimiento del modelo en tareas concretas.

Aunque este proceso requiere más tiempo y recursos computacionales, permite tomar decisiones más informadas sobre qué partes del sistema pueden eliminarse sin afectar su funcionamiento. Gracias a este enfoque, los investigadores descubrieron que la importancia de una capa es relativa y depende de la tarea específica que esté realizando

Un ejemplo revelador de este estudio se dio con el modelo de lenguaje OLMo. Los investigadores descubrieron que la capa 16 pasaba completamente inadvertida para la ‘Similitud de Coseno’, sugiriendo que podía ser eliminada. Sin embargo, al aplicar la nueva métrica basada en precisión, se detectó que esta capa es en realidad un pilar fundamental: su remoción provoca un desplome drástico en el rendimiento del modelo en múltiples tareas. Este caso demuestra que los métodos tradicionales tienen ‘puntos ciegos’ críticos que solo una prueba de estrés real puede identificar.

Este hallazgo demuestra que es posible ‘especializar’ los modelos: al identificar qué pisos son innecesarios para una función específica, podemos eliminarlos para obtener sistemas mucho más eficientes. De hecho, la investigación reveló que existen capas que son pilares fundamentales para resolver matemáticas, pero que resultan totalmente prescindibles en tareas de lenguaje. Al enfocarse exclusivamente en lo que importa para cada dominio, el equipo logró que, tras reducir el modelo en un 20%, el rendimiento en tareas específicas no solo se mantuviera, sino que superara al del modelo original completo. Esto abre la puerta a crear herramientas a la medida, mucho más ligeras y rápidas, capaces de funcionar en el futuro directamente en dispositivos móviles sin sacrificar su desempeño.

El equipo proyecta ampliar esta línea de investigación a modelos de mayor escala y una diversidad de tareas aún más compleja.

¿Cómo hacer más eficientes los modelos de Inteligencia Artificial sin perder su rendimiento? El método que propone una “cirugía de precisión” para redes neuronales

Noticias Recientes