La versión número 37 de NeurIPS se realizará en diciembre en New Orleans, Estados Unidos, y congregará a más de 10.000 expertos y expertas en el área. Los papers de los investigadores, que pertenecen tanto al Instituto de Ingeniería Matemática y Computacional UC, como al Instituto Milenio Fundamentos de los Datos y el Centro Nacional de Inteligencia Artificial, abordan temáticas como el funcionamiento de las redes neuronales de grafos, las cuales eventualmente podrían ayudar a diseñar nuevos fármacos o detectar fraudes financieros.
“Con el boom de la inteligencia artificial en los últimos años, NeurIPS se ha transformado en el lugar donde se presentan muchas de las investigaciones y los desarrollos más relevantes a nivel global sobre aprendizaje computacional”, comenta Pablo Barceló, investigador principal Cenia y director del Instituto de Ingeniería Matemática y Computacional (IMC), al referirse a la relevancia de una conferencia que se realiza desde 1987 y que hoy se ha convertido en la más prestigiosa del mundo en su ámbito. Este año, la versión número 37 del evento Neural Information Processing Systems se desarrollará en New Orleans (EE.UU.) e incluirá tres papers de investigadores pertenecientes tanto al IMC como al Centro Nacional de Inteligencia Artificial (CENIA) y el Instituto Milenio Fundamentos de los Datos (IMFD).
Un logro importante si se considera que la conferencia, que cada año congrega a más de 10.000 académicos y representantes de la industria, es sumamente competitiva. En cada llamado para la recepción de contribuciones, se recopilan unos 10.000 papers de investigadores especializados en diversos campos ligados al machine learning y la inteligencia artificial, tales como la neurociencia y el procesamiento del lenguaje natural. De este enorme volumen de artículos, apenas el 25% es seleccionado para ser presentado durante el evento, que este año se efectuará entre el 10 y 16 de diciembre en el Centro de Convenciones Ernest N. Morial.
Barceló, coautor de dos de los papers aceptados y quien además es investigador de CENIA y el IMFD, comenta que la incorporación de un trabajo en NeurIPS sirve para confirmar que la labor que están desarrollando los investigadores tiene nivel internacional. “Te da visibilidad. Cuando se dan a conocer los papers que serán presentados, los académicos buscan todo lo que fue aceptado en sus áreas para ponerse al día, por lo que mucha gente los empieza a revisar”, señala. El director del IMC, quien además es doctor en ciencia de la computación, agrega que la inclusión en NeurIPS también potencia el prestigio global de las instituciones a las cuales pertenecen los autores. “En los trabajos que estarán en NeurIPS, no sólo aparece el nombre de los autores sino que también sus afiliaciones. Eso ayuda a que la gente en el exterior diga ‘En Chile hay un Centro Nacional de Inteligencia Artificial, existe un instituto Milenio Fundamentos de los Datos, funciona un Instituto de Ingeniería Matemática y Computacional’. Eso empieza a poner en el radar del mundo a los investigadores locales, porque les dice ‘Miren, hoy existe un polo de desarrollo importante en Chile. Quizás no tiene la productividad que se da en otros lugares del mundo, pero lo que se produce en Chile sí tiene el mismo nivel de calidad”, añade Barceló.
Uno de los papers en el que participa el director del IMC se titula “A theory of link prediction via relational Weisfeiler-Leman” y tiene como coautores a Xingyue Huang e Ismail Ilkan Ceylan, del Departamento de Ciencia de la Computación de la Universidad de Oxford, Reino Unido; y Miguel Romero Orth, del Departamento de Ciencia de la Computación de la UC e investigador de CENIA. En este trabajo, los autores abordan varias particularidades de los llamados grafos de conocimiento que hoy se utilizan en múltiples investigaciones del área del machine learning y la inteligencia artificial.
“Los grafos de conocimiento son formas de representar información semántica. Con eso me refiero a información que tiene una interpretación que pueda ser entendida tanto por humanos como por las máquinas. Pueden ser muy grandes y lo que hacen es correlacionar entidades, señalando por ejemplo ‘esta persona es amiga de esta persona’, ‘esta persona trabaja con esta otra persona’, ‘desde esta ciudad hasta esta otra ciudad hay una ruta para llegar’ o ‘esta molécula está vinculada a esta otra molécula’”, comenta Barceló.
El investigador agrega que el objetivo de las “grandes arquitecturas de machine learning, conocidas como transformers, o las redes neuronales muy profundas es que de alguna forma utilicen estos grafos para adquirir información semántica que les permitan aprender con menos datos, para poder realizar nuevas tareas y también tener un mayor grado de explicabilidad en las decisiones que toman”. Sin embargo, el problema con los grafos de conocimiento es que en general la “calidad de los datos es muy baja y éstos son muy incompletos. Hay muchas relaciones que están, por ejemplo, ‘esta persona es amiga de esta otra’, pero hay muchas otras que no están y la idea es cómo poder extraer esa información faltante, cómo aprender de la estructura del grafo para poder decir ‘mira, con alta probabilidad estas dos personas igual se conocen’. Así que si voy a ofrecerle un producto a esta persona también debería ofrecérselo a esta otra, porque a pesar de que el grafo no me dice explícitamente que estén conectadas, yo infiero de sus propiedades y estructura que deberían ser amigos”.
Hoy existen muchas formas de completar estos grafos de conocimiento o de generar la información que no está disponible, pero una de las más eficaces tiene que ver con aplicar sobre ellos redes neuronales de grafos. “Estas redes neuronales son un poco distintas a las que se han estudiado normalmente y lo que hicimos fue tratar de entenderlas en función de aquellas más conocidas. Hacemos una teoría completa de qué es lo que hacen estas redes neuronales de grafos, que predicen conexiones pero al mismo tiempo actúan como una extensión de las redes neuronales de grafos usuales”, señala Barceló. Al entender de mejor forma qué hacen estas redes neuronales de grafos, precisa el director del IMC, también es posible mejorar sus formas y entender qué funcionalidades son necesarias y cuáles son agregadas. “Mientras menos funcionalidades tenga una red, mejor aprende ya que generaliza mejor. Nosotros hacemos una especie de limpieza y podemos encontrar su núcleo fundamental, lo que hace que puedan tener un mejor rendimiento al realizar predicción de conexiones”, señala Barceló.
Los resultados del paper fueron validados teórica y empíricamente, pero aún queda camino por avanzar. “Una cosa es poder predecir si dos personas o moléculas están conectadas, pero si dos personas están conectadas y son amigas y además conocen a alguien a través de su trabajo ya no es sólo un link entre dos individuos, sino que se genera una estructura similar a un triángulo. Nos gustaría poder encontrar esas estructuras que son mucho más complejas y que al mismo tiempo muestran una mayor riqueza sobre la estructura del grafo”, dice Barceló.
¿Qué usos podría tener esa información? El estudio de las interacciones entre distintas moléculas para el desarrollo de nuevos fármacos es sólo una de ellas. “En economía, se podría detectar qué tipo de correlaciones hay entre diferentes acciones bursátiles. También se podría tener un grafo de transacciones y empezar a detectar, a partir de su estructura, posibles fraudes o instancias de lavado de dinero. Si sé que hay un fraude y al analizar el grafo veo que hay una estructura similar se podría decir ‘Con alta probabilidad acá también hay un fraude’ y así investigar más a fondo”, señala el director del IMC. Además, se puede “pensar en estudios climáticos, de geofísica o áreas como las redes sociales”.
Aplicando simetrías aproximadas
Mircea Petrache es académico del Instituto de Ingeniería Matemática y Computacional en cargo compartido con la Facultad de Matemáticas UC y, además, es investigador joven de CENIA. También es experto en aprendizaje profundo geométrico, errores de generalización, redes neuronales equivariantes, análisis topológico de datos y geometría de datos. El investigador es coautor de dos papers que serán presentados en la conferencia NeurIPS.
Uno de ellos se titula “Approximation Generalization Trade-offs under (Approximate) Group Equivariance”, en colaboración con Shubhendu Trivedi, del Laboratorio de Ciencia Computacional e Inteligencia Artificial del Instituto de Tecnología de Massachusetts (MIT). Este estudio explora cómo las simetrías aplicadas en modelos de aprendizaje pueden mejorar la precisión y la eficiencia, y que rol puede jugar el permitir simetrías aproximadas, para esos beneficios. Para explicar este fenómeno, Mircea Petrache usa el ejemplo de reconocer gatos en imágenes: “Imagina que tienes una red neuronal que debe decir si hay un gato en una imagen y dónde está.” En este caso, no importa exactamente dónde se encuentre el gato en la imagen, solo se necesita saber si hay un gato y su forma. “Esto que parece natural para los humanos, identificar que un gato que se encuentra en distintas posiciones es el mismo gato, implementarlo en una red neuronal requiere implementar modificaciones de las arquitecturas, produciendo las que se llaman redes neuronales equivariantes.”
Hay dos tipos de redes neuronales que se estudian en esta investigación: las “invariantes” y las “equivariantes”. Las invariantes funcionan como si la red no se preocupara por la posición exacta del gato: siempre detectará que hay un gato en la imagen, sin importar dónde esté ubicado. En cambio, las redes equivariantes toman en cuenta la posición del gato y ajustan su respuesta de forma predecible, en función de dónde se encuentre en la imagen: por ejemplo imponer equivarianza sirve, cuando la tarea de la red es dibujar el contorno del gato.
Petrache agrega: “Si comprendemos las simetrías, o reglas matemáticas subyacentes de una tarea, y las incorporamos en la estructura de la red neuronal, podemos obtener resultados más precisos y usar menos parámetros.” Pero, ¿qué sucede cuando se permiten errores en estas simetrías?: “No queremos que la red sea demasiado rígida y precisa, porque incluso si cambia un solo píxel en la imagen del gato, podría dejar de reconocerlo como un gato. Así que permitimos cierta flexibilidad añadiendo un poco de ‘ruido’ o permitiendo que algunas transformaciones no sean tan estrictas. Sin embargo, existe la preocupación de que si se permiten demasiados errores, se pueden perder los beneficios de tener redes neuronales más simples y eficientes”, explica.
Lo novedoso de esta investigación es que se intenta encontrar un equilibrio entre hacer que la red sea más flexible para ajustarse a los datos, y mantener el número de parámetros bajo control. El paper propone una teoría general sobre cómo lograr este equilibrio y sugiere que, en el futuro, se podría aplicar en casos específicos.
Entendiendo el funcionamiento de
las redes neuronales de grafos geométricos
El último paper que se presentará en la conferencia se titula “Three iterations of (d − 1)-WL test distinguish non isometric clouds of d-dimensional points“, y tiene como autores a Pablo Barceló (IMC-IMFD-CENIA), Mircea Petrache (IMC – CENIA), Cristóbal Rojas (IMC-CENIA) y los investigadores de postdoctorado Valentino Delle Rose y Alexander Kozachinskyi (IMC-IMFD-CENIA).
Cristóbal Rojas, doctor en matemáticas y ciencias de la computación e investigador principal Cenia, comenta que este trabajo surge de una pregunta presente en la comunidad científica que utiliza redes de grafos geométricos para clasificar, predecir y trabajar con representaciones de moléculas y sus propiedades físicas, por ejemplo para crear medicamentos. Para lograrlo, usan diferentes versiones de esta herramienta, pero no saben cuál es la mejor para cada caso, porque no existe una guía clara que permita elegir la versión adecuada, ni la cantidad correcta de parámetros.
“Las representaciones de moléculas son nubes de puntos en un espacio tridimensional. En este contexto, lo que realmente importa es la forma de la molécula, no el orden en el que se describen los átomos. Sin embargo, si se reorganiza el orden de los átomos, el modelo considerará que se está proporcionando información diferente. Para lidiar con este problema, se utilizan listados no ordenados de distancias entre los puntos como una forma de representar las moléculas”, comenta el investigador Mircea Petrache.
En este sentido, el objetivo del paper es identificar cuántas de estas distancias no ordenadas son necesarias para garantizar una representación precisa y distintiva de las nubes de puntos en el contexto de modelado molecular. Con lo anterior, sería posible determinar cuánta información esencial se puede extraer de las distancias entre puntos y si se pueden simplificar sin perder precisión en la representación.
Rojas agrega que este paper representa un gran logro, ya que cierra un problema que ha intrigado a la comunidad durante bastante tiempo. El estudio establece un teorema que guía a las personas que programan estas herramientas sobre cuál versión usar y cómo configurarla para obtener los mejores resultados en sus datos específicos. Este teorema además proporciona garantías teóricas sobre la eficiencia y el rendimiento esperado. Esto es importante ya que a menudo se considera que la inteligencia artificial es una “caja negra” en la que no se sabe cuándo funcionará bien. En este caso, se ha hecho un trabajo para abrir esa “caja” y mostrar cómo las decisiones de programación afectan los resultados.
“Esto forma parte de un área en la cual este tipo de resultados se ha buscado constantemente. En el área de las redes neuronales de grafos geométricos, que es bastante amplia, nosotros vimos pasar una gran cantidad de papers en donde intentan capturar este problema, y que en contribuciones parciales, comparaciones y contra ejemplos, tratan de resolverlo. Nuestro teorema básicamente cierra este problema y ahora la respuesta está completa. De hecho, este fue un aspecto puntual que destacó uno de los revisores del artículo”, concluye Cristóbal Rojas.
Cenia / IMC / IMFD