Miguel Romero

Miguel Romero

Especialidad: Algoritmos y complejidad, gestión de datos, aprendizaje automático (por ejemplo, explicabilidad formal, redes neuronales gráficas).
Miguel Romero completó un Phd in Computer Science en la Universidad de Chile en 2016. En el proyecto de Expresividad de redes neuronales de grafos, caracterizó el poder de estas redes en términos de lógicas formales y tests de isomorfismos de grafos. Abordó esto en varios contextos, incluyendo clasificación de nodos y predicción de links, extensiones a hipergrafos, y modelos fundacionales que no asumen un vocabulario previo. En el proyecto de Explicabilidad en modelos de machine learning, estudió la complejidad computacional de calcular nociones de explicaciones formales, tanto deterministas como probabilistas, para distintos modelos. Propuso un framework para razonar sobre shapley values bajo incerteza de las distribuciones subyacentes.

PUBLICACIONES

Publisher: ArXiv Link>

ABSTRACT

Attribution scores reflect how important the feature values in an input entity are for the output of a machine learning model. One of the most popular attribution scores is the SHAP score, which is an instantiation of the general Shapley value used in coalition game theory. The definition of this score relies on a probability distribution on the entity population. Since the exact distribution is generally unknown, it needs to be assigned subjectively or be estimated from data, which may lead to misleading feature scores. In this paper, we propose a principled framework for reasoning on SHAP scores under unknown entity population distributions. In our framework, we consider an uncertainty region that contains the potential distributions, and the SHAP score of a feature becomes a function defined over this region. We study the basic problems of finding maxima and minima of this function, which allows us to determine tight ranges for the SHAP scores of all features. In particular, we pinpoint the complexity of these problems, and other related ones, showing them to be NP-complete. Finally, we present experiments on a real-world dataset, showing that our framework may contribute to a more robust feature scoring.

agencia nacional de investigación y desarrollo
Edificio de Innovación UC, Piso 2
Vicuña Mackenna 4860
Macul, Chile