Miguel Nussbaum Voehl

Miguel Nussbaum Voehl

Especialidad: Gestión del Conocimiento e Innovación, Tecnología y Educación, Diseño Instruccional.
Email: mn@uc.cl
Miguel es profesor del Departamento de Ciencia de la Computación de la Escuela de Ingeniería de la Pontificia Universidad Católica de Chile. Obtuvo el premio Avonni a la innovación en Chile en la categoría Educación el 2011. Es editor de la revista Computers & Education desde 2015, fue miembro del Consejo de la Agencia de Calidad de la Educación de Chile (2012-2017). En 2018 obtuvo el “Premio al Mérito Universidad Andrés Bello 2018”, mención “Educación” y en 2021fue nombrado Fellow de la International Society of the Learning Sciences. Ha publicado más de 130 artículos en revistas del catálogo ISI con más de 12.000 citas a sus artículos (h=53), y graduado 37 alumnos de doctorado. Tiene tres MOOC en COURSERA, con más de 110.000 inscritos. Su investigación en diseño instruccional, que integra el uso de tecnología, está enfocada en cómo cambiar las practicas docentes en aula. Sus desarrollos científicos se han aplicado en colegios de Argentina, Brasil, Chile, Colombia, Costa Rica, Estados Unidos, Gran Bretaña, Guatemala, India, Suecia, y Uruguay, y han tenido el patrocinio de UNESCO.

PUBLICACIONES

The evaluation of open-ended questions is typically performed by human instructors using predefined criteria to uphold academic standards. However, manual grading presents challenges, including high costs, rater fatigue, and potential bias, prompting interest in automated essay scoring systems. While automated essay scoring tools can assess content, coherence, and grammar, discrepancies between human and automated scoring have raised concerns about their reliability as standalone evaluators. Large language models like ChatGPT offer new possibilities, but their consistency and fairness in feedback remain underexplored. This study investigates whether ChatGPT can provide stable and fair essay scoring—specifically, whether identical student responses receive consistent evaluations across multiple AI interactions using the same criteria. The study was conducted in two marketing courses at an engineering school in Chile, involving 40 students. Results showed that ChatGPT, when unprompted or using minimal guidance, produced volatile grades and shifting criteria. Incorporating the instructor’s rubric reduced this variability but did not eliminate it. Only after providing an example-rich rubric, a standardized output format, low temperature settings, and a normalization process based on decision tables did ChatGPT-4o demonstrate consistent and fair grading. Based on these findings, we developed a scalable algorithm that automatically generates effective grading rubrics and decision tables with minimal human input. The added value of this work lies in the development of a scalable algorithm capable of automatically generating normalized rubrics and decision tables for new questions, thereby extending the accessibility and reliability of automated assessment.

agencia nacional de investigación y desarrollo
Edificio de Innovación UC, Piso 2
Vicuña Mackenna 4860
Macul, Chile