
En Sídney, Australia, Marcelo Mendoza (Universidad Católica), investigador principal de CENIA, dio a conocer dos nuevas técnicas para que modelos de lenguaje como GPT-4o, Claude y Gemini extraigan datos clave de noticias y formulen preguntas y respuestas como un lector humano. El estudio fue desarrollado junto al investigador asociado CENIA, Hans Löbel (Universidad Católica), a Brian Keith, de la Universidad Católica del Norte y el estudiante de doctorado Carlos Muñoz.
Históricamente, extraer información clave de los artículos periodísticos -organizada en torno a las preguntas “Quién”, “Qué”, “Cuándo”, “Dónde”, “Por qué” y “Cómo” (5W1H)- ha sido una estrategia fundamental en el periodismo digital para potenciar los sistemas de búsqueda. Con el auge de los grandes modelos de lenguaje (LLM) —como GPT (OpenAI), Gemini (Google) o Claude (Anthropic), entre otros— ha surgido un renovado interés en su potencial para realizar de manera más efectiva tareas de extracción de información.
En este contexto, Marcelo Mendoza, investigador principal del Centro Nacional de Inteligencia Artificial (Cenia), presentó en The ACM Web Conference 2025 —realizada del 28 de abril al 2 de mayo en Sidney, Australia— el estudio “Imitating Human Reasoning to Extract 5W1H in News”. La investigación propone un enfoque innovador para mejorar la extracción automática de información en noticias a partir de estas seis preguntas clave del periodismo (5W1H), empleando grandes modelos de lenguaje y enfocándose particularmente en su capacidad para imitar el razonamiento humano.
La investigación introduce dos nuevas técnicas de “Cadena de Pensamiento” (Chain of Thought, COT), en modelos de IA que tienen la capacidad de razonar de forma imitativa al realizar tareas complejas. La investigación propone el uso del razonamiento extractivo, que dirige al modelo de lenguaje (LLM) a identificar y resaltar los detalles relevantes directamente en el texto, y el razonamiento a nivel de pregunta, que guía al modelo a formular y responder preguntas como lo haría un lector humano.
Los experimentos realizados con modelos de lenguaje (LLM) de última generación demostraron que las técnicas COT propuestas superan ampliamente los métodos tradicionales de extracción.
Marcelo Mendoza, investigador principal de Cenia dice que los resultados de este estudio tienen el potencial “de transformar la forma en que los sistemas automáticos procesan las noticias, facilitando búsquedas más precisas y una mejor organización de la información en la web”.
Nombre estudio: “Imitating Human Reasoning to Extract 5W1H in News”.
Conferencia: ACM Web Conference 2025