ACM Web Conference 2025: Marcelo Mendoza presenta método de IA que mejora extracción de información en noticias
Nombre estudio: “Imitating Human Reasoning to Extract 5W1H in News”. Fue precisamente en Sídney, Australia, donde Marcelo Mendoza, académico DCC UC e investigador principal de CENIA e investigador asociado de IMFD, expuso dos nuevas técnicas para que modelos de lenguaje como GPT-4o, Claude y Gemini extraigan datos clave de noticias y formulen preguntas y respuestas como un lector humano. El estudio fue desarrollado enconjunto a: Hans Löbel, profesor de vacante compartida DCC – Transporte UC e investigador CENIA, Brian Keith de la Universidad Católica del Norte y el estudiante de doctorado Carlos Muñoz. Pensando en un escenario periodístico, extraer información clave de los artículos periodísticos -organizada en torno a las preguntas “Quién”, “Qué”, “Cuándo”, “Dónde”, “Por qué” y “Cómo” (5W1H)- ha sido una estrategia fundamental en el periodismo digital para potenciar los sistemas de búsqueda. Con el auge de los grandes modelos de lenguaje (LLM) —como GPT (OpenAI), Gemini (Google) o Claude (Anthropic), entre otros— ha surgido un renovado interés en su potencial para realizar de manera más efectiva tareas de extracción de información. Marcelo Mendoza, presentó en The ACM Web Conference 2025, una investigación titulada “Imitating Human Reasoning to Extract 5W1H in News”, la cual se realizó desde el 28 de abril al 2 de mayo en Sidney, Australia. La investigación propone un enfoque que busca mejorar la extracción automática de información en enunciados periodísticos (5W1H), empleando modelos de lenguaje y enfocándose particularmente en su capacidad para imitar el razonamiento humano. La investigación introduce dos nuevas técnicas de “Cadena de Pensamiento” (Chain of Thought, COT), en modelos de IA que tienen la capacidad de razonar de forma imitativa al realizar tareas complejas. La investigación propone el uso del razonamiento extractivo, que dirige al modelo de lenguaje (LLM) a identificar y resaltar los detalles relevantes directamente en el texto, y el razonamiento a nivel de pregunta, que guía al modelo a formular y responder preguntas como lo haría un lector humano. Los experimentos realizados con modelos de lenguaje (LLM) de última generación demostraron que las técnicas COT propuestas superan ampliamente los métodos tradicionales de extracción. Según las declaraciones del académico Marcelo Mendoza en el portal del Centro Nacional de Inteligencia Artificial, declara: “los resultados de este estudio tienen el potencial de transformar la forma en que los sistemas automáticos procesan las noticias, facilitando búsquedas más precisas y una mejor organización de la información en la web”. Fuente de información: https://cenia.cl/2025/04/29/investigador-de-cenia-presenta-en-the-acm-web-conference-2025-metodo-de-ia-que-mejora-extraccion-de-informacion-en-noticias/