Artículo original – Instituto Milenio Fundamento de los Datos Un clasificador de texto basado en redes neuronales profundas que permite ayudar a categorizar automáticamente diferentes tipos de artículos médicos, y a gran escala: del orden de miles a cientos de miles. En esto trabajó Andrés Carvallo, alumno de doctorado del Departamento de Ciencia de la Computación (DCC) de la U. Católica, financiado por el Instituto Milenio Fundamentos de los Datos (IMFD), y bajo la supervisión de su tutor Denis Parra, profesor asociado del DCC UC e investigador adjunto del IMFD. Este desarrollo, que consiste en un sistema de inteligencia artificial (IA), será incorporado a la plataforma de Fundación Epistemonikos, organización que trabaja en medicina basada en evidencia. “Esta tarea es vital para el trabajo que hace la fundación, especialmente en el contexto actual de la pandemia por COVID-19. Con este sistema podrán revisar con mayor rapidez y efectividad qué dice la ciencia en relación a formas de contagio, síntomas, tratamientos y diferentes aspectos de la enfermedad”, explica Denis Parra. El investigador explica que esta tarea “se ha vuelto muy agobiante debido al diluvio de artículos científicos durante los últimos meses, que reportan investigaciones en esta área”. De hecho, un reciente artículo de la revista Science (Scientists are drowning in COVID-19 papers. Can new tools keep them afloat?) indica que se trata de un problema a nivel mundial y que se espera que las herramientas de IA ayuden en este desafío. El trabajo colaborativo también ha sido clave, añade Parra: “La participación del equipo de Epistemonikos, encabezado por el doctor Gabriel Rada, junto a los ingenieros Daniel Pérez, Juan Ignacio Vásquez y Camilo Vergara, ha sido fundamental en este resultado”. La siguiente imagen muestra el resultado del sistema de clasificación automática de documentos. “Este es capaz de separar automáticamente los diferentes tipos de documentos -estudios primarios, revisiones sistemáticas y otros, según colores- con gran precisión y mejorando por un importante margen el rendimiento del modelo actual”, señala el profesor del DCC UC. El arte de la clasificación de documentos El método de clasificación desarrollado por Andrés Carvallo y Denis Parra tiene como entrada un artículo médico, y como salida “la probabilidad del tipo de documento médico”, dice Parra, quien ejemplifica con algunos tipos de salida como “revisión sistemática, estudio primario aleatorizado, síntesis amplia, estudio primario no aleatorizado, y excluido”. El sistema creado “representa el texto de entrada, es decir, título y resumen de los artículos médicos, usando un modelo reciente de representación de texto llamado XLNet. La representación de XLNet es usada luego como entrada a un modelo de clasificación tradicional”, detalla Andrés Carvallo. Parra destaca que este modelo ha funcionado mejor que otros modelos de estado del arte recientes, como BERT. La razón, explica, es que “XLNet es capaz de procesar textos mucho más largos de entrada, mientras que BERT obliga a limitar la cantidad de palabras de entrada del modelo”. Estos insights, señala el académico, “provienen de la colaboración con otros investigadores del IMFD como Jorge Pérez, Álvaro Soto, Hans Lobel y Marcelo Mendoza, con quienes nos juntamos semanalmente para revisar y discutir los últimos artículos del área, así como nuestra propia investigación”. Estos investigadores son parte del proyecto emblemático Inteligencia artificial con explicación, del IMFD. La colaboración de los investigadores con Fundación Epistemonikos data de 2017. Inicialmente desarrollaron investigación conjunta en un sistema que permite encontrar automáticamente artículos con respuestas a preguntas médicas, utilizando de la forma más eficiente posible la expertise de médicos para etiquetar documentos, con técnicas de aprendizaje automático (ML en inglés) como relevance feedback y posteriormente active learning. A diferencia del aprendizaje supervisado tradicional en ML que requiere una gran base de datos con preguntas y documentos ya etiquetada, tanto relevance feedback como active learning son técnicas que utilizan de forma incremental e interactiva el conocimiento de expertos -médicos especialistas- de forma de “ahorrarles trabajo” para alimentar y entrenar estos sistemas de IA/ML. Andrés Carvallo es estudiante de Doctorado en Ingeniería, con mención en Ciencia de la Computación en la U. Católica. Sus áreas de interés son la recuperación de información, minería de texto, sistemas recomendadores y desarrollo de algoritmos de aprendizaje de máquina, con explicaciones visuales. Su proyecto de tesis se relaciona con la revisión automática y explicable de papers médicos para mejorar la eficiencia en la práctica de medicina basada en la evidencia. En la actualidad forma parte de laboratorios de investigación IALab UC -el laboratorio de IA del DCC de la U. Católica-, y SocVis -Social Computing & Visualization Group– de la misma universidad. Si quieres conocer más sobre el trabajo de Parra y Carvallo en Active Learning, revisa este enlace: Enlace: Automatic document screening of medical literature using word and text embeddings in an active learning setting