Estudiante de doctorado DCC trabaja en modelos de IA para el diagnóstico temprano de metástasis - Departamento de Ciencia de la Computación

Diego Bustamante es estudiante de doctorado del Departamento de Ciencia de la Computación de la Pontificia Universidad Católica de Chile y del Instituto Milenio de Fundamentos de los Datos (IMFD). Actualmente se encuentra trabajando en una investigación que tiene como objetivo desarrollar herramientas con ayuda de la inteligencia artificial que permitan predecir, desde el momento del diagnóstico, si una paciente con cáncer de mama desarrollará metástasis. En base a esto señaló: “La idea de las herramientas que estamos desarrollando es ayudar a los patólogos y a los oncólogos a generar esta etapa en el diagnóstico de las personas”

La motivación detrás de su investigación parte de una realidad clínica: “Para mí es muy importante ya que como contexto más de 10 millones de personas fallecen anualmente por cáncer en el mundo, y la gran mayoría lo hace no a causa del tumor original, sino de sus metástasis. Entonces es súper importante que este diagnóstico se pueda realizar porque mejora la calidad de vida de los pacientes.”

A pesar de ello, hoy no existe ningún examen, ni genético ni de otro tipo, que permita estimar esa probabilidad con base científica. Por esta razón el estudiante trabaja precisamente para atender este problema.

Para lograrlo, desarrolla dos líneas de investigación en paralelo. La primera es un modelo de predicción de interacciones proteína-proteína (PPI) que, a partir únicamente de secuencias de aminoácidos, estima si dos proteínas interactuarán entre sí. Comprender esas interacciones permite mapear los procesos bioquímicos que ocurren al interior de las células y detectar cómo se alteran en enfermedades como el cáncer.

La segunda línea trabaja sobre muestras de tejido tumoral de mama en donde a partir de datos de expresión génica de todo el tejido, Diego desarrolla métodos para separar esa información según tipo celular: tumor, fibroblastos, otras poblaciones del microambiente y así identificar señales que indiquen si el tumor tenderá a contenerse o a diseminarse.

Para entrenar estos modelos, Diego Bustamante utiliza dos fuentes de datos. Una es una base de datos pública con millones de secuencias de proteínas anonimizadas. La otra proviene de Environ , que aporta información genética de pacientes que tuvieron cáncer de mama, en donde ya tienen una corte retrospectivas y prospectivas, aprobadas por un comité de ética y con consentimiento informado de las participantes.

“Entonces, desde ese punto de vista, los datos ya están pensados con el consentimiento de los pacientes; a mí me llegan anonimizados y, de hecho, ya se han realizado tesis doctorales basadas en esos estudios. Eso es lo que nos llega a nosotros y lo procesamos para entrenar estos modelos” señala Diego Bustamante.

Fuente: Instituto Milenio Fundamentos de los Datos