Jocelyn Dunstan, académica del Departamento de Ciencia de la Computación UC y del Instituto de Ingeniería Matemática y Computacional UC e investigadora del Instituto Fundamentos de los datos, conversó recientemente con Cooperativa Ciencia sobre los avances en la inclusión cultural en los modelos de lenguaje. La entrevista se centró en un significativo encuentro realizado en febrero de este año, donde investigadores de 28 países se unieron con el objetivo de aumentar la diversidad cultural en los modelos de inteligencia artificial, una iniciativa crucial para corregir la sobre representación del norte global en estas tecnologías.
La académica e investigadora, destacó que muchos modelos de lenguaje actuales tienden a estar sesgados hacia las culturas del norte global, lo que resulta en fallos al interpretar realidades de otras partes del mundo. Un ejemplo citado por la académica fue el de un modelo incapaz de reconocer un matrimonio en un contexto asiático, simplemente porque no se ajustaba al estereotipo del vestido blanco de boda occidental. Este tipo de limitación subraya la necesidad de entrenar los modelos con una mayor variedad de representaciones culturales.
En este proceso, Jocelyn y la periodista Paula Silva, quienes representaron a Chile, participaron activamente en la creación de preguntas y respuestas que diversificaron los conocimientos utilizados para alimentar estos modelos. Un ejemplo ilustrativo fue la foto de una minga en Chiloé, una tradición local en la que se traslada una casa con la colaboración de vecinos y amigos. El desafío consistió en formular preguntas y respuestas que, sin ser demasiado obvias, permitieran que quienes conocieran la cultura chilena pudieran reconocer la situación. “La pregunta era: ¿Qué están haciendo las personas con la casa?”, con respuestas que incluían: “Trasladarla”, “Lavarla” y “Botarla al mar”.
El resultado de este trabajo colaborativo es un paper con 9.000 preguntas y respuestas diseñadas para ampliar la representatividad de diversas regiones del mundo, como África, Asia y Latinoamérica, en los modelos de lenguaje. Las categorías utilizadas para alimentar estos modelos fueron diversas, abarcando temas como historia y arte, vestimenta, cocina, deportes, plantas, vehículos, entre otros.
“Este paper propone una nueva manera de crear bases de datos para la Inteligencia Artificial”, aseguró Dunstan, quien también destacó la importancia del enfoque multimodal del trabajo, donde los modelos de lenguaje aprenden tanto de imágenes como de texto. Aunque el paper se publicará oficialmente en una conferencia en diciembre, hasta el momento se han evaluado 14 modelos que intentan responder las preguntas del dataset, generando un entorno de competencia interesante y promoviendo una mayor equidad en el uso de imágenes y datos del sur global.
“Es muy interesante generar la conversación y la competencia en un dataset diverso. Eso ya es tremendo. Es como aparecer en el mapa, en especial para Asia, África y Latinoamérica, que usualmente no están representados en estos contextos. Esto hace que las imágenes del sur global empiecen a ser utilizadas, algo que no teníamos antes”, concluyó Dunstan.