La académica del Departamento de Ciencia de la Computación y del Instituto de Matemática Computacional UC e investigadora IMFD, Jocelyn Dunstan junto a la académica Luciana Benotti de la Universidad Nacional de Córdoba, hablaron con el medio español “El País” para explicar la importancia de que hayan IAs propias en español.
En un contexto en donde los modelos de inteligencia artificial más conocidos, como ChatGPT, reflejan los valores de un “hombre blanco, de unos treinta años, que fue a la universidad y de la costa oeste de EE.UU”, según expresa Luciana Benotti, es urgente que los hispanohablantes desarrollen sus propios modelos de lenguaje. Este enfoque, expuesto por las académicas Jocelyn Dunstan y Luciana Benotti, resalta la importancia de contar con IAs que representen y comprendan adecuadamente la diversidad cultural y lingüistica del mundo hispano.
Las brechas y sesgos en la actualidad en estas IAs están presentes, ya que los modelos son entrenados con grandes volúmenes de datos viejos de internet, lo que a menudo refuerza estereotipos y sesgos persistentes en el tiempo, por esto es importante mitigar estos sesgos que pueden tener efectos perjudiciales en las representaciones culturales y sociales de cualquier país.
La académica e investigadora, Jocelyn Dunstan, recalca que: “Hay una enorme brecha entre la cantidad de recursos y modelos de lenguaje para el ingés y para el español. Apoyarnos como países hispanohablantes nos ayudará a avanzar más rápido”.
El panorama actual también refleja una sub-representación del español en comparación con el inglés, ya que de hecho según destaca Jocelyn Dunstan: “La RAE recoge el 80% de palabras de España y el 20% de Latinoamérica, es decir, estamos subrepresentados”, un hecho que afecta la precisión y adaptabilidad de los modelos de IA para los hablantes de español.
Para poder avanzar en esta problemática, el Gobierno de España anunció el proyecto de modelo de lenguaje Alia, en donde al menos un 20% del total de los textos con los que se le entrene será con lenguas habladas en dicho país, mientras que ChatGPT y sus competidores no alcanzan el 5% en español. Esto tiene como objetivo que la fiabilidad sea mayor para los hispanohablantes, ya que se corregirán sesgos y el uso del género masculino y femenino que es distinto en español a como es en inglés.
Por otra parte en el Centro Nacional de Inteligencia Artificial (Cenia) también está trabajando en un modelo de lenguaje de latinoamericanos para latinoamericanos, llamado hasta el momento “LLM latino”, el cual tiene un objetivo similar a Alia, sin embargo la capacidad de computación es menor y es más centrado en la región.
Jocelyn Dunstan enfatiza una vez más: “cuando un artículo de Procesamiento del Lenguaje Natural trabaja solo con el español es muy difícil que sea aceptado en una conferencia de primer nivel. Se espera que sea un estudio multilingüe y que incluya inglés, italiano, francés y otros.”
En resumen, tanto Luciana Benotti como Jocelyn Dunstan abogan por IAs con un enfoque más diverso, inclusivo y representativo, donde la importancia esté centrada en la creación de modelos específicos para español y sus variantes regionales, siendo una toma de decisión crucial para mejorar la precisión de estas herramientas en el mundo hispanohablante y entender sus contextos de forma socio-técnica.