Perdidos en la traducción. El español contra sesgos, bulos e injusticias

La onmipresencia del inglés en ciencia y tecnología limita el acceso al conocimiento y a las herramientas de IA para los ciudadanos de cualquier otro idioma. Fomentar el uso de todas las lenguas cooficiales en la innovación resulta imprescindible para no dejar a nadie atrás e impulsar la riqueza económica y cultural del país, como explicaron los expertos reunidos en el encuentro temático organizado por ‘Retina’.

Ya sabemos qué pasa cuando los grandes avances del mundo se dejan en manos de un puñado de hombres blancos y ricos. Lo hemos aprendido a la fuerza. La falta de diversidad en los equipos de desarrollo de tecnologías tan trascendentales como la inteligencia artificial (IA) suele traducirse en productos tan cortos de miras como las homogéneas miradas de sus creadores. Ahora bien, ¿nos hemos preguntado alguna vez qué pasa cuando los desarrolladores hablan todos en inglés o cuando esta lengua es la materia prima dominante en el entrenamiento de los sistemas de lenguaje natural y con la que se produce la mayor parte de la ciencia y la tecnología del mundo?

La lengua desempeña un papel transversal y tractor en innumerables actividades económicas”, advirtió la comisionada especial para la Alianza por la Nueva Economía de la Lengua Cristina Gallach, durante el encuentro El español como idioma de la ciencia y la tecnología, organizado por Retina con el apoyo de Santander y Telefónica, y patrocinado por Google y Cepsa. Los distintos expertos dejaron claro que el hecho de que los anglicismos nos invadan tiene consecuencias mucho más allá del hype.

¿Quién no usa un traductor? ¿Quién no usa un sistema de búsquedas? ¿Quién no habla con un chatbot?”, preguntó la lingüista computacional y coordinadora de los proyectos de Procesamiento de Lenguaje Natural del Instituto de Ingeniería del conocimiento, Marta Guerrero. Y añadió: “Estamos rodeados de inteligencia artificial, nos comunicamos con máquinas constantemente, por eso es muy importante que la IA también se desarrolle en nuestra lengua y en las cooficiales. El inglés no puede ser el único idioma de esta carrera”.

El dominio absoluto de la lengua de Shakespeare a la hora de crear sistemas de inteligencia artificial ha provocado, por ejemplo, que los sistemas automáticos de moderación de contenido en redes sociales funcionen peor en cualquier otro idioma. ¿Recuerda los enormes problemas de desinformación sanitaria asociados a la pandemia de coronavirus? Pues mientras que los algoritmos de detección lograban filtrar a duras penas los bulos en inglés, los usuarios nativos de cualquier otro idioma se vieron expuestos a mayores tasas de noticias falsas y mentiras a causa de los rendimientos más pobres de la IA en sus correspondientes lenguas.

MUJER = ENFERMERA

Pero los problemas de la falta de profundidad idiomática de la IA no acaban aquí. “El ejemplo más claro de la importancia de la ética en el lenguaje son los sesgos, especialmente en las profesiones. La mayoría de los traductores dicen que las mujeres son enfermeras y los médicos son hombres. En Google Translate esto ya está casi solucionado, pero si no se consigue en todos los chatbots estaremos propagando estos sesgos hacia el futuro”, dijo el responsable de Estrategia de IA y Datos de Telefónica, Richard Benjamins.

Además de la falta de diversidad de los desarrolladores, estos sesgos también suelen aparecer porque los datos de entrenamiento reflejan algunas desigualdades inherentes a la propia sociedad. Guerrero explicó: “Los corpus suelen estar compuestos por datos del pasado con los que hacemos predicción a futuro, y esos datos tienen toda nuestra idiosincrasia cultural de nuestra realidad pasada, para bien y para mal. Entonces hay cosas que proyectamos a futuro que no deberían estar ahí, como los sesgos de género y de posición económica”.

Afortunadamente, el propio gigante de las búsquedas, cuya actividad principal se produce en inglés, hace tiempo que es consciente de la urgencia de promover el español en el avance tecnológico. “La IA es un vector tecnológico de futuro y por eso, ahora que le estamos dando forma y entendiendo sus criterios éticos, es importantísimo que no solo se haga en inglés y en chino”, confirmó el director de Relaciones Institucionales y Políticas Públicas de Google para España y Portugal, Miguel Escassi.

A medida que depositamos cada vez más confianza en las máquinas, tendemos a cuestionar cada vez menos la ayuda que nos proporcionan, lo que puede convertirse en un riesgo cuando los asistentes no funcionan a la perfección. Por eso, además de “promover el uso de la lengua española de los productos y servicios de la empresa en mercados hispanohablantes”, explicó que uno de los principales esfuerzos de la compañía en materia idiomática consiste en “fomentar el correcto uso del español entre las nuevas generaciones a través de sus dispositivos móviles”.

Si los correctores y sistemas de sugerencias de texto no se adhieren al uso correcto de la lengua, los errores gramaticales irán permeando igual que calaron las odiosas abreviaturas que tan populares se volvieron y tanto daño lingüístico hicieron en la era de los SMS. Tres décadas después de que se enviara el primero, sus efectos en el idioma todavía se sienten en la ausencia generalizada de exclamaciones e interrogaciones al inicio de las frases y en acortamientos como “TQM”, carentes de todo sentido ahora que los sistemas de mensajería no imponen límites de extensión.

“El uso del español está dominado por herramientas que usamos todos, como Microsoft Office y Google Docs. Necesitamos que estas herramientas para escribir basadas en IA funcionen correctamente y nos corrijan bien”, advirtió Benjamins. Afortunadamente tanto Telefónica como Google y otros gigantes del sector hace tiempo que se pusieron las pilas, y ya participan en proyectos como LEIA, impulsado por la Real Academia Española y cuyo “fin principal es cuidar el uso de un correcto español en los medios tecnológicos”.

GRAZAS, PARABENS, ESKERRIK ASKO

Proteger el idioma de Cervantes ante los desmanes de las máquinas no es lo único importante en cuestiones de IA lingüísticas. También hemos visto qué pasa cuando la innovación avanza sin prestar atención a las necesidades de determinados colectivos. ¿Recuerda la sonora protesta que protagonizó la tercera edad española contra la feroz digitalización de las entidades bancarias que se saldó con usuarios incapaces de realizar sus trámites? Pues el riesgo es exactamente el mismo si los sistemas de lenguaje automático no funcionan en todas las lenguas cooficiales del Estado español.

Si los chatbots se convierten en la principal vía de interacción con todo tipo de servicios, resulta imprescindible que sean capaces de entendernos a todos, hablemos el idioma que hablemos. “Una persona mayor en Cataluña o Galicia que pida por teléfono una asistencia en su lengua materna necesita que la máquina la sepa responder en esa lengua. Por eso también es básico desarrollar esas capacidades en las lenguas cooficiales”, detalló Gallach.

Ese es precisamente uno de los cinco ejes estratégicos del PERTE Nueva economía de la lengua en el que ella participa. “La conexión con máquinas se hace oralmente, lo que nos obliga a activar el corpus de la lengua como petróleo para propiciar que la tecnología aporte mejoras a nuestra vida”, señaló. Además de garantizar que las herramientas de inteligencia artificial nos entiendan a todos, su dominio de los distintos idiomas también puede traducirse en beneficios directos para la humanidad.

Prueba de ello es el proyecto de inteligencia artificial lingüística de la empresa española Saturno Labs, diseñada para detectar las emociones en el habla de los pacientes oncológicos. “Identificar su estado anímico a través de sus voces permite apoyarles psicológicamente e incluso cambiar el tratamiento. Ese es el poder de la lengua y las lenguas cooficiales, por eso la mirada del PERTE es multilingüe”, sentenció Gallach.

Gracias a esta mirada abierta, la riqueza cultural del territorio español también toma la forma de producciones nacionales con cada vez más proyección internacional. “La vuelta a la normalidad tras la pandemia ha puesto de manifiesto el enorme mercado de festivales de España y Latinoamérica. En el pasado, la difusión musical estuvo liderada por EEUU y Reino Unido, pero ahora esas fronteras y barreras culturales y sociales se están rompiendo, como demuestra el triunfo de géneros que no estaban bien vistos y eran considerados menores, como el trap, la bachata y el reguetón”, detalló la directora de Primavera Sound Madrid, Almudena Heredero.

Que Rosalía y Bad Bunny lleven años figurando entre los principales artistas a nivel mundial demuestra que “no se trata de un fenómeno efímero”, añadió. Y, por si fuera poco, el sector audiovisual nacional también vive su particular momento dorado con “platós de calidad internacional en varias de nuestras ciudades”, explicó el secretario general de DEV, Antonio Fernández.

Eso sí, en lo que concierte a su principal área de experiencia, la de los videojuegos, el responsable sí lamentó que, “a pesar de que el 50% del sector se concentra alrededor de Barcelona, todavía no se producen títulos en catalán”. Y sentenció: “La lengua en el videojuego aún tiene que evolucionar porque la industria tiene el prejuicio de producir en inglés. Todavía estamos luchando para romper este techo de cristal”.

CIENCIA CON Ñ

Queda claro que el inglés sigue siendo el idioma por excelencia. Pero ni siquiera su dominio en los avances científicos a nivel global garantiza que las herramientas de IA angloparlantes funcionen correctamente. A mediados de noviembre Meta se vio obligada a clausurar su modelo de lenguaje Galactica solo tres días después de su lanzamiento. Diseñado para ayudar a los investigadores a navegar por el inmenso océano de la literatura científica, los primeros usuarios no tardaron en darse cuenta de que los resultados del algoritmo contenían tanto investigaciones de alta calidad como artículos totalmente inventados sobre fantasías tales como osos viviendo en el espacio.

Si la ciencia ya es difícil de comprender para aquellos ajenos al campo, imagínese el potencial drama de llenar el mundo de herramientas que directamente se la inventan. Hace un tiempo quizá no hubiera hecho falta que la gente tuviera educación científica para saber que ningún oso ha vivido jamás en el espacio. Pero, dado que cada vez hay más personas que creen que la Tierra es plana y que la llegada del hombre a la Luna fue un montaje, “los centros de investigación tienen que esforzarse para que los resultados lleguen a la sociedad de forma comprensible, pero también rigurosa”, explicó la directora del CNIO, María Blasco.

Esto es especialmente importante si se tiene en cuenta que “el 99% de las publicaciones de ciencias experimentales están en inglés y, además, resultan incomprensibles para los ciudadanos”, advirtió la científica. Y añadió: “Tenemos que contársela porque es la única forma de que tengan información fidedigna y evitar las verdades a medias y los conceptos erróneos. O, como resumió coordinadora de la PTI País, Elea Giménez, “necesitamos potenciar todas las lenguas para llevar los resultados a la sociedad”.

Ya no es una mera cuestión de sesgos. La debilidad del español en el panorama internacional no solo es un lastre para nuestra riqueza económica y cultural, sino que amenaza con crear una sociedad mucho más vulnerable a la desinformación y con menor capacidad de acceder a las últimas innovaciones. Estas deberían ser razones suficientes para perseguir la promoción del español y sus lenguas cooficiales en todos los ámbitos de desarrollo económico. Pero, si sigue sin verlo así, al menos, apóyelas para que algún día podamos dejar de decir esa frase que últimamente oímos y decimos tanto, y que recordó el escritor, periodista y miembro de la Academia Colombiana de la lengua, Alex Grijelmo, de “perdona, ha sido el puto corrector”.

Sobre la firma

Marta del Amo

Periodista tecnológica con base en ciencias. Coordinadora editorial de 'Retina'. Más de 12 años de experiencia en medios nacionales e internacionales como la edición en español de 'MIT Technology Review', 'Público', 'Muy Interesante' y 'El Español'.

Más Información