Un iPhone atado a un palo. Esa ha sido la rudimentaria estrategia de un equipo de la Universidad de Nueva York para generar datos con los que entrenar a su robot mayordomo. “Dobb-E puede aprender una nueva tarea con sólo cinco minutos viendo a un usuario que le muestra cómo hacerlo, gracias a una herramienta de recopilación de ejemplos (“The Stick” -“El Palo”-) que construimos con piezas de bajo coste y iPhones”, dice la investigación. En los videos de demostración, un usuario sujeta ‘El Palo’ con el teléfono gradándole mientras lleva a cabo distintas tareas domésticas. Después, el robot utiliza esa grabación para aprender a hacerlas por sí solo.
En España tenemos experiencia inventando a base de enganchar cosas a palos, como la fregona y el chupachup. Aun así, lo llamativo de la investigación es su enfoque para generar nuevos datos de entrenamiento para la robótica, cuya materia prima basada en el mundo físico es mucho más escasa y difícil de conseguir que la de cualquier inteligencia artificial (IA) de software puro. Mientras ChatGPT aprende a base de leerse todo el contenido de Internet, los robots dependen de datos del mundo real recopilados físicamente.
Cámaras, micrófonos, altímetros, sensores de presencia y temperatura, giroscopios… cada parámetro del mundo debe ser correctamente medido y etiquetado, un trabajo bastante más complejo que registrar los likes en una foto de Instagram o recopilar los enlaces que pincha cada usuario. La falta de datos de entrenamiento es, de hecho, una de las razones por la que la robótica inteligente avanza mucho más despacio que el resto de la IA y por la que cualquier estrategia para paliarla se vuelve digna de mención.
Antes de Dobb-E, su cocreador Lerrel Pinto ya había sido galardonado como uno de los Innovadores menores de 35 años 2023 de MIT Technology Review por sus distintas ideas para recopilar datos de entrenamiento robótico. “El trabajo de Lerrel es un hito importante en el acercamiento del aprendizaje automático a la robótica. Su investigación actual se recordará por haber sentado muchos de los cimientos del futuro aprendizaje de los robots”, dijo el director profesor de la Universidad de California en Berkeley Pieter Abbeel.
SÚPER MARIO, PROFESOR DE IA
Además de las ingeniosas soluciones de Pinto, la industria de la robótica hace tiempo que dio con otra creativa estrategia para acceder a nuevos datos de entrenamiento: los videojuegos hiperrealistas. “El informático del Centro de Investigaciones Europeo de Xerox en Grenoble Adrien Gaiden recuerda que mientras observaba a alguien jugar al Assassins Creed se dio cuenta de que el paisaje fotorrealista del videojuego podría servir para enseñar a los algoritmos de IA sobre el mundo real”, contaba el mismo medio ya en 2016.
El Grand Thetf Auto también ha sido utilizado en varias investigaciones con coches autónomos gracias a su fiel reflejo de las distintas situaciones que pueden darse en una carretera real (obviando, por supuesto, cualquier comportamiento ilegal). Pero ni siquiera hace falta limitarse a videojuegos para acceder a las ventajas de los entornos virtuales de entrenamiento. En 2019, mucho antes de ChatGPT, OpenAI acaparó titulares cuando consiguió que una mano robótica resolviera un cubo de Rubik con una destreza sorprendente gracias a un entorno virtual en el que la empresa pudo concentrar 100 años de entrenamientos en unos cuantos días del mundo real.
“Forma parte de un movimiento más amplio que consiste en utilizar simulaciones para entrenar a la inteligencia artificial, y que está empezando a despegar”, dijo a The New Scientist en 2016 el entonces investigador de la Universidad Autónoma de Barcelona a Germán Ros, quien actualmente trabaja en entornos simulados para la todopoderosa Nvidia. Ese mismo año, Google lanzó DeepMind Lab, una plataforma de entornos virtuales en código abierto que los usuarios pueden personalizar para llevar a cabo distintos tipos de entrenamientos.
SE ACABÓ LA FIESTA DEL DATO
La robótica ha sido la primera gran industria en padecer los males de la escasez de datos de entrenamiento, pero esta sequía está a punto de convertirse en un desafío para todas las demás. Así lo asegura una investigación que calcula que algunos grandes modelos de inteligencia artificial como los que produce Open AI están a punto de quedarse sin datos de entrenamiento. El texto detalla: “La reserva de datos lingüísticos de baja calidad se agotará entre 2030 y 2050, la de datos lingüísticos de alta calidad, antes de 2026, y la de datos sobre visión, entre 2030 y 2060”.
Cuesta creerlo si tenemos en cuenta que cada segundo que pasa el mundo crea más y más datos cada vez. Basta con ver este gráfico de Statista donde se aprecia claramente cómo la información producida en todo 2023 es casi la misma que la que se generó entre 2018 y 2020, ambos incluidos. Pero, además de cantidad, la IA requiere datos de calidad, correctamente organizados, estructurados y etiquetados. Ahí es donde la cosa se complica.
“La mala calidad de los datos es un obstáculo constante para los casos de uso de mayor valor de la IA. Algunos de los problemas habituales […] son la falta de puntos de datos, sensores averiados o mal calibrados, mapeos o diccionarios de datos incompletos, sistemas incompatibles, limitaciones arquitectónicas, velocidades de acceso lentas y un conocimiento insuficiente de las fuentes existentes”, explica un informe de McKinsey centrado en la industria de la fabricación.
Otra de las estrategias para paliar nuestra creciente sed de datos reside en la fabricarlos de forma artificial, es decir, utilizar a la mismísima IA para que fabrique lo que se conoce como ‘datos sintéticos’. La idea consiste en que, si la inteligencia artificial ha ingerido un montón de imágenes de Getty hasta ser capaz de crear otras inéditas, estas mismas imágenes generadas por máquinas pueden servir de modelo para crear nuevas bases de datos de entrenamiento para otras máquinas, y así hasta el infinito.
¿UN BUCLE INFINITO DE DESINFORMACIÓN…
Si suena complicado es porque lo es, y ni siquiera está exento de riesgos. El principal consiste en que si la IA generativa tiende a los sesgos y a las alucinaciones cuando se entrena con datos reales, ¿qué calidad y veracidad podemos esperar de los conjuntos de datos que ella misma genere a partir de sus propias creaciones?
“Pronto estaremos atrapados en un bucle recursivo en el que entrenaremos modelos de IA utilizando únicamente datos sintéticos producidos por modelos de IA. La mayoría de estos datos estarán contaminados con estereotipos que seguirán amplificando las desigualdades históricas y sociales. Por desgracia, estos serán también los datos que utilizaremos para entrenar modelos generativos aplicados a sectores de gran importancia, como la medicina, la terapia, la educación y el derecho […]. En 2024, la explosión de contenidos de IA generativa que ahora nos parece tan fascinante se convertirá en un vertedero tóxico masivo que volverá para devorarnos”, advierte un reciente artículo de Wired.
Tal vez parezca exagerado, pero, hace menos de medio año, Gartner ya estimaba que en 2024 “el 60% de los datos para la IA serán sintéticos […] frente al 1% en 2021”. Dada la rapidez con la que avanza todo, no sorprende que ya el año pasado NewsGuad alertara de que había detectado “634 webs de noticias e información generados por IA que operan con escasa o nula supervisión humana”.
Esta es la misma razón por la desinformación destaca entre los mayores riesgos a los que la sociedad se enfrenta actualmente, según el reciente Informe de Riesgos Globales 2023 del Foro Económico Mundial. Aunque el organismo atribuye esta amenaza a la producción deliberada de contenidos falsos, también señala que “su impacto se ampliará con el uso más generalizado de la automatización y las tecnologías de aprendizaje automático, desde bots que imitan textos escritos por humanos hasta deepfakes de políticos”.
… O UN SALVAVIDAS SINTÉTICO?
La buena noticia es que no es lo mismo crear datos sintéticos para generar contenido en medios de comunicación que hacerlo para entrenamientos de corte industrial sobre, por ejemplo, el funcionamiento de una central eléctrica. Pero, como adelantaba el informe de McKinsey, estos escenarios también están expuestos a fallos y sesgos presentes en los datos de origen, lo que vuelve a limitar la capacidad de las compañías de acceder a información de calidad.
Aun así, también hay voces que apoyan los datos sintéticos con cada vez más fuerza. “Tenemos que aceptar lo que nos aportan estos modelos, en lugar de mostrarnos escépticos ante ellos. A medida que la gente vea cómo funcionan, empezará a influir en cómo se les da forma y se les entrena y utiliza, y podremos hacerlos más accesibles y útiles para la sociedad”, afirma el especialista en IA del MIT Ali Jahanian.
Hay quien incluso los defiende para áreas tan sensibles como la medicina, como esta investigación liderada por Google. Publicada hace unos meses en la prestigiosa revista Nature, utiliza datos sintéticos para esquivar los problemas de privacidad que plantea el uso de información real de pacientes. “La fidelidad de las historias clínicas electrónicas seguras [el marco propuesto por los investigadores] es casi idéntica a la de los datos reales (<3% de diferencia de precisión para los modelos entrenados con ellos), al tiempo que ofrece un rendimiento casi ideal en las métricas de privacidad”, señala la investigación.
Dado que los datos representan una nueva forma de poder y ante la sequía que se avecina, es lógico que el mundo haya iniciado una carrera de estrategias para poder seguir nutriéndose de ellos. Ya sea con un teléfono atado a un palo o con un sofisticado modelo de generación algorítmica, el mundo de los datos vive su propia revolución en la que cualquier idea es buena, por loca que parezca. Eso sí, que a nadie se le olvide la cuestión más importante: sea cual sea la técnica, debe reflejar fielmente la realidad. De lo contrario, ni iPhone registrador, ni Grand Theft Auto profesor.
Sobre la firma
Periodista tecnológica con base en ciencias. Coordinadora editorial de 'Retina'. Más de 12 años de experiencia en medios nacionales e internacionales como la edición en español de 'MIT Technology Review', 'Público', 'Muy Interesante' y 'El Español'.