¿Es la IA generativa comparable a la imprenta?

Desde la irrupción de ChatGpt en nuestra vida cotidiana, a finales de noviembre de 2022, se han publicado todo tipo de predicciones sobre el futuro que abarcan un gran espectro de perspectivas, desde la euforia tecnológica de Musk hasta el catastrofismo alarmista de Hinton o Harari. En medio de esta tormenta de opiniones, es especialmente interesante la posición de uno de los padrinos de la Inteligencia Artificial (IA), Yann Lecun, por su visión más anclada en la realidad, que dice que estos modelos no son más que herramientas que permiten automatizar tareas repetitivas, igual que lo hizo en el pasado la imprenta. Pero esta comparación no es neutra, el uso de herramientas puede producir grandes cambios socio culturales, como lo hizo la imprenta, a mediados del siglo XV. Su invención resquebrajó estructuras de poder establecidas por la Iglesia desde hacía siglos, favoreció una revolución intelectual en Europa al facilitar la expansión de los postulados de la revolución científica y cambió de forma permanente la arquitectura cerebral de los europeos. Aquí me gustaría tomar el relevo de esta reflexión y ver a dónde nos lleva. Como dijo Mark Twain, la historia no se repite pero rima.

La invención de la imprenta por Gutenberg hacia 1440 permitió la difusión del conocimiento de forma mucho más rápida en Europa. Durante la Edad Media, la única forma de difundir un documento era copiándolo a mano y la transferencia del conocimiento se daba sobre todo de forma oral, con todos los errores de transmisión que esto puede conllevar. La imprenta supone una revolución en este sentido ya que el mismo documento puede ser reproducido cientos o miles de veces. Un claro ejemplo son las 95 tesis que Lutero clava en la puerta de la iglesia de Wittenberg (1517). Las discusiones al respecto llenan panfletos y obtienen respuestas públicas de intelectuales y “creadores de opinión”, pero sobre todo aglutinan a personas con las mismas inquietudes. Las reacciones políticas se propagan y encienden Alemania contra el Papa de Roma. Las consecuencias no se hacen esperar. En 1524, se da la “sublevación de los campesinos” en Alemania que empieza las guerras de religión. La imprenta posibilitó que el conocimiento y la opinión se esparcieran por toda Europa a velocidades aceleradas.

La sociedad del siglo XXI, sin embargo, es diametralmente opuesta en este sentido a la Europa del siglo XVI. Se caracteriza por ser una época hiper conectada gracias a las comunicaciones digitales. Existe una sobreabundancia de texto y contenido que se consume de forma ubicua, en una lucha constante por la atención del individuo. El principal cuello de botella en este momento no es el tiempo de difusión de un contenido sino captar la atención del individuo. Además, en el mundo de la hiper especialización, el ideal del hombre humanista del renacimiento es imposible, por la amplitud de los conocimientos de cada área, lo que produce desconexión entre los conocimientos que se intenta suplir con innumerables iniciativas interdisciplinarias.

En este contexto aparecen lo que se llaman los modelos generativos (chatgpt, deepseek, gemini y compañía). Estos modelos generativos, permiten, como su nombre indica, generar texto de forma probabilista, es decir, a partir de un texto inicial que puede ser una pregunta o un texto a traducir, proponen el texto que sigue más probable. Por ejemplo, después de haber visto muchos textos, dada la secuencia “cuando voy al parque me encanta comer […]” la palabra que sigue, probablemente, no será ‘edificio’ o ‘perro’ sino algo como ‘un bocadillo’ o ‘helado’. Estos modelos infieren conocimiento a partir del contexto, es decir, este conocimiento no está integrado en los propios modelos. Para predecir ‘helado’ yo no tengo porqué saber nada sobre qué es un helado, solo que lo he visto en varias ocasiones ligadas a la palabra “parque” o “comer”. Este mismo proceso se puede hacer a diferentes escalas de texto: predicción de palabras, frases o párrafos.

La gran revolución que suponen estos modelos no es tanto la tarea que pueden realizar sino su capacidad de aprendizaje: pueden integrar todo tipo de textos de cualquier ámbito de conocimiento desde híper especializados hasta totalmente genéricos. A partir de estos conocimientos adquiridos, pueden crear textos con el estilo o tono adecuado según el lector, conectando diferentes mundos a golpe de pregunta.

En este sentido, los modelos generativos podrían, igual que la imprenta, conectar ideas y personas que permanecen desconectados por la hiper especialización, produciendo una explosion en innovación, creatividad y emprendimiento. Pero son un arma de doble filo. Porque estos modelos no tienen conocimientos, sino que generan texto solo teniendo en cuenta el contexto, es decir la pregunta, y cuán probable es una respuesta sobre otra parecida con respecto a esa pregunta. Aunque pueda parecer que están elaborando una respuesta estructurada, un pequeño cambio en el formato de la pregunta puede cambiar radicalmente el contenido de la respuesta y esta respuesta sólo será la respuesta correcta si es la más probable, es decir, la que más aparece en el texto de internet. Su hipersensibilidad a la pregunta les ha dado el nombre de loros estocásticos y es por ello que la OCDE recomienda su uso en entornos bien delimitados y con usuarios con cierto conocimiento de la temática.

Estos modelos tampoco pueden estimar cuán seguros están en su conocimiento, produciendo una sensación de falsa seguridad que puede resultar peligrosa. En este momento, según la revista Harvard Business Review, una de las temática s más usadas es ‘coach de vida’ o psicólogo. Es como tener a un super Sheldon Cooper de Big Bang theory y preguntarle sobre cómo deberías romper con tu novio.

La imprenta transformó el acceso a la información. Al sabio que debía ir de biblioteca en biblioteca para poder consultar los manuscritos, sucedió el humanista que recibía en su editorial del barrio no sólo la edición de aquellos libros de la antigüedad clásica sino también las obras de sus coetáneos. La aparición de la paginación del texto, a fin de facilitar la tarea de la encuadernación, posibilitó la crítica comparada de los textos antiguos o modernos. La posterior incorporación de los grabados permitió representar en forma gráfica los diseños que dotaban de más claridad al texto escrito, facilitando la comunicación científica. La edición de novelas y todo tipo de obra escrita se expande por el continente. Los lugares con imprentas pequeñas y en competición generaba n una mayor variedad de contenidos, especialmente contenidos disidentes, frente a lugares con pocas y grandes editoriales como Colonia. Se hace posible ganarse la vida escribiendo, es decir, aparece la profesión del escritor, así como toda la industria editorial y, en el siglo XVIII, la prensa especializada en creación de opinión, es decir, los medios de comunicación, el cuarto poder de la democracia. Esta industria sigue aportando la mayoría del capital a la industria editorial. Pronto se establece una lista de libros prohibidos a los que la población común no puede tener acceso: obras de Maquiavelo, Copérnico o Dante participaron en estas listas.

Volviendo al siglo XXI, los modelos generativos por sus enormes necesidades en términos de capacidad de cálculo sólo pueden ser creados por empresas o grandes instituciones, limitando el número de entidades que pueden ponerlos a disposición del usuario final. Estos modelos necesitan un proceso de “entrenamiento” con enormes cantidades de datos que requiere de clusters de computación que son máquinas con grandes cantidades de memoria, mucha potencia de cálculo y que consumen grandes cantidades de energía. Hasta tal punto que, por ejemplo, Microsoft ha abierto una central nuclear en los Estados Unidos para proveer de electricidad a sus centros de datos.

Un ejemplo del impacto de tener un número limitado de proveedores de modelos generativos viene por la falta de representación cultural de estos: Estos modelos, al ser entrenados con texto generado por la población mayoritariamente en internet, sus conocimientos y sesgos estarán condicionados por ellos, es decir, van a heredar todos los sesgos de la sociedad (digital) misma. Además, los algoritmos de entrenamiento están definidos de forma que “se converge a la media”, es decir, tienden a aprender los textos/opiniones mas “comunes” o repetidos. Es, en una segunda etapa de ‘refinamiento’, que se controlan y corrigen posibles comportamientos no deseados.

En estos últimos 3 años ha habido diversos escándalos por la “ideología” de estos modelos generativos, desde Grok (modelo generativo de X antiguo Twitter) negando el holocausto, o Gemini (modelo generativo de Google) generando imagenes de nazis negros. Pero hay otros sesgos más sutiles como el sesgo cultural o de género que pueden ser más difíciles de identificar o corregir. Se sabe que la mayoría de modelos generativos tienen un sesgo moral y cultural que representa culturas anglosajonas y protestantes. Si estos modelos se utilizan de forma sistemática para tareas diarias, las culturas locales (no anglosajonas y protestantes) serán invisibilizadas o representadas de forma caricaturesca.

Es en este contexto, que se vuelve de vital importancia la creación de modelos generativos open source, donde sean públicos los datos con los que se entrenan así como los controles que se hacen en la fase de refinamiento. Es también de vital importancia que la creación de estos modelos se generalice y aparezcan una gran diversidad de modelos que representen la heterogeneidad de la sociedad y aseguren su soberanía digital. Es por ello que la Comisión Europea está creando data centers públicos (para dar acceso a la capacidad de cálculo), apoyando empresas open source europeas como HuggingFace o Mistral y creando bases de datos públicas.

Otro gran impacto de la imprenta fue su influencia sobre la estructura de nuestro cerebro. Leer es una actividad que llegó al ser humano hace relativamente poco tiempo, en términos evolutivos, si lo comparamos con la comprensión de escenas naturales, por ejemplo. Esto hace que para poder aprender a leer, necesitemos utilizar partes del cerebro que no están adaptadas específicamente a esta tarea, como por ejemplo la memoria de corto plazo, o el acceso al lenguaje a través de la visión (algo totalmente artificial desde el punto de vista evolutivo). Pero es que además leer textos largos como libros, activa otras partes del cerebro como el pensamiento abstracto o la integración del razonamiento de largo plazo. Se ha demostrado que estas capacidades están menos desarrolladas en personas analfabeta s. La invención de la imprenta y la difusión de textos en lenguas vernáculas en toda Europa extendió la alfabetización hasta hacerla universal en nuestros días y por lo tanto extendió todos estos cambios fisiológicos en el cerebro de los adultos.

El impacto de herramientas de generación de texto en nuestra sociedad aún está por determinar, aunque ya hay instituciones educativas de gran prestigio como MIT Media Lab o L’Ecole Polytechnique (Francia) que están levantando las alarmas. Ioan Roxin, profesor emérito de Polytechnique, señala que la reducción cognitiva que produce el uso de los modelos generativos viene a añadirse al llamado “efecto Google”: no nos esforzamos en retener información que sabemos que podemos encontrar fácilmente, haciendo que las conexiones neuronales se atrofien. Un proceso un poco más sofisticado, pero en esencia el mismo, ocurre con el uso de los modelos generativos. El poco esfuerzo cognitivo que requiere el uso de estas herramientas es visible en las electroencefalografías del cerebro que muestran un descenso de la carga cognitiva del 32% si comparamos la actividad neuronal de una persona escribiendo un texto con genAI contra una persona sin ayuda de genAI. Pero es que no es sorprendente, si sabemos que, por ejemplo, el 83% de los usuarios de modelos de GenAI no pueden reconocer frases de sus propios textos.

El uso acumulado de estas herramientas podría derivar en una deuda cognitiva, es decir, una acumulación del deterioro de las capacidades cognitivas de sus usuarios, que como ya sabemos afecta a muchas partes del cerebro dado que está relacionada con las tareas de lectura y escritura. Pero es que el uso de estas herramientas no solo tiene un impacto individual, sino también colectivo: aunque nos permite “terminar” textos más rápido, a nivel colectivo se generan textos más homogéneos, es decir, perdemos en diversidad intelectual. La invención de la imprenta tuvo consecuencias que se sintieron en los años posteriores pero fue en el largo plazo cuando realmente se pudo apreciar los cambios sociales e intelectuales que produjo. Hace poco mas de 3 años que Chatgpt se puso a disposición de los usuarios. Aunque haya muchas voces de alerta por un lado, y de entusiasmo por otro, las consecuencias serán imprevisibles, especialmente en el medio y largo plazo. Lo que sí está claro es que estas herramientas dejarán su marca tanto en la estructura de nuestro cerebro como en la estructura de nuestra sociedad. Como sea este impacto depende de los límites que le pongamos ahora y a quien vamos a permitir que beneficien.