Los grandes modelos pueden pinchar la bubuja de la IA

La burbuja en torno a la IA podría estar cerca de estallar. Todo el mundo mira los resultados de Nvidia buscando los primeros indicios. Pero la señal relevante quizá esté en otro sitio: Yann LeCun acaba de dejar Meta convencido de que los grandes modelos de lenguaje (LLM) han tocado techo. Si tiene razón, muchos de los supuestos actuales del mercado simplemente se derrumbarán.

El mercado bursátil comienza a dar muestras de nerviosismo. Los inversores buscan cualquier señal que confirme lo que ya sospechan: que la burbuja tecnológica de la IA está a punto de estallar. Quieren ser los primeros en saber cuándo sucederá para reaccionar… pero apurando hasta el último segundo para seguir cosechando ganancias.

Todos los ojos están puestos en Jensen Huang, el CEO de Nvidia, cuyos ingresos se han convertido en el termómetro del sector. Pero en segundo plano, otras figuras dejan pistas reveladoras sobre el estado real de la IA.

Una de ellas es Yann LeCun, el científico francoestadounidense que durante décadas ha marcado el rumbo de los modelos más avanzados de Meta. Recientemente confirmó que dejará su puesto como científico jefe del gigante tecnológico para lanzar su propia start-up. No está claro qué le mueve exactamente.

Durante el último año, Mark Zuckerberg ha ido reuniendo a golpe de talonario un equipo destinado a subir la empresa en la nueva ola de IA. Recientemente hizo un fichaje millonario y colocó al joven Alexandr Wang, de 28 años, al frente del nuevo grupo de «superinteligencia». Pretender que Yann LeCun, 65, le rindiera cuentas quizá era pedir demasiado.

Pero lo verdaderamente interesante no es por qué se va, sino lo que planea hacer ahora. En los últimos tres años, casi todo el desarrollo de la IA ha girado alrededor de un mismo dogma: los grandes modelos de lenguaje, con ChatGPT a la cabeza. LeCun cree que estos modelos son muy útiles, pero duda que se pueda avanzar mucho más por esa vía. Considera que los LLM han chocado con una pared.

Por eso su nuevo proyecto se basará en algo distinto, los llamados «modelos del mundo«. Es decir, modelos que intentan incorporar la complejidad de cómo las personas interactuamos con el entorno físico que nos rodea.

Pensemos en un ejemplo sencillo. Imaginemos que quisiéramos construir un doble, un clon o, si se prefiere, una réplica nuestra para que ocupe nuestro lugar en la oficina. Con el enfoque dominante hoy, registraríamos meses de conversaciones, transcribiendo cada frase para alimentar un sistema que aprenda a imitarnos. Esa es, en esencia, la lógica de un LLM: absorber enormes volúmenes de texto, detectar patrones lingüísticos y generar respuestas plausibles.

El supuesto implícito de los LLM es que el lenguaje es suficiente para modelar la realidad. Pero un doble construido solo a partir de palabras es, al final, inevitablemente incompleto.

Si queremos que realmente nos sustituya, necesitamos algo más. Necesitamos añadir contexto a las interacciones: ¿respetamos una distancia social con el interlocutor o es una conversación más íntima?, ¿contradicen los gestos lo que decimos? En definitiva, qué señales sociales acompañan cada conversación. Cuando incorporamos esa información proxémica (la forma en que usamos el espacio personal), entramos en los modelos del mundo. Ahí es donde la réplica empieza a parecerse, de verdad, a nosotros.

Hasta ahora, la aguja capaz de estallar la burbuja ha estado más del lado de la demanda: que las empresas no fueran capaces de acomodar esta tecnología, de sacar todo el partido. Pero la iniciativa de LeCun apunta a otro lado: quizá la pared con la que chocan los LLM no se pueda salvar con más capital y más GPUs.

No está solo en su escepticismo. IBM trabaja en IA neurosimbólica, que combina el aprendizaje estadístico con reglas lógicas explícitas. Y Fei-Fei Li, la llamada «madrina de la IA», desarrolla su propia versión de modelo del mundo, centrada en la «inteligencia espacial»: máquinas capaces de moverse y manipular objetos en entornos tridimensionales.

A la variedad de enfoques para construir los modelos se suma la idea de si se debe hacer de forma más o menos disruptiva. Por ejemplo, Google DeepMind cree que utilizando suficientes datos multimodales (sonidos, vídeo o simulaciones 3D) un modelo del mundo emergerá espontáneamente. LeCun, por su parte, cree que hace falta una arquitectura completamente nueva, no generativa.

Al final, nadie parece ponerse de acuerdo en los detalles sobre qué debe representar exactamente el modelo o cómo construirlo. Donde sí hay consenso es que para seguir avanzando se va a necesitar pasar de modelos de lenguaje a modelos del mundo. Esto obliga a replantear muchos de los supuestos actuales. Eso sí, quienes buscan la señal de cambio en los ingresos de Nvidia quizá estén mirando el lugar equivocado: habrá un movimiento tectónico en el mercado, pero Huang seguirá vendiendo sus chips.