Todo está preparado para que así sea. Para que este año afloren a las redes sociales —que será donde primero tengan cabida— un creciente número de vídeos generados con IA. El escenario es el propicio. Ya existían herramientas generadoras de contenido audiovisual artificial, como Runway o Pika, pero los grandes actores aún no habían entrado en el mercado.
Los grandes habían retenido, muy probablemente, sus aplicaciones a la espera de que pasaran las elecciones de Estados Unidos. Un contexto político erizado como el de la pasada campaña electoral constituía un caldo de cultivo ideal para la desinformación. Y muy probablemente, los grandes temían los trastornos que la generación de vídeo con IA podría causar en este ámbito. Nadie quiere cargar con esa culpa si la cosa se desmadra. Y menos con las consecuencias legales. En la industria tecnológica aún está fresco el escándalo por manipulación política de Cambridge Analytica en la plataforma de Facebook. Tras embarrar a la compañía durante casi cinco años de juicios, Meta cerró el caso con el pago de 725 millones de dólares.
OpenAI dio un aperitivo de Sora en febrero de 2024. Y con lo rápido que ha ido la carrera por la IA en otros ámbitos, cabría esperar que Google tuviera lista al menos una primera versión de Veo meses antes de su lanzamiento. Desde luego le habrá venido bien esperar a lanzar el servicio. Lo mismo que a OpenAI. Ambos han tenido tiempo de pulir sus modelos y hacer más pruebas. Un lujo en medio la vorágine de premura en que andan envueltas las dos. Con todo, la coincidencia es que pasado apenas un mes de la cita electoral estadounidense, los dos grandes lanzaron sus generadores de vídeo artificial.
Por ahora hablamos de vídeos cortos. Sora permite la generación de clips de 20 segundos y Google Veo 2 alcanza los dos minutos. Aún hay restricciones firmes. OpenAI solo deja usar su herramienta a los usuarios de pago, mientras que su rival ha abierto una lista de espera para quienes quieren utilizar la aplicación. Ninguno de los dos servicios está disponible en la Unión Europea, de momento. Entre otras cosas, debido a posibles fricciones con el RGPD.
Se espera que estas herramientas sean útiles en la industria cinematográfica, en el sector del marketing o en el educativo. Esto son solo algunos de los campos donde se prevé un impacto de la generación de vídeo artificial. La idea es que estas aplicaciones ahorren tiempo y dinero, en la tónica del resto de sistemas de IA generativa (generación de texto, imágenes o código informático).
Los creadores de contenido podrán enriquecer sus vídeos con imágenes artificiales, incluso hacer una producción completa generada con IA. Esto mismo se puede aplicar a campañas promocionales y a la publicidad. Realizar un vídeo explicativo, para formar a unos empleados sobre un determinado aspecto de una empresa, también será mucho más sencillo.
Google y OpenAI solo son la punta de lanza más visible. Pero hay otras compañías con servicios de generación de vídeo y todas van a la carrera. En seis meses, Runway ha actualizado su modelo, Amazon Ads lanzó su herramienta de vídeo generativo para crear anuncios, ha aparecido Pika 2.0 y el gigante chino Tencent ha lanzado en abierto su plataforma Hunyuan Video (se puede probar de forma gratuita y descargarlo, si tienes servidores con potencia suficiente para ejecutarlo).
A esto se suman las herramientas de corrección de vídeo mediante IA generativa, como la de Meta, cuyo lanzamiento se prevé este año en Instagram. Con ella se podrá alterar “casi cualquier aspecto” de un contenido audiovisual con una simple instrucción en texto. Se podrá cambiar la ropa de una persona, añadirle complementos como joyas, modificar el fondo, colocarla en otro lugar o introducir elementos nuevos. No resultará extraño ver las redes sociales inundarse con vídeos trufados de forma artificial o directamente generados con IA.
Un paper reseñado en un portal de la Universidad de Harvard apuntaba que los adultos de Estados Unidos que usan IA generativa crecieron hasta un 39,4% del total en apenas dos años. Se partía desde cero. Con este crecimiento de vértigo a la hora de generar texto e imágenes, es de suponer que el vídeo seguirá el mismo camino.
Las dudas
Aunque los generadores de vídeo artificial presentan algunos problemas. Para empezar, el rendimiento dista mucho de ser óptimo. En algunas imágenes generadas con Sora se puede ver cómo hay objetos que aparecen y desaparecen cuando otro elemento pasa sobre ellos. Ya son conocidos algunas acciones difíciles de conseguir con IA, como una persona comiendo espaguettis o los movimientos de una gimnasta rítmica.
En la información oficial de Veo 2 hay todo un apartado que habla de las limitaciones de la herramienta. Explica que no se le da muy bien la consistencia de las imágenes a lo largo del tiempo ni reproducir movimientos complejos. La consistencia es básica, porque si no los vídeos no funcionan narrativamente. Pese a que Veo 2 se ha considerado superior a Sora, por el momento, a veces hace que un elemento aparezca en un color y luego en otro, por ejemplo. Un fallo de este tipo desbarata el resultado en su conjunto.
A esto se le suma una de las polémicas más candentes vinculadas a la IA generativa: los derechos de autor. En lo que respecta a las herramientas de generación de texto e imágenes hay varios litigios abiertos, el más destacado de todos, la demanda del New York Times a OpenAI. Pero cabe pensar que las fricciones continuarán entre los propietarios de contenido y los desarrolladores de modelos. El youtuber estadounidense Marques Brownlee, especializado en tecnología, le pidió a Sora que hiciera un vídeo de un youtuber de tecnología sentado en su mesa. El resultado fue revelador: las imágenes contenían una planta artificial en la mesa casi idéntica a la que Brownlee tiene en su propio escritorio. Es fácil suponer que el modelo de Sora se ha entrenado con los vídeos de este youtuber, algo que sería una violación de los términos de servicio de la plataforma.
De Google Veo 2 sí podemos deducir que se ha entrenado con el contenido de YouTube, como gran ventaja frente a sus rivales. Algunos de ellos tratan de llegar a acuerdos con proveedores de vídeos, como Runway, que pactó con Getty Images y se ha asociado con Lionsgate Studios para entrenar su modelo con el catálogo de la productora.
Los deepfakes serán otro de los grandes problemas que afrontarán estas herramientas. Preocupa su potencial para difundir desinformación en torno a sucesos reales ocurridos o sobre personas. Para evitar toda la problemática derivada de la manipulación de la imagen personal —incluidos los desnudos artificiales, que ya habían provocado escándalos—, Sora no permite subir imágenes de personas excepto a un número reducido de usuarios. Sin embargo, la moderación del contenido será conservadora al principio, según dijo el CEO de OpenAI Sam Altman, quien abrió la puerta a aplicar mayor firmeza si así lo piden los usuarios.
OpenAI ha afirmado su compromiso para prevenir contenidos ilegales, como pornografía infantil artificial o suplantación de identidad. En cuanto a Veo 2, una de sus restricciones pasa por impedir su uso a los menores de 18 años. Sin embargo, a día de hoy no hay un método efectivo para verificar la edad en Internet.
A falta de saber el impacto que tendrá en el empleo la generación de vídeo con IA, lo que sí se sospecha es que necesitará una gran cantidad de energía para su adopción masiva. Generar imágenes en movimiento con sonido requiere mucha más capacidad de cómputo que hacerlo con texto o imagen estática. De manera que se necesitarán más centros de datos y mayor generación eléctrica. Todo esto aumenta el coste para las empresas sin que aún esté clara la fórmula para rentabilizar estos productos.