Clips de cinco segundos generados con Lumiere muestran cómo las herramientas de IA pueden crear vídeo a partir de una indicación con movimiento realista.
Lumiere, el nuevo modelo de inteligencia artificial para la generación de vídeo de Google, utiliza un nuevo modelo de difusión llamado Space-Time-U-Net, o STUNet, que calcula dónde están las cosas en un vídeo (espacio) y cómo se mueven y cambian simultáneamente (tiempo). Según Ars Technica, este método permite a Lumiere crear el vídeo en un solo proceso, en lugar de juntar fotogramas más pequeños.
Lumiere empieza creando un fotograma base a partir de la indicación. A continuación, utiliza el marco STUNet para empezar a aproximar hacia dónde se moverán los objetos dentro de ese fotograma para crear más fotogramas que fluyen entre sí, creando la apariencia de un movimiento sin interrupciones. Lumiere también genera 80 fotogramas, frente a los 25 de Stable Video Diffusion.
Puede leer también | ¿Es la inteligencia artificial la solución a las amenazas de ciberseguridad?
Es cierto que soy más periodista de texto que de vídeo, pero el vídeo que ha publicado Google, junto con un artículo científico previo, demuestra que las herramientas de generación y edición de vídeo con inteligencia artificial han pasado del valle misterioso al realismo casi total en unos pocos años. También establece la tecnología de Google en el espacio ya ocupado por competidores como Runway, Stable Video Diffusion o Meta's Emu. Runway, una de las primeras plataformas de conversión de texto en vídeo del mercado de masas, lanzó Runway Gen-2 en marzo del año pasado y ha empezado a ofrecer vídeos de aspecto más realista. A los vídeos de Runway también les cuesta representar el movimiento.
Puede leer también | El auge de los asistentes de inteligencia artificial en Linux
Google tuvo la amabilidad de poner clips y mensajes en el sitio Lumiere, que me permitió poner los mismos mensajes a través de Runway para la comparación. Aquí están los resultados:
Sí, algunos de los clips presentados tienen un toque de artificialidad, sobre todo si te fijas en la textura de la piel o si la escena es más atmosférica. Pero ¡mira esa tortuga! Se mueve como lo haría una tortuga en el agua. ¡Parece una tortuga de verdad! Envié el vídeo de introducción de Lumiere a una amiga que es editora de vídeo profesional. Aunque señaló que "se nota claramente que no es del todo real", le pareció impresionante que, si no le hubiera dicho que era IA, pensaría que era CGI.
Otros modelos cosen vídeos a partir de fotogramas clave generados en los que ya se ha producido el movimiento (piense en los dibujos de un libro animado), mientras que STUNet permite a Lumiere centrarse en el movimiento propiamente dicho basándose en el lugar del vídeo en el que debería estar el contenido generado en un momento dado.
Puede leer también | 6 Proyectos Python de Inteligencia Artificial generativa para ejecutar ahora
Google no ha sido un gran actor en la categoría de conversión de texto en vídeo, pero poco a poco ha ido lanzando modelos de IA más avanzados y se ha inclinado por un enfoque más multimodal. Su modelo de lenguaje de gran tamaño Gemini llevará con el tiempo la generación de imágenes a Bard. Lumiere aún no está disponible para pruebas, pero demuestra la capacidad de Google para desarrollar una plataforma de vídeo con inteligencia artificial comparable a generadores de vídeo con inteligencia artificial como Runway y Pika, y posiblemente un poco mejor. Y sólo un recordatorio, aquí es donde Google estaba con vídeo AI hace dos años.
Puede leer también | Aprovechando el código abierto en el desarrollo de la Inteligencia Artificial
Además de la generación de texto a vídeo, Lumiere también permitirá la generación de imagen a vídeo, la generación estilizada, que permite a los usuarios crear vídeos con un estilo específico, cinemagraphs que animan sólo una parte de un vídeo, e inpainting para enmascarar una zona del vídeo y cambiar el color o el patrón.
El documento de Google sobre Lumiere, sin embargo, señalaba que "existe el riesgo de uso indebido para crear contenidos falsos o dañinos con nuestra tecnología, y creemos que es crucial desarrollar y aplicar herramientas para detectar sesgos y casos de uso malintencionado para garantizar un uso seguro y justo". Los autores del artículo no explicaron cómo se puede conseguir esto.