El recién lanzado modelo de inteligencia artificial de Google, Lumiere, emplea un innovador enfoque de procesamiento de vídeo conocido como Space-Time-U-Net (STUNet). Este método calcula la posición de los elementos en un vídeo (espacio) y su movimiento y cambio simultáneos (tiempo). Según informa Ars Technica, Lumiere puede generar el vídeo de manera integral en un solo proceso, evitando la necesidad de unir fragmentos de fotogramas más pequeños.
Lumiere empieza creando un fotograma base a partir de la indicación. A continuación, utiliza el marco STUNet para empezar a aproximar hacia dónde se moverán los objetos dentro de ese fotograma para crear más fotogramas que fluyen entre sí, creando la apariencia de un movimiento sin interrupciones. Lumiere también genera 80 fotogramas, frente a los 25 de Stable Video Diffusion.
Puede leer también | La importancia de promulgar leyes sobre Inteligencia Artificial en Latinoamérica
Es cierto que soy más periodista de texto que de vídeo, pero el vídeo que ha publicado Google, junto con un artículo científico previo, demuestra que las herramientas de generación y edición de vídeo con inteligencia artificial han pasado del valle misterioso al realismo casi total en unos pocos años. También establece la tecnología de Google en el espacio ya ocupado por competidores como Runway, Stable Video Diffusion o Meta's Emu. Runway, una de las primeras plataformas de conversión de texto en vídeo del mercado de masas, lanzó Runway Gen-2 en marzo del año pasado y ha empezado a ofrecer vídeos de aspecto más realista. A los vídeos de Runway también les cuesta representar el movimiento.
Puede leer también | Las 10 mejores herramientas de Software Libre para desarrollar soluciones de Inteligencia Artificial en plataforma Linux
Algunos de los clips mostrados exhiben una cierta artificialidad, especialmente al observar la textura de la piel o en escenas más atmosféricas. Sin embargo, destaca la naturalidad del movimiento de la tortuga en el agua, pareciendo casi real. Al enviar el vídeo de introducción de Lumiere a una amiga que es editora de vídeo profesional, aunque reconoció que "se percibe claramente que no es completamente real", quedó impresionada al pensar que podría ser CGI si no le hubieran mencionado que era IA. También bromeó diciendo: "¿Me quitará el trabajo, verdad?".
Puede leer también | 5 Herramientas de Inteligencia Artificial para mejorar la Calidad de Software
Otros modelos fusionan vídeos a partir de fotogramas clave ya generados con movimiento (similar a los dibujos de un libro animado), mientras que STUNet permite a Lumiere enfocarse en el movimiento en sí mismo, basándose en la ubicación del contenido generado en un momento dado del vídeo.
Aunque Google no ha sido un actor principal en la conversión de texto a vídeo, ha estado lanzando gradualmente modelos de IA más avanzados, adoptando un enfoque multimodal. Su modelo de lenguaje Gemini, de gran escala, eventualmente llevará la generación de imágenes a Bard. Aunque Lumiere aún no está disponible para pruebas, demuestra la capacidad de Google para desarrollar una plataforma de vídeo con IA comparable a generadores de vídeo como Runway y Pika, y posiblemente incluso superior. Es importante recordar dónde estaba Google en términos de IA hace dos años.
Puede leer también | Aprovechando el código abierto en el desarrollo de la Inteligencia Artificial
Además de la generación de texto a vídeo, Lumiere también facilitará la generación de imagen a vídeo, estilos específicos, cinemagraphs que animan solo una parte de un vídeo, e inpainting para modificar zonas del vídeo como el color o patrón.
El comunicado de Google sobre Lumiere también señala que "existe el riesgo de mal uso para crear contenidos falsos o dañinos con nuestra tecnología", y subraya la importancia de desarrollar y aplicar herramientas para detectar sesgos y casos de uso malintencionado para garantizar un uso seguro y ético. Sin embargo, no se detalla cómo se logrará esto.