La edición de vídeo con inteligencia artificial enfrenta desafíos mayores que la creación de imágenes estáticas, debido a la necesidad de mantener coherencia en el movimiento, la física y los personajes a lo largo del tiempo. Google responde a este reto con Gemini Omni, un modelo diseñado para transformar la producción audiovisual mediante la generación y modificación de vídeos que respetan la continuidad y detalles específicos.
Gemini Omni Flash, la primera versión de esta familia, promete crear contenido a partir de cualquier combinación de material de entrada: imágenes, texto, audio y vídeo. Este enfoque permite que los usuarios no solo partan de cero, sino que también intervengan sobre escenas existentes aplicando instrucciones encadenadas para cambiar o ajustar múltiples elementos como la estética, el entorno, el ángulo o la acción.
Una ventaja clave de Gemini Omni es su capacidad para mantener la integridad de los personajes y la coherencia de la física en la escena, evitando las incongruencias habituales en la edición automática de vídeo. Google lo presenta como un sistema que facilita cambios precisos, desde alterar materiales y efectos visuales hasta reinterpretar ideas complejas en explicaciones visuales dinámicas.
Entre los ejemplos proporcionados destacan instrucciones para transformar objetos y ambientes: convertir una escultura en burbujas, hacer que un espejo ondule como un líquido y que el brazo de la persona se torne reflectante, o crear un vídeo en claymation que explique un proceso científico con movimiento stop motion y precisión.
Esta propuesta recuerda a Nano Banana, el generador de imágenes de Google que logró gran impacto por su velocidad y calidad durante su lanzamiento. Gemini Omni aspira a replicar ese éxito en el terreno del vídeo, un formato mucho más complejo debido a sus múltiples variables temporales.
En una prueba realizada, se generó un vídeo a partir de una fotografía estática de la Puerta de Alcalá en Madrid, añadiendo movimiento realista de automóviles y personas caminando hacia adelante, demostrando la capacidad del modelo de integrar animaciones coherentes con imágenes reales.
