Gemini Omni redefine la creación y edición de vídeo con inteligencia artificial avanzada

Google presenta Gemini Omni, un modelo que permite generar y modificar vídeos de forma coherente, combinando imágenes, texto, audio y vídeo para lograr ediciones complejas y realistas.

Editorial Team · May 19, 2026 · 2 min de lectura · Fuente: xataka.com

La edición de vídeo con inteligencia artificial enfrenta desafíos mayores que la creación de imágenes estáticas, debido a la necesidad de mantener coherencia en el movimiento, la física y los personajes a lo largo del tiempo. Google responde a este reto con Gemini Omni, un modelo diseñado para transformar la producción audiovisual mediante la generación y modificación de vídeos que respetan la continuidad y detalles específicos.

Gemini Omni Flash, la primera versión de esta familia, promete crear contenido a partir de cualquier combinación de material de entrada: imágenes, texto, audio y vídeo. Este enfoque permite que los usuarios no solo partan de cero, sino que también intervengan sobre escenas existentes aplicando instrucciones encadenadas para cambiar o ajustar múltiples elementos como la estética, el entorno, el ángulo o la acción.

Una ventaja clave de Gemini Omni es su capacidad para mantener la integridad de los personajes y la coherencia de la física en la escena, evitando las incongruencias habituales en la edición automática de vídeo. Google lo presenta como un sistema que facilita cambios precisos, desde alterar materiales y efectos visuales hasta reinterpretar ideas complejas en explicaciones visuales dinámicas.

Entre los ejemplos proporcionados destacan instrucciones para transformar objetos y ambientes: convertir una escultura en burbujas, hacer que un espejo ondule como un líquido y que el brazo de la persona se torne reflectante, o crear un vídeo en claymation que explique un proceso científico con movimiento stop motion y precisión.

Esta propuesta recuerda a Nano Banana, el generador de imágenes de Google que logró gran impacto por su velocidad y calidad durante su lanzamiento. Gemini Omni aspira a replicar ese éxito en el terreno del vídeo, un formato mucho más complejo debido a sus múltiples variables temporales.

En una prueba realizada, se generó un vídeo a partir de una fotografía estática de la Puerta de Alcalá en Madrid, añadiendo movimiento realista de automóviles y personas caminando hacia adelante, demostrando la capacidad del modelo de integrar animaciones coherentes con imágenes reales.