Washington D.C. – OpenAI, empresa líder en la inteligencia artificial (IA), presentó una nueva herramienta que le permite al usuario crear videos “realistas” a partir de indicaciones de textos.
La IA se llama Sora, y de acuerdo con la compañía con sede en San Francisco, California, dichos videos pueden durar hasta 60 segundos, así como mostrar todo tipo de escenas con múltiples personajes, esto con movimientos y detalles de fondo específicos.
“El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico”, se lee en su página web.
Señalan que el modelo tiene un profundo conocimiento del lenguaje, así que permite interpretar indicaciones con precisión.
En redes sociales ha sido posible ver diversos ejemplos de lo que Sora es capaz de hacer; mamuts caminando en un entorno polar, personas caminando en calles de grandes ciudades como Tokio, y un dron explorando las entrañas del Coliseo Romano, son tan solo algunos de los clips que han sido publicados.
OpenAi confesó que el modelo actual de Sora aún tiene debilidades, como dar una simulación precisa a la física de una escena compleja, y es que es posible que el robot no comprenda casos específicos de causa y efecto.
“Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco”, indicó.
El modelo también puede confundir los detalles espaciales de un mensaje, por ejemplo, mezclar la izquierda con la derecha, o con descripciones de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica.
La primera prueba de Sora será en beneficio de profesores de ciberseguridad llamados "equipos rojos", que se encargarán de evaluar el producto y detectar si hay daños o riesgos. También podrán tener acceso una serie de artistas visuales, diseñadores, cineastas, etcétera, para obtener comentarios sobre cómo puede avanzar el modelo.