Jakmile se objevily první modely, které na základě textového zadání dokázaly generovat přesvědčivé fotografie, bylo jen otázkou času, než se totéž povede i po video. A ani jsme na to nemuseli čekat moc dlouho. Podle OpenAI její Sora umí vytvářet realistické a nápadité scény z textových instrukcí. Model převodu textu na video umožňuje uživatelům vytvářet fotorealistická videa o délce až jedné minuty, a to vše pouze na základě napsaných pokynů.
Podle OpenAI dokáže Sora vytvářet složité scény s více postavami, specifickými typy pohybu a přesnými detaily objektu a pozadí. Společnost také uvádí, že model dokáže pochopit, jak objekty existují ve fyzickém světě, a také přesně interpretovat rekvizity a vytvářet přesvědčivé postavy, které vyjadřují živé emoce. Model může také generovat video na základě statického snímku, stejně jako doplnit chybějící snímky ve stávajícím videu nebo jej rozšířit.
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
K modelu se prozatím běžní uživatelé nedostanou. Něco takového je zcela oprávněně vnímáno jako nebezpečná zbraň, a tak jej zatím zkoumají odborníci, kteří vyhodnocují možná rizika a i to, jak jim zabránit. Začátkem tohoto měsíce společnost OpenAI oznámila, že do svého nástroje pro převod textu na obraz DALL-E 3 přidává vodoznaky, ale upozorňuje, že je lze snadno odstranit. Stejně jako její další produkty AI se i OpenAI bude muset potýkat s důsledky záměny falešných fotorealistických videí s umělou inteligencí za skutečná.
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
Kvalitu generovaných videí tak můžeme posoudit pouze z několika krátkých snímků uvedených při představení. Pokud v nich v plném rozlišení záměrně hledáte chyby, pak některé najdete: občas úplně nesedí objekt a jeho pozadí, a jak přiznávají samotní tvůrci, složitá fyzika s řadou interakcí bude ještě problém. Nicméně při zběžném pohledu je každé z videí nerozpoznatelné od skutečnosti.