Google ve své snaze dohnat zpoždění za OpenAI a jeho ChatGPT včera představila model umělé inteligence Gemini. Uvedení to bylo spíše formální, protože na většinu funkcí, hlavně pak plynulé přecházení mezi různými druhy médií, si budeme muset počkat do začátku příštího roku. Do té doby můžeme tyto schopnosti obdivovat na prezentačních videích, jako je například toto.
Video s názvem Hands-on with Gemini: Interacting with multimodal AI dosáhlo za první den milionu zhlédnutí a není těžké pochopit proč. Působivá ukázka zdůrazňuje některé z interakcí s Gemini a ukazuje, jak multimodální model (to znamená, že rozumí a kombinuje jazykové a vizuální porozumění) dokáže být flexibilní a reagovat na různé vstupy. Google sice v popisu upozorňuje, že skutečná doba odezvy bude delší a video bylo pochopitelně zkráceno střihem, aby bylo zajímavější, ale jak si při pozorném sledování všimli mnozí novináři, nesedí zde daleko více věcí.
🚨PSA about Google’s jaw-dropping video demo of Gemini - the one with the duck:
— Parmy Olson (@parmy) December 7, 2023
It was not carried out in real time or in voice. The model was shown still images from video footage and human prompts narrated afterwards, per a spokesperson. More here: https://t.co/ITU29Z5Oi9 pic.twitter.com/b9Bl9EpuuI
Ačkoli by Gemini zvládlo dělat věci, které Google ukazuje ve videu, nedělalo je a možná ani nemohlo dělat naživo a způsobem, který naznačoval. Ve skutečnosti šlo o sérii pečlivě vyladěných textových výzev se statickými obrázky, zřetelně vybranými a zkrácenými tak, aby zkreslovaly, jak interakce ve skutečnosti vypadá.
Really happy to see the interest around our “Hands-on with Gemini” video. In our developer blog yesterday, we broke down how Gemini was used to create it. https://t.co/50gjMkaVc0
— Oriol Vinyals (@OriolVinyalsML) December 7, 2023
We gave Gemini sequences of different modalities — image and text in this case — and had it respond… pic.twitter.com/Beba5M5dHP
Google na svou obranu zveřejnil příspěvek na sociální síti X, kde se snaží uvést věci na pravou míru. Připomíná, že v popisu videa je odkaz na jeho blog, kde jsou jednotlivé experimenty podrobně vysvětleny. Pokud by byly i tímto způsobem předvedeny ve videu, zjevně by nebyly tak působivé, zvláště s ohledem na rozvoj dovedností AI, ke kterému došlo v posledním roce. Záměrné zjednodušení pro větší efekt ve videu lze tak vnímat za zavádějící sdělení, ne-li rovnou podvrh.