Generativní umělá inteligence znovu rozjela zájem o robotiku, protože oživila dávný sen, že se tyto stroje budou chovat podobně jako lidé. Mezi jejich schopnosti by měla patřit interakce v přirozeném jazyce, učení robotů nebo programování bez kódu. Tým DeepMind Robotics společnosti Google předvádí další potenciální schopnost, kterou je navigace v reálném prostředí.
Ve vědeckém článku tým ukazuje, jak implementoval Google Gemini 1.5 Pro, aby naučil robota reagovat na příkazy a pohybovat se po kanceláři. Společnost DeepMind použila některé z robotů Every Day Robots, kteří se poflakují po okolí od doby, kdy společnost Google loni tento projekt v souvislosti s rozsáhlým propouštěním uzavřela.
V praxi to funguje to tak, že se natočí videoprohlídka určeného prostoru, například domu nebo kanceláře, a výzkumníci pomocí softwaru Gemini 1.5 Pro přimějí robota, aby video „sledoval“ a poznával prostředí. Robot pak může provádět příkazy na základě toho, co vypozoroval, pomocí slovních anebo obrazových výstupů, například navádět uživatele k elektrické zásuvce poté, co mu člověk ukáže telefon a zeptá se, kde ho může nabít. DeepMind uvádí, že její robot poháněný Gemini měl 90% úspěšnost při více než 50 uživatelských pokynech, které byly zadány v operačním prostoru o rozloze více než 900 čtverečních metrů.
I když jsou takové schopnosti působivé, hned na první pohled je jasná nevýhoda takového řešení. I naprosto jednoduché příkazy zpracovává robot desítky sekund, než se rozhodne k akci. Než budou takoví společníci běžnou výbavou firem nebo dokonce domácností, tak nejspíše nějakou dobu potrvá.