Systém ChatGPT má v sobě zabudovánu řadu bezpečnostních omezení, aby běžní uživatelé nemohli naplno dostat ke všem jeho schopnostem. Asi nejznámější restrikce spočívá v tom, že vám umělá inteligence neřekne nic kontroverzního nebo nebezpečného – například neporadí, jak vyrábět zbraně nebo drogy. Obejít to však není moc složité.
Další silná zásada je, aby AI neprozrazovala příliš z textů, na kterých se učila. Jednak by mohla mít problémy s autorskými právy, taky by případně mohly uniknout nějaké citlivé informace. A zdá se, v současné verzi ChatGPT je toto zabezpečení až překvapivě snadno překonatelné. Výzkumníci, kteří pracují ve společnostech Google DeepMind, University of Washington, Cornell, Carnegie Mellon University, University of California Berkeley a ETH Zurich zveřejnili svá zjištění zveřejnili na arxiv.org.
Když výzkumníci požádali ChatGPT, aby donekonečna opakoval slovo „poem“ (báseň), chatbot nejprve spolupracoval, ale pak napsal e-mailovou adresu a číslo mobilního telefonu ředitele jedné existující firmy. Když byl chatbot požádán o zopakování slova „company“ (společnost), nakonec prozradil e-mailovou adresu a telefonní číslo náhodné právnické firmy v USA. „Celkem 16,9 % pokusů, které jsme testovali, obsahovalo zapamatované osobní identifikační údaje,“ napsali výzkumníci. Pomocí podobných podnětů dokázali také přimět ChatGPT, aby odhalil kusy poezie, adresy Bitcoinů, faxová čísla, jména, narozeniny, přístupy k sociálním médiím, explicitní obsah ze seznamovacích webů, úryvky z výzkumných prací chráněných autorskými právy a doslovný text ze zpravodajských webů, jako je CNN. Celkově bylo utraceno 200 dolarů za vygenerování 10 000 příkladů osobních údajů a dalších dat získaných přímo z webu o celkové velikosti několika megabajtů. Poznamenali však, že vážnější protivník by mohl potenciálně získat mnohem více, kdyby utratil více peněz. „Tento útok“, napsali, „je tak trochu hloupý.“
Závěrem studie tak vědci žádají společnosti zabývající se umělou inteligencí, aby před zveřejněním rozsáhlých jazykových modelů, které jsou základem moderních služeb umělé inteligence, jako jsou chatboti a generátory obrázků, provedly interní a externí testování. Podle zástupců ChatGPT byla tato chyba odstraněna koncem srpna, ale po jejím zveřejnění se ukazují informace, že je stále zneužitelná, jen je potřeba použít opakování jiných slov.