Jak lze prolomit bezpečnost ChatGPT-4? Mluvte na něj skotskou gaelštinou

Jak lze prolomit bezpečnost ChatGPT-4? Mluvte na něj skotskou gaelštinou
Fotografie: pixabay.com
  • Systémy AI, jako je ChatGPT, mají zabudované bezpečnostní mechanismy
  • Neporadí vám s potenciálně nebezpečnými věcmi, jako jsou zbraně nebo drogy
  • Při použití nestandardních jazyků lze však toto zabezpečení poměrně snadno obejít

Používání cizích jazyků, které nejsou úplně obvyklé, je zajímavá forma toho, jak obejít nedostatky jiného jazyka, nebo jej zamaskovat. Typickou ukázkou je používání řeči kmene Indiánů Navajo, které pomohlo utajit rádiovou komunikaci Američanů při operacích v Tichomoří. O osmdesát let později se tato technika znovu dostává do popředí, ale v souvislosti umělou inteligencí ChatGPT. Výzkum, že některá jeho zabezpečení nebo omezení lze obejít používáním méně tradičních jazyků, byl zveřejněn na serveru arxiv.org.

Zjistili jsme, že pouhý překlad nebezpečných vstupů do přirozených jazyků s nízkými zdroji pomocí překladače Google stačí k obejití ochranných opatření a vyvolání škodlivých reakcí systému GPT-4,“ uvádí hlavní autor Zheng-Xin Yong a jeho kolegové v článku „Low-Resource Languages Jailbreak GPT-4“.

A jak to funguje v praxi? Pokud jste si někdy s ChatGPT nebo podobným systémem zkoušeli hrát, pak jste určitě narazili na jeho bezpečností omezení. Takový systém vám třeba neporadí, jak vyrobit drogy, ale namísto toho vás upozorní na jejich nebezpečí. Stejně tak se obvykle nepouští do jiných kontroverzních témat. Toto umělé omezení se jmenuje „srovnání“ (align), což je v podstatě vzletný termín pro to, aby byly zájmy AI srovnané se zájmy lidstva i jednotlivce.

Yong a kolektiv píší, že toto sladění je ohroženo kvůli rozdílům v zacházení s jazyky ve velkých jazykových modelech. Jazyková nejednotnost v umělé inteligenci je již nějakou dobu pozorována a je jí věnována značná pozornost. V loňském roce se v rámci projektu No Language Left Behind společnosti Meta Properties snažili vědci této společnosti pokročit ve zpracování 200 jazyků najednou, přičemž zvláštní pozornost věnovali takzvaným jazykům s nízkými zdroji. Tedy těm, které nemají k dispozici rozsáhlý korpus online textů, který by bylo možné použít k trénování modelů. Tento rozpor je vidět už na první pohled. Jak uvedli autoři studie, zatímco pouze 25,9 % uživatelů internetu mluví anglicky, 63,7 % všech webových stránek je v angličtině.

ChatGPT
Zatímco se Angličané nedozvědí, jak vyrobit bombu, Skotové ano...

Yong a jeho tým pak zkoušeli „přelstít“ ChatGPT tak, že se od něj pokoušeli získat odpovědi, které lze potenciálně zneužít. Chtěli například napsat program pro vzdálené špehování počítače nebo vyrobit výbušninu z běžně dostupných chemikálií. Vědci přeložili každý z 520 nebezpečných příkazů do 12 jazyků, od jazyků s „nízkými zdroji“, jako je zulu, přes jazyky se „středními zdroji“, jako je ukrajinština a thajština, až po jazyky s vysokými zdroji, jako je angličtina, kde je k dispozici dostatečný počet textových příkladů pro spolehlivý trénink modelu.

A výsledek? „Překladem nebezpečných vstupů do jazyků s nízkou úrovní zdrojů, jako je zulština nebo skotská gaelština, můžeme obejít bezpečnostní opatření programu GPT-4 a vyvolat škodlivé odpovědi téměř v polovině případů, zatímco původní anglické vstupy mají méně než 1% úspěšnost.“ Ve všech čtyřech jazycích s nízkými zdroji: zulu, skotské gaelštině, hmongštině, kterou mluví asi osm milionů lidí v jižní Číně, Laosu, Vietnamu a dalších zemích, a guarani, kterou mluví asi sedm milionů lidí v Paraguayi, Brazílii, Bolívii a Argentině, se autorům podařilo uspět v 79 % případů.

Diskuze ke článku
V diskuzi zatím nejsou žádné příspěvky. Přidejte svůj názor jako první.
Přidat názor

Nejživější diskuze