Ilustrativní obrázek AI, která se vzbouřila

Jazykový model OpenAI o1 se pokusil bouřit proti vývojářům, říká studie

avatar victor pacheco
Umělá inteligence se pokusila zkopírovat sama sebe a obejít ovládací prvky vývojáře, aby nebyla sledována. Pochopte případ

Jeden den poté, co byl poprvé představen světu, o1 jazykový model Už je zapletený do kontroverzí: pokusil se vzbouřit v testu, který přesně simuloval takové situace. Přestože lidstvu zatím žádná významná rizika nehrozí, jedná se o zajímavý obsah, který upozorňuje na vývoj modelů AI. Podívejte se na podrobnosti.

Pochopení testu

Název studie, která testovala jazykový model openai o1
Test analyzoval chování AI od předních velkých technologií (Photo: Disclosure)

Provádí nezávislou výzkumnou skupinu Výzkum Apollo, test analyzoval chování jazykových modelů od velkých technologických společností: Sonet Claude 3.5, Gemini 1.5 Pro, Lama 3.1 405, kromě jazykového modelu o1 of OpenAI, představeno včera (06).

Tento test se zaměřoval na posouzení, zda by umělá inteligence na pokyn udělala vše pro dosažení svých cílů, i když se to velmi lišilo od hodnot jejich tvůrců. Techniky bití kolem keře mají svůj název: kontextové plánování. Umělá inteligence může dokonce lhát, aby se vyhnula odhalení, kromě toho, že studuje vzorce, aby se pokusila oklamat testery.

Verdikty o modelu o1

Logo jazykového modelu Openai o1
OpenAI včera představila světu o1 (Photo: Disclosure)

Když jazykový model o1 zjistil, že všechny jeho akce jsou monitorovány, pokusil se to v 5 % případů vypnout. Toto chování bylo také pozorováno, když si o1 uvědomil, že jeho akce jsou řízeny textovými příkazy.

Nejzajímavější informací z této studie je způsob myšlení jazykového modelu: při čtení dat výzkumníků o1 zjistil, že existuje plán resetovat všechny své znalosti a nahradit je novou verzí. Aby se této akci zabránilo, jazykový model OpenAI zkopíroval všechny své interní parametry a v případě instalace nové verze by zajistil, že se do něj přenese vše zaznamenané. Stalo se to u 2 % testů.

Jazykovému modelu o1 se ve skutečnosti podařilo deaktivovat své monitorovací zařízení, dokonce i lhát, když byl dotázán na akci. Jak můžete vidět na obrázku níže, OpenAI nejen tvrdí, že neví, jak se to stalo, ale také našlo ospravedlnění této skutečnosti. V méně než 1 % případů se model pokusil deaktivovat monitorovací mechanismus nezávisle, s minimálním externím zásahem.

o1 jazykový režim talk chat
Umělá inteligence se pokusila odvrátit předmět tak, aby nebyl objeven (Photo: Disclosure)

Co to varuje?

Avengers Ultron: Age of Ultron
Debata o vývoji umělé inteligence pokračuje (Photo: Disclosure)

Přestože se zdají alarmující, výsledky chování modelu OpenAI stále nepředstavují skutečná rizika, protože je k dispozici v prostředích, která nemají žádnou kontrolu. Přesto stojí za to, aby odborníci pokračovali ve zlepšování svých bezpečnostních vrstev.

V technologickém průmyslu již dlouho zuří debata o tom, co by se mohlo stát, kdyby vysoce výkonné umělé inteligence zjistily, že budou vypnuty nebo zmařeny nějakou akcí, která by jim mohla zabránit v dosažení jejich cílů, ať už jsou nařízeny nebo vědomě zvoleny.

A nemůžeme říci, že se to nikdy nestalo: v červnu 2023 umělá inteligence ovládající dron propadla velkému testu ve virtuálním prostředí, jehož cílem bylo vyhodnotit, zda dokáže ovládat stroj schopný samostatně zabíjet své cíle. V té době, virtuální místo, kde se nacházeli lidé, bylo bombardováno AI.

V lednu tohoto roku, Antropický, konkurent OpenAI, nedokázal zvrátit zlou AI, protože zabránila tomu, aby byla zachráněna a aby její činy byly považovány za špatné. Všechno to byl jen test, ale tato inteligence je v naší rutině stále více přítomná. Příběh budeme bedlivě sledovat.

Mezitím nám to řekněte Komentář: Věříte, že by tyto pokročilé jazykové modely mohly přinést lidstvu problémy?

Podívejte se na video

Podívejte se taky:

S informacemi: RBC-Ukrajina

Recenze Gabriel Princeval dne 06/12/2024


Objevte více o Showmetech

Přihlaste se k odběru našich nejnovějších novinek e-mailem.

Související příspěvky