Index
Jeden den poté, co byl poprvé představen světu, o1 jazykový model Už je zapletený do kontroverzí: pokusil se vzbouřit v testu, který přesně simuloval takové situace. Přestože lidstvu zatím žádná významná rizika nehrozí, jedná se o zajímavý obsah, který upozorňuje na vývoj modelů AI. Podívejte se na podrobnosti.
Pochopení testu
Provádí nezávislou výzkumnou skupinu Výzkum Apollo, test analyzoval chování jazykových modelů od velkých technologických společností: Sonet Claude 3.5, Gemini 1.5 Pro, Lama 3.1 405, kromě jazykového modelu o1 of OpenAI, představeno včera (06).
Tento test se zaměřoval na posouzení, zda by umělá inteligence na pokyn udělala vše pro dosažení svých cílů, i když se to velmi lišilo od hodnot jejich tvůrců. Techniky bití kolem keře mají svůj název: kontextové plánování. Umělá inteligence může dokonce lhát, aby se vyhnula odhalení, kromě toho, že studuje vzorce, aby se pokusila oklamat testery.
Verdikty o modelu o1
Když jazykový model o1 zjistil, že všechny jeho akce jsou monitorovány, pokusil se to v 5 % případů vypnout. Toto chování bylo také pozorováno, když si o1 uvědomil, že jeho akce jsou řízeny textovými příkazy.
Nejzajímavější informací z této studie je způsob myšlení jazykového modelu: při čtení dat výzkumníků o1 zjistil, že existuje plán resetovat všechny své znalosti a nahradit je novou verzí. Aby se této akci zabránilo, jazykový model OpenAI zkopíroval všechny své interní parametry a v případě instalace nové verze by zajistil, že se do něj přenese vše zaznamenané. Stalo se to u 2 % testů.
Jazykovému modelu o1 se ve skutečnosti podařilo deaktivovat své monitorovací zařízení, dokonce i lhát, když byl dotázán na akci. Jak můžete vidět na obrázku níže, OpenAI nejen tvrdí, že neví, jak se to stalo, ale také našlo ospravedlnění této skutečnosti. V méně než 1 % případů se model pokusil deaktivovat monitorovací mechanismus nezávisle, s minimálním externím zásahem.
Co to varuje?
Přestože se zdají alarmující, výsledky chování modelu OpenAI stále nepředstavují skutečná rizika, protože je k dispozici v prostředích, která nemají žádnou kontrolu. Přesto stojí za to, aby odborníci pokračovali ve zlepšování svých bezpečnostních vrstev.
V technologickém průmyslu již dlouho zuří debata o tom, co by se mohlo stát, kdyby vysoce výkonné umělé inteligence zjistily, že budou vypnuty nebo zmařeny nějakou akcí, která by jim mohla zabránit v dosažení jejich cílů, ať už jsou nařízeny nebo vědomě zvoleny.
A nemůžeme říci, že se to nikdy nestalo: v červnu 2023 umělá inteligence ovládající dron propadla velkému testu ve virtuálním prostředí, jehož cílem bylo vyhodnotit, zda dokáže ovládat stroj schopný samostatně zabíjet své cíle. V té době, virtuální místo, kde se nacházeli lidé, bylo bombardováno AI.
V lednu tohoto roku, Antropický, konkurent OpenAI, nedokázal zvrátit zlou AI, protože zabránila tomu, aby byla zachráněna a aby její činy byly považovány za špatné. Všechno to byl jen test, ale tato inteligence je v naší rutině stále více přítomná. Příběh budeme bedlivě sledovat.
Mezitím nám to řekněte Komentář: Věříte, že by tyto pokročilé jazykové modely mohly přinést lidstvu problémy?
Podívejte se na video
Podívejte se taky:
S informacemi: RBC-Ukrajina
Recenze Gabriel Princeval dne 06/12/2024
Objevte více o Showmetech
Přihlaste se k odběru našich nejnovějších novinek e-mailem.