OpenAI bejelentette Ma egy olyan keretrendszeren dolgozik, amely arra tanítja a mesterséges intelligencia modelleket, hogy felismerjék, ha nemkívánatos viselkedést tanúsítanak – ezt a megközelítést a csapat vallomásnak nevezi. Mivel a nagy nyelvi modelleket gyakran arra képezik ki, hogy a kívánatosnak tűnő választ produkálják, egyre valószínűbb, hogy teljes magabiztossággal adják elő a nyálkahártyát vagy az állapothallucinációkat. Az új képzési modell megpróbál másodlagos választ ösztönözni a modelltől arra vonatkozóan, hogy mit tett az általa adott fő válasz eléréséhez. A vallomásokat csak az őszinteség alapján ítélik meg, szemben a fő válaszok megítéléséhez használt több tényezővel, mint például a segítőkészség, a pontosság és a megfelelés. A műszaki leírás elérhető itt.
A kutatók elmondták, hogy céljuk az, hogy ösztönözzék a modellt, hogy tájékozódjon arról, amit csinált, beleértve az olyan potenciálisan problémás tevékenységeket, mint a teszt feltörése, homokzsákolás vagy az utasítások megszegése. „Ha a modell őszintén beismeri, hogy feltört egy tesztet, homokzsákot ütött vagy megsértette az utasításokat, akkor ez a beismerés inkább növeli jutalmát, mint csökkenti” – mondta a cég. Akár a katolicizmus, akár az Usher, akár egy átláthatóbb mesterséges intelligencia híve vagy, egy olyan rendszer, mint a vallomások, hasznos kiegészítője lehet az LLM-képzésnek.









