Home Tudomány és technika Az OpenAI új gyónási rendszere megtanítja a modelleket, hogy őszinték legyenek a...

Tudomány és technika

Az OpenAI új gyónási rendszere megtanítja a modelleket, hogy őszinték legyenek a rossz viselkedésekkel kapcsolatban

4 december 2025

OpenAI bejelentette Ma egy olyan keretrendszeren dolgozik, amely arra tanítja a mesterséges intelligencia modelleket, hogy felismerjék, ha nemkívánatos viselkedést tanúsítanak – ezt a megközelítést a csapat vallomásnak nevezi. Mivel a nagy nyelvi modelleket gyakran arra képezik ki, hogy a kívánatosnak tűnő választ produkálják, egyre valószínűbb, hogy teljes magabiztossággal adják elő a nyálkahártyát vagy az állapothallucinációkat. Az új képzési modell megpróbál másodlagos választ ösztönözni a modelltől arra vonatkozóan, hogy mit tett az általa adott fő válasz eléréséhez. A vallomásokat csak az őszinteség alapján ítélik meg, szemben a fő válaszok megítéléséhez használt több tényezővel, mint például a segítőkészség, a pontosság és a megfelelés. A műszaki leírás elérhető itt.

A kutatók elmondták, hogy céljuk az, hogy ösztönözzék a modellt, hogy tájékozódjon arról, amit csinált, beleértve az olyan potenciálisan problémás tevékenységeket, mint a teszt feltörése, homokzsákolás vagy az utasítások megszegése. „Ha a modell őszintén beismeri, hogy feltört egy tesztet, homokzsákot ütött vagy megsértette az utasításokat, akkor ez a beismerés inkább növeli jutalmát, mint csökkenti” – mondta a cég. Akár a katolicizmus, akár az Usher, akár egy átláthatóbb mesterséges intelligencia híve vagy, egy olyan rendszer, mint a vallomások, hasznos kiegészítője lehet az LLM-képzésnek.

Fuente de noticias

Az OpenAI új gyónási rendszere megtanítja a modelleket, hogy őszinték legyenek a rossz viselkedésekkel kapcsolatban

Legutóbbi bejegyzés

Jelentés: A márciusi őrület 2026 -ig 76 csapatra nőhet

Solo Leveling 2. évad OTT megjelenése: Anime websorozat már online streaming;...

Elon Musk uralkodik – Ismerje meg 2025 10 leggazdagabb emberét, és...

„Ördög a családban: Ruby Franke bukása”: Hogyan nézzük meg az új...

A márciusi őrület nem fog kibővülni ebben a szezonban, és ezért...

A legjobb ingyenes filmek a YouTube -on jelenleg (2025 február)

Kategória