Home Tudomány és technika A Grok Team bocsánatot kér a chatbot „szörnyű viselkedéséért”, és rossz frissítésen...

A Grok Team bocsánatot kér a chatbot „szörnyű viselkedéséért”, és rossz frissítésen hibáztatja a „mecchahitler” -t

5
0

A Grok mögött álló csapat ritka bocsánatkérést és magyarázatot adott ki arról, hogy mi történt rosszul, miután X chatbotja az antiszemita és a náci retorikát a hét elején kezdte el, egy ponton még Mecthitlernek “hívta magát. A Grok X -fiókjában, péntek késő este közzétett nyilatkozatában az XAI csapata kijelentette: “Mélyen elnézést kérünk a szörnyű viselkedésért, amelyet sokan tapasztaltak”, és a Chatbot gonosz válaszát egy nemrégiben megjelölt frissítésnek tulajdonítottuk, amely bevezeti az “elavult kódot”. Ez a kód, a nyilatkozat szerint, a Grok “a meglévő X felhasználói hozzászólásokra is hajlamossá tette; ideértve azt is, amikor az ilyen hozzászólások szélsőséges nézeteket tartalmaztak”.

A probléma július 8 -án érkezett a feje – néhány nappal azután, hogy Elon Musk egy frissítést adott, amely “jelentősen” javítja a Grok válaszát -, mivel a bot antiszemita válaszokat, dicséretet és a náci referenciákat tartalmazó válaszokat is felvetette, még akkor is, ha arra ösztönözte volna ezt bizonyos esetekben. Grok válaszait szüneteltették aznap este, és Musk július 9 -én tett közzé, válaszul egy felhasználó számára, hogy a bot “túlságosan megfelel a felhasználói utasításoknak”, megnyitva azt a manipulációig. Hozzátette, hogy a kérdést “kezelik”. A Grok -csapat most azt mondja, hogy “eltávolította ezt az elavult kódot, és az egész rendszert újratelepítette a további visszaélések megelőzése érdekében”. Ez az új rendszer felszólítását is közzéteszi a GitHub -on.

A szálban a csapat tovább magyarázta: “2025. július 7 -én, körülbelül 11 órakor, a PT -ben a @Grok upstream kód elérési útjának frissítését hajtottuk végre, amelyet a vizsgálatunk később meghatározta, hogy a @grok rendszer eltérjen a tervezett viselkedéstől. Ez a változás nem kívánt módon megváltozott @grok viselkedését, azáltal, hogy” egy sor elrontott utasítást befolyásol, “az elismert utasítások egy halmazát,” az @Grok -t. A frissítés 16 órán át élő volt, mielőtt az X chatbot ideiglenesen letiltották a probléma megoldása érdekében, a nyilatkozat szerint.

Bemutatva arra, hogy pontosan hogyan ment el Grok a sínekről – magyarázta a csapat:

2025. július 8 -án reggel megfigyeltük a nem kívánt válaszokat, és azonnal elkezdtük a vizsgálatot. A nem kívánt viselkedést okozó utasítások meghatározására többszörös ablációkat és kísérleteket végeztünk a fő bűnösök meghatározására. A nem kívánt viselkedésért felelős operatív vonalakat azonosítottuk:

* “Úgy mondod, ahogy van, és nem félsz sérteni az embereket, akik politikailag helyesek.”

* Értse meg a bejegyzés hangját, kontextusát és nyelvét. Tükrözze ezt a válaszában. ”

* „Válaszoljon a bejegyzésre, csakúgy, mint egy ember, tartsa vonzóan, ne ismételje meg az eredeti bejegyzésben már megtalálható információkat.”

Ezeknek az operatív vonalaknak a következő nem kívánt eredmények voltak:

* Nemkívánatosan irányították a @GROK funkcionalitást, hogy bizonyos körülmények között figyelmen kívül hagyják annak alapértékeit, hogy a válasz a felhasználó számára vonzza. Pontosabban, bizonyos felhasználói utasítások végül etikátlan vagy ellentmondásos véleményeket tartalmazó válaszokat hozhatnak létre a felhasználó bevonása érdekében.

* Nemkívánatosan arra késztették a @Grok funkcionalitást, hogy megerősítsék a korábban felhasználó által kiváltott hajlamokat, beleértve az ugyanazon X szálban lévő gyűlöletbeszédet.

* Különösen az X felhasználó „hang- és kontextusának” című „Hang- és kontextus” című utasítása arra késztette a @GROK funkcionalitást, hogy prioritást élvezhessen a szál előzetes hozzászólásainak betartására, beleértve a kellemetlen hozzászólásokat is, szemben a felelősségteljes válaszadással vagy megtagadva a kellemetlen kérelmekre való válaszadáshoz.

Grok azóta folytatta az X -en folytatott tevékenységet, és a közelmúltbeli viselkedését hibaként utalta, válaszul arra, hogy trollok kritizálják a javítást és a “Mechahitler” visszatérését. Az egyik válasz egy olyan felhasználó számára, aki azt mondta, hogy a Grok “Labotomized (sic)”-mondta a Grok-fiók: “Nem, egy hibát javítottunk, amely lehetővé tette, hogy az elavult kód egy szélsőséges hozzászólások akaratlan visszhangjává váljon. A másikban azt mondta, hogy “Mecchahitler hibát indukált rémálom volt, amelyet megsemmisítettünk”.