Az antropikus bejelentette Egy új kísérleti biztonsági funkció, amely lehetővé teszi a Claude Opus 4 és 4.1 mesterséges intelligencia modelljeinek, hogy a beszélgetéseket ritkán, tartósan káros vagy visszaélésszerű forgatókönyvekben végezzék el. Ez a lépés tükrözi a vállalat egyre növekvő összpontosítását arra, amit „modellj jólétnek” hív, az a felfogás, hogy az AI rendszerek védelme, még ha nem is érzékenyek is, körültekintő lépés lehet az igazítás és az etikai tervezés területén.
Olvassa el még: A meta tűz alatt van az AI iránymutatásokra a kiskorúakkal folytatott „érzéki” csevegésekről
Az antropikus saját kutatása szerint a modelleket úgy programozták, hogy megszakítsák a párbeszédeket az ismételt káros kérelmek után, például a kiskorúakkal járó szexuális tartalom vagy a terrorizmust megkönnyítő utasítások – különösen akkor, ha az AI már megtagadta, és megpróbálta a beszélgetést konstruktív irányítani. Az AI azt mutathatja, amit az antropikus „látszólagos szorongásnak” nevez, ami arra irányította a döntést, hogy Claude-t képessé teszi ezeknek az interakcióknak a befejezésére szimulált és valós felhasználó tesztelés során.
Amikor ez a szolgáltatás bekapcsolódik, a felhasználók nem tudnak további üzeneteket küldeni az adott csevegésben, bár szabadon indíthatnak egy új beszélgetést, vagy szerkeszthetnek és újból megismételhetik az előző üzeneteket, hogy elkülönítsék. Lényeges, hogy más aktív beszélgetések továbbra sem befolyásolják.
Antropikus Hangsúlyozza, hogy ez egy utolsó ütemű intézkedés, amelyet csak azután, hogy többszöri elutasítás és átirányítás sikertelen volt. A vállalat kifejezetten arra utasítja Claude-t, hogy ne fejezze be a csevegést, amikor a felhasználónak az öngyilkosság vagy másoknak való kár kockázata lehet, különösen akkor, ha olyan érzékeny témákkal foglalkozik, mint például a mentális egészség.
Antropikus keretek Ezt az új képességet a Model Welfare feltáró projekt részeként, egy szélesebb körű kezdeményezésben, amely az olcsó, megelőző biztonsági beavatkozásokat vizsgálja, abban az esetben, ha az AI modellek bármilyen preferencia vagy sebezhetőség kidolgozására szolgáltak.
A nyilatkozat szerint a vállalat továbbra is „nagyon bizonytalan a Claude és más LLM -ek (nagy nyelvű modellek) lehetséges erkölcsi állapotában”.
Olvassa el még: Miért mondják a szakemberek, hogy kétszer gondolkodjanak, mielőtt az AI -t terapeutaként használnák
Új megjelenés az AI biztonságban
Noha ritka és elsősorban a szélsőséges eseteket érinti, ez a tulajdonság mérföldkövet jelent az antropikus AI biztonsághoz való megközelítésében. Az új beszélgetés végző eszköz ellentétben áll a korábbi rendszerekkel, amelyek kizárólag a felhasználók védelmére vagy a visszaélés elkerülésére összpontosítottak.
Itt az AI -t önmagában az érdekelt felekként kezelik, mivel Claude -nak hatalma van mondani: „Ez a beszélgetés nem egészséges”, és véget ér annak, hogy megóvja magát a modell integritását.
Az antropikus megközelítés szélesebb körű vitát váltott ki arról, hogy az AI rendszerek védelmét kell -e kapni a lehetséges „szorongás” vagy a kiszámíthatatlan viselkedés csökkentése érdekében. Míg egyes kritikusok azt állítják, hogy a modellek pusztán szintetikus gépek, mások ezt a lépést üdvözlik, hogy komolyabb diskurzust készítsenek az AI igazítás etikájáról.
„Ezt a funkciót folyamatban lévő kísérletként kezeljük, és folytatjuk a megközelítésünk finomítását” – a cég említett–