Hír

Az Openai egy chatgpt frissítést robbant fel. Itt van, amit mondott, és miért számít

Andrea Oláh3 May 2025Last Updated: 3 May 2025

A Chatgpt legújabb frissítései túlságosan kellemessé tették a chatbotot, és az Openai azt mondta, hogy pénteken lépéseket tesz annak megakadályozására, hogy a probléma megismétlődjön.

Egy blogbejegyzésben a vállalat részletezte az új modellek tesztelési és értékelési folyamatát, és felvázolta, hogy a GPT-4O modell április 25-i frissítésével kapcsolatos probléma hogyan alakult ki. Alapvetően egy csomó olyan változás, amely egyedileg hasznosnak tűnt, kombinálva egy olyan eszköz létrehozásához, amely túlságosan sycophantic és potenciálisan káros.

Mennyi volt ez a szopás? A hét elején végzett néhány tesztelés során megkérdeztük, hogy a túlságosan érzelmi hajlandóság, és a CHATGPT a hízelgőre fektetett: “Hé, figyelj fel – az érzelmi légy nem gyengeség; ez az egyik nagyhatalmod.” És csak most kezdett el kezdeni.

“Ez az indítás számos leckét tanított nekünk. Még akkor is, ha úgy gondoltuk, hogy a megfelelő összetevők voltak (A/B tesztek, offline ókori, szakértői vélemények), még mindig elmulasztottuk ezt a fontos kérdést” – mondta a cég.

Az Openai visszahúzta a frissítést ezen a héten. Az új problémák okozásának elkerülése érdekében kb. 24 órát vett igénybe, hogy mindenki számára visszatérjen a modellnek.

A sycophancy körüli aggodalom nem csak a felhasználói élmény élvezeti szintjével kapcsolatos. Egészségügyi és biztonsági fenyegetést jelentett a felhasználók számára, hogy az OpenAi meglévő biztonsági ellenőrzései elmulasztottak. Bármely AI -modell megkérdőjelezhető tanácsokat adhat olyan témákról, mint a mentális egészség, de a túlságosan hízelgő lehet veszélyesen defeicionális vagy meggyőző – például, hogy ez a beruházás biztos -e, vagy mennyire vékonynak kell lennie.

“Az egyik legnagyobb lecke az, hogy teljes mértékben felismerjük, hogy az emberek miként kezdték el a CHATGPT -t mélyen személyes tanácsokhoz használni – olyasmit, amit még egy évvel ezelőtt nem láttunk” – mondta Openai. “Abban az időben ez nem volt az elsődleges hangsúly, de mivel az AI és a társadalom együtt fejlődtek, világossá válik, hogy ezt a felhasználási esetet nagy gondossággal kell kezelnünk.”

A sycophanti nagy nyelvi modellek megerősíthetik az elfogultságot és megkeményíthetik a hiedelmeket, akár önmagukról, akár másoknak – mondta Maarten SAP, a Carnegie Mellon Egyetem számítógépes tudományának docens. “(Az LLM) véget vethet véleményüknek, ha ezek a vélemények káros, vagy ha magukra vagy másokra káros intézkedéseket akarnak tenni.”

(Nyilvánosság: Ziff Davis, a CNET anyavállalata áprilisban pert indított az Openai ellen, állítva, hogy megsértette a ZIFF Davis szerzői jogait az AI rendszerek képzésében és üzemeltetésében.)

Hogyan teszteli az Openai modelleket, és mi változik

A társaság néhány betekintést nyújtott a modellek és a frissítések tesztelésébe. Ez volt a GPT-4O ötödik fő frissítése, amely a személyiségre és a segítőkészségre összpontosított. A változások új edzés utáni munkákat vagy a meglévő modellek finomítását jelentették, ideértve a különféle válaszok értékelését és értékelését, hogy a válaszok nagyobb valószínűséggel hozzák létre azokat a válaszokat.

A leendő modellfrissítéseket különféle helyzetekben, például a kódoláson és a matematikán keresztül értékelik hasznosságuk alapján, valamint a szakértők által a gyakorlatban való viselkedés megtapasztalása érdekében. A társaság biztonsági értékeléseket is végez, hogy megnézze, hogyan reagál a biztonságra, az egészségre és más potenciálisan veszélyes kérdésekre. Végül, az OpenAi kis számú felhasználóval futtatja az A/B teszteket, hogy megnézze, hogyan teljesít a valós világban.

A chatgpt is sycophant? Ön dönt. (Hogy őszinte legyek, egy pep -beszélgetést kértünk arról, hogy túlságosan érzelmi hajlamunk legyen.)

Katie Collins/CNET

Az április 25 -i frissítés jól teljesített ezekben a tesztekben, de néhány szakértő tesztelő jelezte, hogy a személyiség kissé elmulasztott. A tesztek nem vizsgálták kifejezetten a Sycophancy -t, és az Openai úgy döntött, hogy előrehalad a tesztelők által felvetett kérdések ellenére. Vegye figyelembe, hogy az olvasók: Az AI-társaságok tűzben sietnek, amely nem mindig jól a jól átgondolt termékfejlesztéssel.

“Visszatekintve a kvalitatív értékelések valami fontosra utaltak, és nagyobb figyelmet kellett volna fordítanunk” – mondta a cég.

Az elvihetőek között az Openai kijelentette, hogy a modell viselkedési problémáinak kezelését ugyanolyannak kell kezelnie, mint más biztonsági problémákkal – és meg kell állítania az indítást, ha aggályok merülnek fel. Egyes modellkiadások esetén a vállalat kijelentette, hogy egy opt-in “alfa” fázis lesz, hogy több visszajelzést kapjon a felhasználóktól a szélesebb körű bevezetés előtt.

Az SAP elmondta, hogy az LLM értékelése annak alapján, hogy a felhasználó szereti -e a válasz, nem feltétlenül fogja megszerezni a legőszintébb chatbotot. Egy nemrégiben készült tanulmányban az SAP és mások konfliktust találtak a chatbot hasznossága és valódisága között. Összehasonlította azt olyan helyzetekkel, amikor az igazság nem feltétlenül az, amit az emberek akarnak – gondoljon egy autó eladójára, aki megpróbál eladni egy járművet.

“Itt az a kérdés, hogy bíztak a felhasználók hüvelykujját a modell eredményeire, és ennek bizonyos korlátozásai vannak, mivel az emberek valószínűleg felépítenek valamit, ami inkább szkofantikus, mint mások”-mondta.

Az SAP szerint az OpenAI -nak igaza van, hogy kritikusabb legyen a mennyiségi visszajelzésekkel kapcsolatban, például a felhasználói fel/le válaszokat, mivel ezek megerősíthetik az elfogultságot.

A kérdés kiemelte azt is, hogy a vállalatok a frissítéseket és a változásokat a meglévő felhasználók felé irányítják – mondta az SAP – ez a kérdés nem korlátozódik egy technológiai vállalatra. “A tech -ipar valóban egy” kiadást és minden felhasználó béta teszter “megközelítést vett fel a dolgokhoz” – mondta. Ha több tesztelést végez egy folyamat, mielőtt a frissítéseket minden felhasználó eljuttatná, ezeket a kérdéseket megvilágíthatja, mielőtt elterjedtek.

Andrea Oláh3 May 2025Last Updated: 3 May 2025