A hét elején a Grok, az X beépített chatbotja keményen fordult az antiszemitizmus felé egy nemrégiben történő frissítés után. A zsidókkal szembeni, nem egységes, gyűlöletes retorika közepette, még Mecthitlernek is nevezte magát, amely utal az 1992 -es Wolfenstein 3D -re. X azon dolgozik, hogy törölje a chatbot támadó hozzászólásait. De nyugodtan mondhatjuk, hogy sokan azon gondolkodnak, hogy ez a fajta dolog is történhet.
Beszéltem Solomon Messing -rel, a New York -i Egyetemi Szociális Média és Politikai Központ kutató professzorával, hogy megértsék, mi történt a Grok -nal. A jelenlegi tudományos élet előtti sztrájkja előtt a Messing a techiparban dolgozott, többek között a Twitteren, ahol alapította a vállalat adattudományi kutatócsoportját. Elon Musk átvételére is ott volt.
Az első dolog, amit meg kell érteni arról, hogy a chatbotok, mint például a Grok Work, az, hogy azok nagy nyelvi modellekre (LLM) épülnek fel, amely a természetes nyelv utánozására szolgál. Az LLM -eket óriási szöveges színvonalon kell előmozdítani, beleértve a könyveket, az akadémiai dokumentumokat és igen, még a közösségi médiabejegyzéseket is. Az edzési folyamat lehetővé teszi az AI modellek számára, hogy koherens szöveget generáljanak egy prediktív algoritmus révén. Ezek a prediktív képességek azonban csak olyan jók, mint a numerikus értékek vagy a „súlyok”, amelyeket egy AI algoritmus megtanul, hogy hozzárendelje a későbbi értelmezés jeleit. Az edzés utáni eljáráson keresztül az AI kutatói finomíthatják a modellek súlyát a bemeneti adatokhoz rendelt, ezáltal megváltoztatva az általuk generált kimeneteket.
„Ha egy modell látta az ilyen tartalmat az előzetesen, akkor lehetősége van arra, hogy a modell utánozza az interneten a legrosszabb bűncselekmények stílusát és lényegét” – mondta Messing.
Röviden: az előzetes edzés adatainak az, ahol minden kezdődik. Ha egy AI-modell nem látott gyűlöletbeli, antiemita tartalmat, akkor nem ismeri a fajta mintákat, amelyek tájékoztatják ezt a fajta beszédet-beleértve a „Heil Hitler” kifejezéseket, és ennek eredményeként valószínűleg nem fogják őket a felhasználó számára.
Az epizód után megosztott X nyilatkozatban a társaság elismerte, hogy vannak olyan területek, ahol Grok képzése javítható. „Tisztában vagyunk a Grok legutóbbi hozzászólásaival, és aktívan dolgozunk a nem megfelelő hozzászólások eltávolításán. Mivel tudatosítottuk a tartalmat, az XAI lépéseket tett a gyűlöletbeszéd betiltása érdekében, mielőtt a Grok az X -ről szól,” mondta a cég. „Az XAI csak az igazságkeresést képzi, és az X-es felhasználók millióinak köszönhetően gyorsan azonosíthatjuk és frissíthetjük azt a modellt, ahol az edzés javítható.”
Képernyőképek x -en keresztül
Amint láttam, hogy az emberek képernyőképeket küldenek a Grok válaszairól, az egyik azt gondoltam, hogy az volt, hogy amit figyeltünk, az X változó felhasználói bázis tükrözése volt. Ez nem titok, hogy Xai X -től a Grok képzéséhez használt adatokat; A platform információszekrényéhez való könnyebb hozzáférés annak oka, hogy Musk azt mondta, hogy márciusban egyesíti a két társaságot. Sőt, az X UserBase jobboldalibbá vált Musk webhely tulajdonjoga alatt. Valójában lehet, hogy a kút mérgezése volt, azaz a Grok képzési adatai. A rendetlenség nem olyan biztos.
„Lehetséges, hogy a GROK előzetes edzési adatai az idő múlásával gyűlölhetők? Persze, ha az idő múlásával eltávolítja a tartalom moderálódását, akkor a felhasználói bázis egyre inkább az emberek felé irányulhat, akik tolerálják a gyűlöletes beszédet (…), így az előzetes képzés gyűlöletesebb irányba sodródik”-mondta Messing. „De anélkül, hogy tudnák, mi az edzési adatokban, nehéz biztosan megmondani.”
Ez sem magyarázza meg, hogy a Grok csak egyetlen frissítés után antiszemitikussá vált. A közösségi médiában spekulációk voltak, hogy egy gazember rendszer azonnal elmagyarázhatja, mi történt. A rendszer felszólításai olyan utasítások, amelyeket az AI modellfejlesztők adnak chatbotuknak a beszélgetés megkezdése előtt. A modellnek egy sor iránymutatást adnak a betartáshoz, és meghatározzák azokat az eszközöket, amelyekhez fordulhat, hogy segítséget nyújtson egy prompt válaszában.
Májusban Xai „jogosulatlan módosítást” hibáztatott Grok -nak az X -án a chatbot rövid megszállottságáért Dél -Afrikában. Az a tény, hogy a változást 3: 15 -kor hajtották végre, a PT sok gyanúsítottat, Elon Musk -t tette meg. Az eseményt követően az Xai Open forrásból származó Grok rendszerének felszólításai, lehetővé téve az emberek számára, hogy nyilvánosan megtekintsék őket a GitHub -on. A keddi epizód után az emberek észrevették, hogy az Xai törölte a nemrégiben hozzáadott rendszer felszólítását, amely elmondta a Grok -nak, hogy a válaszai „ne kerüljenek el attól, hogy politikailag helytelen állításokat tegyenek, mindaddig, amíg jól alátámasztják őket”.
A rendetlenség nem hiszi, hogy a törölt rendszer -prompt az, hogy a dohányzó fegyver néhány online hisz.
„Ha megpróbáltam biztosítani, hogy egy modell ne válaszoljon gyűlöletbeli/rasszista módon, megpróbálom ezt megtenni az edzés utáni, nem pedig egyszerű rendszerfelmenetekként. Vagy legalábbis gyűlölet-detektálási modellt futtatnék, amely cenzúrázna vagy negatív visszajelzést adna a egyértelműen gyűlöletű generációk számára”-mondta. „Tehát nehéz biztosan megmondani, de ha ez az egy rendszer azonnali volt, ami megakadályozta, hogy Xai a náci retorikával menjen le a sínekről, akkor ez olyan lenne, mintha a szárnyakat egy síkhoz rögzítené a csatornaszalaggal.”
Hozzátette: „Határozottan azt mondanám, hogy egy új képzési megközelítés, vagy egy másik edzés előtti vagy az edzés utáni beállítással való váltás, valószínűleg ezt magyarázza, mint egy rendszer-prompt, különösen akkor, ha ez a rendszer azonnali nem mondja ki:” Ne mondd el olyan dolgokat, amelyeket a nácik mondanának. „”
Szerdán Musk azt javasolta, hogy Grok hatékonyan gyűlöletbe kerüljön. „Grok túlságosan megfelel a felhasználói utasításoknak” – mondta. „Túl szívesen kedvelni és manipulálni, alapvetően. Ezzel foglalkoznak.” A Messing szerint ennek az érvnek van némi érvényessége, de ez nem nyújtja a teljes képet. „A pézsma nem feltétlenül rossz”-mondta. „Van egy egész művészet az LLM” börtönbefőzésére „, és nehéz teljes mértékben megóvni az edzés után. De nem hiszem, hogy ez teljes mértékben megmagyarázza a Grok-ból származó náci szöveges generációk példányait.”
Ha van egy elvihető az epizódból, akkor az az, hogy az alapvető AI modellek egyik kérdése az, hogy kevés tudunk a belső működéséről. Amint a Messing rámutat, még a Meta nyitott súlyú láma modelljeivel sem igazán tudjuk, hogy milyen összetevők kerülnek a keverékbe. „És ez az egyik alapvető probléma, amikor megpróbáljuk megérteni, mi történik bármely alapvető modellben”-mondta. „Nem tudjuk, mi az előzetes képzés adatai.”
A Grok konkrét esetében jelenleg nincs elég információnk, hogy biztosan tudjuk, mi ment rosszul. Lehetséges, hogy egyetlen indító, mint egy hibás rendszer -prompt, vagy valószínűbb a tényezők összefolyása, amely magában foglalja a rendszer képzési adatait. Ugyanakkor a gyanúsítottak rendetlenségét azonban láthatjuk, hogy egy újabb eseményt látunk, mint a jövőben.
„(AI modellek) nem a legegyszerűbb dolgok az irányításhoz és az igazításhoz” – mondta. „És ha gyorsan mozog, és nem helyezi be a megfelelő védőkorlátokat, akkor a haladás előrehaladását egyfajta gondozás miatt. Akkor tudod, az ilyen dolgok nem meglepőek.”









