A chatbotok valóban lenyűgözőek lehetnek, ha figyeli őket, hogy olyan dolgokat csinálnak, amelyekben jól vannak, például reális hangzású szöveg írása vagy furcsa futurisztikus megjelenésű képek készítése. De próbálja meg kérni a Generative AI -t, hogy oldja meg az egyik rejtvényt, amelyet egy újság hátulján talál, és a dolgok gyorsan elindulhatnak a sínekről.
Ezt találták a Colorado Boulder Egyetem kutatói, amikor a különféle nagy nyelvű modelleket kihívták a Sudoku megoldására. És még a szokásos 9×9 rejtvényeket sem. A könnyebb 6×6-os puzzle gyakran túlmutatott az LLM képességein, külső segítség nélkül (ebben az esetben a puzzle-megoldó eszközök).
A fontosabb megállapítás akkor jött, amikor a modelleket felkérték, hogy mutassák meg munkájukat. Leginkább nem tudták. Néha hazudtak. Néha olyan módon magyarázták el a dolgokat, amelyeknek nincs értelme. Néha hallucináltak és elkezdtek beszélni az időjárásáról.
Ha az AI generációs eszközök nem tudják pontosan vagy átláthatóan megmagyarázni döntéseiket, akkor ez óvatosnak kell lennie, mivel ezeket a dolgokat egyre inkább ellenőrzik életünk és döntéseink felett – mondta Ashutosh Trivedi, a Colorado Egyetemen a Boulder Egyetem számítógépes professzora és a Colorado Egyetem egyik szerzője, és a számítási nyelvtisztika szövetségének megállapításaiban közzétett cikk egyik szerzője.
“Nagyon szeretnénk, ha ezek a magyarázatok átláthatóak lennének, és tükröznénk, hogy az AI miért hozta ezt a döntést, és nem az AI próbálja manipulálni az embert azáltal, hogy magyarázatot ad arra, hogy egy ember kedveli” – mondta Trivedi.
Ha döntést hoz, akkor legalább megpróbálhatja igazolni, vagy elmagyarázhatja, hogyan érkezett rá. Ez a társadalom alapvető alkotóeleme. Felelősségre vonjuk a hozott döntésekért. Előfordulhat, hogy az AI modell nem képes pontosan vagy átláthatóan megmagyarázni magát. Bízna benne?
Miért küzd az LLMS a sudokuval?
Láttuk, hogy az AI modellek korábban kudarcot vallnak az alapvető játékokon és rejtvényeken. Az Openai Chatgpt -jét (többek között) a Sakkban a számítógépes ellenfél teljesen összetörte egy 1979 -es Atari játékban. Az Apple egy nemrégiben végzett kutatási tanulmánya megállapította, hogy a modellek küzdenek más rejtvényekkel, például a Hanoi -toronyval.
Ennek köze van az LLMS működésének és az információk hiányosságainak kitöltéséhez. Ezek a modellek megpróbálják kitölteni ezeket a hiányosságokat annak alapján, hogy mi történik hasonló esetekben képzési adataikban vagy más dolgokban, amelyeket a múltban láttak. A sudoku -val a kérdés a logika. Az AI megkísérelheti az egyes réseket rendesen kitölteni, az ésszerű válasz alapján, de a megfelelő megoldáshoz inkább a teljes képet kell megnéznie, és logikus sorrendet kell találnia, amely a puzzle -ről a puzzle -re változik.
Bővebben: AI Essentials: 29 A szakértőink szerint az AI generációjának működése az Ön számára
A chatbotok hasonló okból rossz a sakkban. Logikus következő lépéseket találnak, de nem feltétlenül gondolnak három, négy vagy öt lépés előre. Ez az alapvető készség, amely a sakk jól lejátszásához szükséges. A chatbotok néha hajlamosak a sakkdarabokat olyan módon mozgatni, amelyek nem igazán követik a szabályokat, vagy értelmetlen veszélybe helyezik a darabokat.
Arra számíthat, hogy az LLM -ek képesek lesznek megoldani a sudoku -t, mert számítógépek és a puzzle számokból áll, de maguk a rejtvények nem igazán matematikai; Szimbolikusak. “A Sudoku híres arról, hogy puzzle -rel olyan számokkal, amelyeket bármi, ami nem szám,” – mondta Fabio Somenzi, a CU professzora és a kutatási cikk egyik szerzője.
Használtam a kutatók papírból származó mintát, és átadtam a chatgptnek. Az eszköz megmutatta munkáját, és többször elmondta nekem, hogy megvan a válasz, mielőtt egy puzzle -t nem működött, majd visszament és kijavította. Olyan volt, mintha a bot egy olyan prezentációban fordult volna, amely folyamatosan szerkesztést kapott: ez a végső válasz. Nem, valójában, ne törődj vele, ez a végső válasz. Végül megkapta a választ, próba és hiba útján. A próba és a hiba azonban nem gyakorlati módja annak, hogy egy személy az újságban megoldja a sudoku -t. Ez túl sok törlés és tönkreteszi a szórakozást.
Az AI és a robotok jóak lehetnek a játékokban, ha azok lejátszására épülnek, de az olyan általános célú eszközök, mint a nagy nyelvű modellek, küzdhetnek a logikai rejtvényekkel.
Ore Huiying/Bloomberg a Getty Imagesai -n keresztül küzd, hogy megmutassa munkáját
A Colorado kutatói nem csak azt akarták, hogy a robotok képesek -e megoldani a rejtvényeket. Magyarázatot kértek arról, hogy a botok hogyan működtek rajtuk. A dolgok nem mentek jól.
Az Openai O1-előzetes érvelési modelljének tesztelése során a kutatók látták, hogy a magyarázatok-még a helyesen megoldott rejtvények esetében is-nem magyarázták meg vagy igazolják mozdulatukat, és az alapvető kifejezéseket tévednek.
“Az egyik dolog, amiben jó, az ésszerűnek tűnik magyarázatok megadása” – mondta Maria Pacheco, a CU számítógépes tudományának asszisztens professzora. “Összehangolnak az emberekhez, így megtanulják beszélni, mint mi tetszik, de hűek -e ahhoz, hogy mi a tényleges lépések, hogy megoldjuk a dolgot, ahol egy kicsit küzdünk.”
Időnként a magyarázatok teljesen irrelevánsak voltak. A papír munkájának befejezése óta a kutatók továbbra is kiadták az új modelleket. Somenzi elmondta, hogy amikor ő és Trivedi ugyanazon tesztek révén futtatják az Openai O4 érvelési modelljét, egy ponton úgy tűnt, hogy teljesen feladja.
“A következő kérdés, amelyet feltettünk, a válasz Denver időjárás -előrejelzése volt” – mondta.
(Nyilvánosság: Ziff Davis, a CNET anyavállalata áprilisban pert indított az Openai ellen, állítva, hogy megsértette a ZIFF Davis szerzői jogait az AI rendszerek képzésében és üzemeltetésében.)
Fontos készség az önmaga magyarázata
Amikor megold egy rejtvényt, szinte biztosan képes valaki mást átmenni a gondolkodásodon keresztül. Az a tény, hogy ezek az LLM -ek annyira látványosan kudarcot vallottak abban az alapvető munkában, nem triviális probléma. Mivel az AI -társaságok folyamatosan beszélnek az AI ügynökökről, amelyek az Ön nevében intézkedéseket hozhatnak, elengedhetetlen az, hogy megmagyarázza magát.
Fontolja meg az AI -nek kapott munkahelyek típusát, vagy a közeljövőben tervezik: vezetés, adók elvégzése, üzleti stratégiák döntése és a fontos dokumentumok lefordítása. Képzelje el, mi történne, ha te, egy ember, megtetted az egyik ilyen dolgot, és valami rosszul ment.
“Amikor az embereknek az arcuk elé kell állítaniuk a döntéseik elé, jobban tudják magyarázni, mi vezetett ehhez a döntéshez” – mondta Somenzi.
Nem csak az ésszerű hangzású választ kapni. Pontosnak kell lennie. Egy nap az AI önmagának magyarázatának valószínűleg tartania kell a bíróságon, de hogyan lehetne komolyan venni a bizonyságát, ha ismert, hogy hazudik? Nem bízna olyan emberben, aki nem tudta megmagyarázni magukat, és nem is bízik abban, hogy valaki azt mondta, hogy azt mondta, amit az igazság helyett hallani akartál.
“A magyarázat hiánya nagyon közel áll a manipulációhoz, ha azt rossz okból teszik meg” – mondta Trivedi. “Nagyon óvatosnak kell lennünk e magyarázatok átláthatóságával kapcsolatban.”