A DeepSeek az önfejlesztő modellekkel való következő AI-megszakadást készíti

Alig néhány hónappal ezelőtt a Wall Street nagy tétje a Generative AI -nek egy pillanatra számított, amikor DeepSeek megérkezett a helyszínre. Az erősen cenzúrázott jellege ellenére a nyílt forráskódú mélység bebizonyította, hogy a határ menti érvelési AI modell nem feltétlenül igényel milliárd dollárt, és szerény erőforrásokkal vonható le.
Gyorsan megtalálta az olyan óriások által, mint a Huawei, az Oppo és a Vivo kereskedelmi örökbefogadását, míg a Microsoft, az Alibaba és a Tencent kedvelői gyorsan helyet adtak a platformon. Most a zümmögő kínai vállalat következő célpontja az önfejlesztő AI modellek, amelyek hurkoló bíró-haszon megközelítést alkalmaznak önmaguk fejlesztésére.
Egy előre nyomtatott cikkben (a Bloomberg-en keresztül) a DeepSeek és a Kína Tsinghua Egyetem kutatói egy új megközelítést írnak le, amely az AI modelleket intelligensebbé és hatékonyabbá teheti önfejlesztő módon. Az alapjául szolgáló technológiát önmagában elterjedt kritika hangolásnak (SPCT) hívják, és a megközelítést technikailag generatív jutalommodellezésnek (GRM) hívják.
Nadeem Sarwar / digitális trendek
A legegyszerűbb szempontból ez kissé olyan, mint egy visszacsatolási hurok létrehozása valós időben. Az AI modellt alapvetően javítják, ha a modell méretét az edzés során növelik. Ez sok emberi munkát igényel és számítástechnikai forrásokat igényel. A DeepSeek olyan rendszert javasol, amelyben az alapjául szolgáló „bíró” saját kritikájával és alapelveivel érkezik az AI -modell számára, mivel a felhasználói lekérdezésekre adott választ készít.
Ezt a kritikát és alapelveket ezután összehasonlítják az AI modell középpontjában álló statikus szabályokkal és a kívánt eredményvel. Ha magas a mérkőzés, jutalomjel jön létre, amely hatékonyan útmutatást ad az AI -nek, hogy a következő ciklusban még jobban teljesítsen.
A cikk mögött álló szakértők az önfejlesztő AI modellek következő generációjára utalnak, mint a DeepSeek-GRM. A cikkben felsorolt referenciaértékek azt sugallják, hogy ezek a modellek jobban teljesítenek, mint a Google Gemini, a Meta’s Llama és az Openai GPT-4O modelljei. A DeepSeek szerint ezeket a következő generációs AI modelleket a nyílt forráskódú csatornán adják ki.
Önfejlesztő AI? Dartmouth Főiskola
Az AI témája, amely javulhat, ambiciózus és ellentmondásos megjegyzéseket vonzott. Eric Schmidt, a Google volt vezérigazgatója azzal érvelt, hogy szükségünk lehet egy ilyen rendszerhez Kill Switch -re. „Amikor a rendszer önmagában is képes, komolyan gondolkodnunk kell annak kihúzásáról”-idézte Schmidt a Fortune-nak.
A rekurzívan önfejlesztő AI fogalma nem pontosan új koncepció. Az ultra intelligens gép gondolata, amely később még jobb gépeket készíthet, valójában 1965-ben a matematikus IJ-hez vezet vissza. 2007-ben az AI szakértője, Eliezer Yudkowsky feltételezte a Seed AI-t, az AI-t, amely „önmagának önmagára, önmozícióra és rekurzuális önfejlesztésre tervezett.”
2024 -ben a japán Sakana AI részletezte az „AI tudós” fogalmát egy olyan rendszerről, amely képes átadni egy kutatási cikk teljes csővezetékét az elejétől a végéig. Az idén márciusban közzétett kutatási cikkben a Meta szakértői felfedték az önértékelő nyelvmodelleket, ahol maga az AI bíróként jár el, hogy jutalmakat nyújtson a képzés során.
A Microsoft vezérigazgatója, Satya Nadella szerint az AI fejlesztését az Openai O1 modellje optimalizálja, és egy rekurzív szakaszba lépett be: „Az AI -t használjuk az AI eszközök felépítéséhez” pic.twitter.com/ihufipql2c
– Csarathustra (@tarnick) 2024. október 21.
A Meta belső tesztjei a Llama 2 AI modelljén az új önértékelési technikával láthatták, hogy felülmúlta a riválisokat, mint például az Antropic’s Claude 2, a Google Gemini Pro és az Openai GPT-4 modelljei. Az Amazon által támogatott antropikus részletezi, amit jutalom-megsemmisítésnek hívnak, egy váratlan folyamat „, ahol egy modell közvetlenül módosítja a saját jutalommechanizmust”.
A Google nem túl messze van az ötletről. A Hónap elején a Nature Journal-ban közzétett tanulmányban a Google DeepMind szakértői egy AI algoritmust mutattak be, amelyet Dreamernek neveznek, amely önmagában is képes, és a Minecraft játékot használja gyakorlati példaként.
Az IBM szakértői a deduktív bezárási képzésnek nevezett saját megközelítésükön dolgoznak, ahol az AI modell saját válaszait használja, és értékeli azokat a képzési adatokkal, hogy javuljon. Az egész előfeltevés azonban nem minden napsütés és szivárvány.
A kutatások azt sugallják, hogy amikor az AI-modellek megpróbálják edzeni magukat önmagukban generált szintetikus adatokra, ez olyan hibákhoz vezet, amelyek köznyelven „modell összeomlása” néven ismertek. Érdekes lenne látni, hogy a DeepSeek mennyire hajtja végre az ötletet, és hogy ez meg tudják -e megtakarítani, mint a nyugati riválisai.