Home Tudomány és technika Az Openai első új, nyitott súlyú LLM-je hat év alatt itt van

Az Openai első új, nyitott súlyú LLM-je hat év alatt itt van

3
0

A GPT-2 2019-es óta először az OpenAi új, nyílt súlyú nagy nyelvű modelleket bocsát ki. Ez egy jelentős mérföldkő egy olyan társaság számára, amelyet egyre inkább azzal vádoltak, hogy elhagyta az eredeti kijelentett küldetését, hogy “a mesterséges általános intelligencia biztosítása az egész emberiség számára”. Most, miután a kiegészítő biztonsági teszteléshez és finomításhoz több késéssel, a GPT-OSS-120B és a GPT-OSS-20B letölthető az ölelésről.

Mielőtt továbbmenne, érdemes egy pillanatra tisztázni, hogy pontosan mit csinál itt az Openai. A vállalat nem bocsát ki új nyílt forráskódú modelleket, amelyek tartalmazzák a mögöttes kódot és adatokat, amelyeket a vállalat kiképzésére használtak. Ehelyett megosztja a súlyokat – azaz azok a numerikus értékek, amelyeket a modellek megtanultak a bemenetekhez hozzárendelésükhöz képzésük során -, amelyek tájékoztatják az új rendszereket. Benjamin C. Lee, a Pennsylvaniai Egyetem mérnöki és számítástechnikai professzora szerint a nyílt súlyú és a nyílt forráskódú modellek két nagyon különböző célt szolgálnak.

“A nyílt súlyú modell biztosítja azokat az értékeket, amelyeket egy nagy nyelvi modell edzése során megtanultak, és ezek alapvetően lehetővé teszik a modell használatát és a tetejére építését. A modellt a dobozból használhatják, vagy egy adott alkalmazáshoz újradefiniálhatják vagy finomíthatják, és a súlyokat úgy állíthatják be, ahogy tetszik”-mondta. Ha a kereskedelmi modellek abszolút fekete doboz, és a nyílt forráskódú rendszer lehetővé teszi a teljes testreszabást és módosítást, akkor a nyílt súlyú AI-k valahol a közepén vannak.

Az Openai nem bocsátott ki nyílt forráskódú modelleket, valószínűleg, mivel a rivális felhasználhatja a képzési adatokat és a kódot a technika megtérítésére. “A nyílt forráskódú modell nem csupán a súlyok. Ez magában foglalja a képzési folyamat futtatásához használt kódot is”-mondta Lee. És gyakorlatilag az átlagos ember csak akkor használna ki sokat a nyílt forráskódú modellből, hacsak nem volt olyan csúcsminőségű NVIDIA GPU-k, amelyek felvették a villamosenergia-számláját. (Hasznos lennének azoknak a kutatóknak, akik többet szeretnének megtudni azokról az adatokról, amelyeket a vállalat a modellek kiképzéséhez használt, és van egy maroknyi nyílt forráskódú modell, mint például a Mistral Nemo és a Mistral Small 3)

Ehhez az útból a GPT-OSS-120B és a GPT-OSS-20B közötti elsődleges különbség az, hogy hány paraméter kínál. Ha nem ismeri a kifejezést, akkor a paraméterek azok a beállítások, amelyeket egy nagy nyelvi modell megcsinálhat, hogy válaszoljon. Az elnevezés itt kissé zavaró, de a GPT-OSS-120b egy 117 milliárd paraméter modell, míg kisebb testvére 21 milliárd.

A gyakorlatban ez azt jelenti, hogy a GPT-OSS-120B erőteljesebb hardvereket igényel a futtatáshoz, mivel az OpenAI egyetlen 80 GB-os GPU-t javasol a hatékony felhasználáshoz. A jó hír az, hogy a vállalat szerint minden modern számítógép, amelynek 16 GB-os RAM-ja képes futtatni a GPT-OSS-20B-t. Ennek eredményeként a kisebb modellt használhatja a saját számítógépén a hangulatkódhoz hasonló dolgokhoz, az internethez való csatlakozás nélkül. Sőt, az Openai az Apache 2.0 licenc segítségével elérhetővé teszi a modelleket, így az embereknek nagy rugalmasságot adnak a rendszerek igényeik szerinti módosításához.

Annak ellenére, hogy ez nem új kereskedelmi kiadás, az Openai szerint az új modellek sok szempontból összehasonlíthatók a védett rendszereivel. Az OSS modellek egyetlen korlátozása az, hogy nem kínálnak multimodális bemenetet, vagyis nem tudják feldolgozni a képeket, a videót és a hangot. Ezekhez a képességekhez továbbra is meg kell fordulnia a felhő és az Openai kereskedelmi modellekhez, olyasmi, amit mind az új nyílt súlyú rendszerek konfigurálhatnak. Ezen túlmenően azonban számos ugyanazt a képességet kínálják, beleértve a gondolkodásmód érvelését és az eszközhasználatot. Ez azt jelenti, hogy a modellek bonyolultabb problémákat tudnak megoldani, ha kisebb lépésekre bontják őket, és ha további segítségre van szükségük, akkor tudják, hogyan kell használni az internetet és a kódoló nyelveket, mint például a Python.

Ezenkívül az Openai a modelleket olyan technikákkal képezte, amelyeket a vállalat korábban az O3 és annak többi legutóbbi határrendszerének fejlesztésében alkalmazott. A versenyszintű kódoláson a GPT-OSS-120B olyan pontszámot szerzett, amely csak egy árnyékban rosszabb, mint az O3, az Openai jelenlegi legkorszerűbb érvelési modellje, míg a GPT-OSS-20B az O3-MINI és az O4-MINI között landolt. Természetesen meg kell várnunk, hogy még több valós tesztet teszteljünk, hogy megnézhessük, hogyan hasonlítják a két új modell az Openai és a riválisok kereskedelmi kínálatához.

A GPT-OSS-120B és a GPT-OSS-20B felszabadulása és az OpenAI nyilvánvaló hajlandósága a nyílt súlyú modellek duplájára, miután Mark Zuckerberg jelezte, hogy a Meta kevesebb ilyen rendszert bocsát ki a nyilvánosság számára. A nyílt forráskitűzés korábban központi szerepet játszott Zuckerberg üzenetküldésében a vállalat AI erőfeszítéseiről, amikor a vezérigazgató egyszer megjegyezte a zárt forrású rendszerek “Bassza meg” című filmjét. Legalábbis a tech rajongók szekta körében, akik hajlandóak az LLMS -rel megkísérelni, az időzítés, véletlen vagy sem, kissé kínos a meta számára.

“Azt lehet állítani, hogy a nyílt súlyú modellek demokratizálják a legnagyobb, legmegfelelőbb modellekhez való hozzáférést azoknak az embereknek, akik nem rendelkeznek ezekkel a hatalmas, hiperscale adatközpontokkal, sok GPU-val”-mondta Lee professzor. “Ez lehetővé teszi az emberek számára, hogy egy hónapos edzési folyamat kimeneteit vagy termékeit használják egy hatalmas adatközpontban anélkül, hogy önmagukban kellene befektetni az infrastruktúrába. Valaki szempontjából, aki csak azt akarja, hogy egy igazán képes modell kezdjen, majd egy alkalmazáshoz akar építeni. Úgy gondolom, hogy a nyílt-weight modellek valóban hasznosak lehetnek.”

Az Openai már néhány különféle szervezettel dolgozik ezen modellek saját verzióinak telepítésében, köztük az AI Svédországban, az ország Nemzeti Alkalmazott AI központjában. A mai bejelentés előtt tartott Openai sajtótájékoztatón a GPT-OSS-120B és a GPT-OSS-20B-n dolgozó csapat azt mondta, hogy a két modellt kísérletnek tekintik; Minél több ember használja őket, annál valószínűbb, hogy az Openai a jövőben további nyílt súlyú modelleket bocsát ki.