Valószínű, hogy hallottál a „nagy nyelvi modellek” vagy az LLMS kifejezésről, amikor az emberek a generatív AI -ről beszélnek. De nem egészen szinonimák a márkanév chatbotjainak, mint például a Chatgpt, a Google Gemini, a Microsoft Copilot, a Meta AI és az Antropic’s Claude.
Ezek az AI chatbotok lenyűgöző eredményeket hozhatnak, de valójában nem értik a szavak jelentését, ahogyan mi. Ehelyett ők az a felület, amelyet a nagy nyelvi modellekkel való interakcióhoz használunk. Ezeket a mögöttes technológiákat kiképzik annak felismerésére, hogy a szavak hogyan használják, és mely szavak gyakran jelennek meg, hogy megjósolhassák a jövőbeli szavakat, mondatokat vagy bekezdéseket. Az LLMS működésének megértése kulcsfontosságú az AI működésében. És mivel az AI egyre gyakoribbá válik a napi online tapasztalatainkban, ezt tudnia kell.
Ez minden, amit tudnod kell az LLMS -ről és arról, hogy mi köze van az AI -hez.
Mi az a nyelvi modell?
Gondolhat egy nyelvmodellre, mint a szavak soothsayer -jére.
„A nyelvmodell valami, ami megpróbálja megjósolni, hogy néz ki a nyelv az emberek előállítása” – mondta Mark Riedl, a Georgia Tech Interaktív Számítástechnikai Iskola professzora és a Georgia Tech Machine Learning Center társult igazgatója. „Amit valami nyelvmodellé tesz, az az, hogy meg tudja -e jósolni a jövőbeli szavakat a korábbi szavak alapján.”
Ez az automatikus kiegészítő funkcionalitás alapja, amikor sms -t, valamint az AI chatbotokat.
Mi az a nagy nyelvi modell?
Egy nagy nyelvi modell hatalmas mennyiségű szót tartalmaz a források széles skálájából. Ezeket a modelleket a „paraméterek” néven mérik.
Szóval, mi a paraméter?
Nos, az LLM -ek neurális hálózatokat használnak, amelyek olyan gépi tanulási modellek, amelyek bemeneti és matematikai számításokat végeznek a kimenet előállításához. Az ezekben a számításokban a változók száma paraméterek. Egy nagy nyelvi modellnek legalább 1 milliárd paraméter lehet.
„Tudjuk, hogy nagyok, ha teljes bekezdéseket készítenek a koherens folyadék szövegből” – mondta Riedl.
Hogyan tanulnak meg a nagy nyelvi modellek?
Az LLMS a mély tanulásnak nevezett alapvető AI -folyamaton keresztül tanul.
„Nagyon hasonlít, amikor egy gyermeket tanít – sok példát mutat be” – mondta Jason Alan Snyder, a Lomentum hirdetési ügynökség globális vezérigazgatója.
Más szavakkal, az LLM -et tartalom könyvtárat (az úgynevezett képzési adatok), például könyveket, cikkeket, kódot és közösségi média hozzászólásait adja meg, hogy megértse, hogyan használják a szavakat a különböző kontextusokban, és még a nyelv finomabb árnyalatait is. Az AI -társaságok adatgyűjtési és képzési gyakorlata néhány vita és néhány pert tárgyal. Az olyan kiadók, mint a New York Times, a művészek és más tartalomkatalógus tulajdonosai azt állítják, hogy a technológiai társaságok szerzői joggal védett anyagukat a szükséges engedélyek nélkül használják.
(Nyilvánosság: Ziff Davis, a CNET anyavállalata áprilisban pert indított az Openai ellen, állítva, hogy megsértette a ZIFF Davis szerzői jogait az AI rendszerek képzésében és üzemeltetésében.)
Az AI modellek sokkal többet emésztnek, mint egy ember életében valaha is elolvashatott volna – valami tokenek billióinak sorrendjében. A zsetonok segítenek az AI modellek lebontásában és feldolgozásában. Gondolhat egy AI modellre, mint olyan olvasóra, akinek segítségre van szüksége. A modell egy mondatot kisebb darabokra vagy tokenekre bontja-amelyek négy angol nyelvű, vagy egy szó háromnegyedének négy karakterrel egyenértékűek-, így megértheti az egyes darabokat, majd az általános jelentést.
Innentől az LLM elemezheti, hogy a szavak hogyan kapcsolódnak és meghatározzák, mely szavak gyakran jelennek meg együtt.
„Olyan, mintha elkészítheti ezt az óriási szókapcsolat -térképet” – mondta Snyder. „És akkor elkezdi ezt megtenni ezt a nagyon szórakoztató, hűvös dolgot, és megjósolja, mi a következő szó … és összehasonlítja az előrejelzést az adatok tényleges szóval, és a belső térképet a pontossága alapján beállítja.”
Ez az előrejelzés és a kiigazítás milliárdszor történik, tehát az LLM folyamatosan finomítja a nyelv megértését, és javul a minták azonosításában és a jövőbeli szavak előrejelzésében. Még az adatokból is megtanulhatja fogalmakat és tényeket a kérdések megválaszolására, a kreatív szöveges formátumok létrehozására és a nyelvek lefordítása érdekében. De nem értik a szavak jelentését, mint mi – csak a statisztikai kapcsolatok tudják.
Az LLM -ek megtanulják javítani a válaszukat az emberi visszajelzésekből származó megerősítési tanulás révén.
„Az emberektől ítéletet vagy preferenciát kapsz, amelyre a válasz jobb, ha azt a megadott hozzászólásnak adta” – mondta Maarten SAP, a Carnegie Mellon Egyetem Nyelvi Technológiák Intézetének asszisztens professzora. „És akkor megtaníthatja a modellt a válaszok javítása érdekében.”
Az LLM -ek jól kezelik néhány feladatot, mások nem.
Alexander Sikov/istock/Getty Images Plus mit csinálnak a nagy nyelvi modellek?
A bemeneti szavak sorozatának alapján az LLM megjósolja a következő szót egy sorrendben.
Például vegye figyelembe a következő kifejezést: „A mélykéken vitorláztam …”
A legtöbb ember valószínűleg azt fogja kitalálni, hogy a „tenger”, mert a vitorlázás, a mély és a kék mind a tengerhez társulunk. Más szavakkal, minden szó beállítja a kontextust arra, hogy mi legyen a következő.
„Ezek a nagy nyelvi modellek, mivel sok paraméterük van, sok mintát tudnak tárolni” – mondta Riedl. „Nagyon jól tudják kiválasztani ezeket a nyomokat, és igazán, nagyon jó kitalálásokat készíthetnek a következőkben.”
Melyek a különféle nyelvi modellek?
Van néhány típusú alkategória, amelyet hallhatott, mint például a kicsi, érvelés és a nyílt forrású/nyílt súlyok. Ezen modellek némelyike multimodális, ami azt jelenti, hogy nemcsak a szövegen, hanem a képeken, a videóban és a hangon is képznek. Ezek mind nyelvi modellek, és ugyanazokat a funkciókat hajtják végre, de vannak olyan kulcsfontosságú különbségek, amelyeket tudnia kell.
Van -e olyan dolog, mint egy kis nyelvi modell?
Igen. Az olyan technológiai vállalatok, mint a Microsoft, kisebb modelleket vezettek be, amelyeket úgy terveztek, hogy az „eszközön” működjenek, és nem igényelnek ugyanazokat a számítási erőforrásokat, mint az LLM, de ennek ellenére segíti a felhasználókat a generatív AI erejébe.
Melyek az AI érvelési modellek?
Az érvelési modellek egyfajta LLM. Ezek a modellek bepillantást adnak a függöny mögött egy chatbot gondolatmenetén, miközben válaszolnak a kérdéseire. Lehet, hogy látta ezt a folyamatot, ha a DeepSeek -t, egy kínai AI chatbotot használta.
De mi van a nyílt forráskódú és nyílt súlyú modellekkel?
Mégis, LLMS! Ezeket a modelleket úgy tervezték, hogy egy kicsit átláthatóbbak legyenek a működéséről. A nyílt forráskódú modellek lehetővé teszik, hogy bárki látja, hogyan épült a modell, és általában bárki számára is rendelkezésre állnak, hogy testreszabhassák és felépítsék. A nyílt súlyú modellek némi betekintést nyújtanak a modell mérlegelésébe a döntések meghozatalakor.
Mit csinálnak nagyon jól a nagy nyelvi modellek?
Az LLM -ek nagyon jól tudják kitalálni a szavak közötti kapcsolatot és a természetesnek hangzó szöveget.
„Bemenetet vesznek, amely gyakran utasításkészlet lehet, például:” csináld nekem „vagy” mesélj erről „vagy” összefoglalja ezt „, és képesek kinyerni ezeket a mintákat a bemenetből, és hosszú sor folyadékválaszot készíteni” – mondta Riedl.
De több gyengeségük van.
Hol küzdenek a nagy nyelvi modellek?
Először is, nem jók az igazság elmondásában. Valójában néha csak olyan dolgokat készítenek, amelyek igaznak hangzik, például amikor a Chatgpt hat hamis bírósági ügyet idézett jogi röviden, vagy amikor a Google Bard (az Ikrek elődje) tévesen jóváírja a James Webb űrteleszkópját egy bolygó első képeinek elkészítésével a Naprendszerünkön kívül. Ezeket hallucinációknak hívják.
„Rendkívül megbízhatatlanok abban az értelemben, hogy konfabulálnak és sokat alkotnak” – mondta SAP. „Semmilyen módon nem képzett vagy megtervezték őket, hogy valami igazságot kiküszöböljenek.”
Harcolnak olyan kérdésekkel is, amelyek alapvetően különböznek attól, amit korábban találkoztak. Ennek oka az, hogy a minták megtalálására és reagálására összpontosítanak.
Jó példa erre az egyedi számkészlet matematikai problémája.
„Lehet, hogy nem tudja helyesen elvégezni ezt a számítást, mert nem igazán oldja meg a matematikát” – mondta Riedl. „Megpróbálja összekapcsolni a matematikai kérdésedet a korábbi matematikai kérdések korábbi példáival.”
Miközben kiemelkednek a szavak előrejelzésében, nem jók a jövő előrejelzésében, amely magában foglalja a tervezést és a döntéshozatalt.
„Az a gondolat, hogy a tervezést úgy végezzék el, ahogyan az emberek ezt csinálják, ha a különféle esetleges eseményekre és alternatívákra gondolkodnak, és döntéseket hoznak, ez úgy tűnik, hogy ez egy nagyon nehéz akadály a jelenlegi nagy nyelvi modellek számára” – mondta Riedl.
Végül küzdenek a jelenlegi eseményekkel, mert az edzési adataik általában csak egy bizonyos időpontra jutnak, és bármi, ami ezt követően történik, nem része a tudásbázisuknak. Mivel nem képesek megkülönböztetni azt, ami ténylegesen igaz, és ami valószínű, magabiztosan nyújthatnak helytelen információkat az aktuális eseményekről.
Nem is lépnek kapcsolatba a világgal úgy, ahogy mi.
„Ez megnehezíti számukra a jelenlegi események árnyalatainak és összetettségének megértését, amelyek gyakran megkövetelik a kontextus, a társadalmi dinamika és a valós következmények megértését”-mondta Snyder.
Hogyan integrálják az LLM -eket a keresőmotorokkal?
Látjuk, hogy a visszakeresési képességek fejlődnek azon túl, amit a modellek képztek, ideértve a Google -hoz hasonló keresőmotorokkal való kapcsolatfelvételt, hogy a modellek webes kereséseket végezzenek, majd ezeket az eredményeket az LLM -be adják be. Ez azt jelenti, hogy jobban megérthetik a lekérdezéseket, és időszerűbb válaszokat adnak.
„Ez elősegíti a kapcsolódási modellek számára, hogy aktuális és naprakész maradjanak, mert valójában új információkat tudnak megnézni az interneten, és behozhatják”-mondta Riedl.
Ez volt a cél, például egy ideje az AI-alapú Bing-rel. Ahelyett, hogy a keresőmotorokba csapódna be a válaszok javítása érdekében, a Microsoft az AI -hez keresett, hogy javítsa saját keresőmotorját, részben azáltal, hogy jobban megérti a fogyasztói lekérdezések mögött meghúzódó valódi jelentést, és jobban rangsorolja az említett lekérdezések eredményeit. Tavaly novemberben az Openai bemutatta a Chatgpt keresést, hozzáféréssel néhány hírkiadó információhoz.
De vannak fogások. A webes keresés még rosszabbá teheti a hallucinációkat anélkül, hogy megfelelő tény-ellenőrző mechanizmusokat használna. És az LLM -nek meg kell tanulnia, hogyan kell felmérni a webforrások megbízhatóságát, mielőtt hivatkoznának. A Google megtudta, hogy az AI áttekintések keresési eredményeinek hibára hajlamos debütálása. A keresővállalat ezt követően finomította az AI áttekintési eredményeit a félrevezető vagy potenciálisan veszélyes összefoglalók csökkentése érdekében. De még a legfrissebb jelentések is azt mutatták, hogy az AI áttekintése nem következetesen megmondja, mi az év.
További információkért nézze meg szakértői AI alapvető elemek listáját és a 2025 -ös legjobb chatbotokat.








