francia fejlesztő Mistral AI új nyelvi modelleket ad ki, amelyek célja, hogy több emberhez juttassák el a csúcskategóriás AI-képességeket, függetlenül attól, hogy hol vannak, mennyire megbízható az internet-hozzáférésük, vagy milyen nyelven beszélnek.
A cég kedden bejelentette a Mistral Large 3 nevű új nagy nyelvi modellt, amelyet széleskörű, általános felhasználásra szántak. Gondol ChatGPT vagy Ikrek. A többi modell többféle méretben és képességgel rendelkezik, és használatra készült eszközökön maguk. Ezek a kisebb modellek laptopokon, okostelefonokon, autókban vagy robotokon is futhatnak, és meghatározott feladatok elvégzésére hangolhatók.
Az összes modell az nyílt forráskódú és nyitott súly, ami azt jelenti, hogy az ezeket használó fejlesztők láthatják, hogyan működnek, és igényeiknek megfelelően alakíthatják azokat. „Nagyon mélyen hiszünk abban, hogy ez mindenki számára elérhetővé teszi a mesterséges intelligenciát, és alapvetően a kezébe adjuk az MI-t” – mondta Guillaume Lample, a Mistral AI társalapítója és vezető tudósa egy interjúban.
A Google DeepMind és Meta egykori kutatói által alapított Mistral AI nem olyan nagy név az Egyesült Államokban, mint az olyan riválisok, mint az OpenAI és az Anthropic, de Európában ismertebb. A kutatók és cégek számára elérhető modellek mellett a Le Chat nevű chatbotot is kínálja, amely elérhető böngészőn keresztül vagy az alkalmazásboltokban.
Többnyelvűre tervezett mesterséges intelligencia modellek
Lample elmondta, hogy a vállalat célja az új modellkészlettel, hogy csúcskategóriás, határ menti AI-képességeket biztosítson, amelyek nyílt forráskódúak és hozzáférhetőek. Ennek egy része a nyelvhez kapcsolódik. A legtöbb népszerű mesterséges intelligencia modell az Egyesült Államokban elsősorban angol nyelvű használatra készült, csakúgy, mint a benchmarking eszközök, amelyek összehasonlítják a modellek képességeit. És bár ezek a modellek képesek más nyelveken is működni és lefordítani, előfordulhat, hogy nem olyan jók, mint a referenciaértékek sugallják, ha nem angol nyelveken használják, mondta Lample.
Nézd meg ezt: Kifejleszthet-e az AI szerencsejáték-függőséget? Az AI által vezérelt böngészőháborúk és a ZDNET Jason Hinerrel végzett munka jövője | Tech Today
07:38
A Mistral AI azt szerette volna, ha új modelljei minden nyelvet beszélők számára jobban működnek, ezért az angol adatokkal arányosan növelte a nem angol nyelvű képzési adatok mennyiségét. „Úgy gondolom, hogy az emberek általában nem erőltetik túlságosan a többnyelvűséget, mert ha megteszik, egy kicsit rontják a mindenki által látott népszerű benchmark teljesítményét is” – mondta Lample. „Tehát ha azt szeretné, hogy modellje valóban ragyogjon a népszerű benchmarkokon, fel kell áldoznia a többnyelvűséget (teljesítményt). És fordítva, ha azt szeretné, hogy a modell valóban jó legyen a többnyelvűségben, akkor alapvetően fel kell adnia a népszerű benchmarkokat.”
Változatos méretek sokféle felhasználáshoz
Az általános célú Mistral Large 3 modellen kívül, összesen 675 milliárd paraméterrel, három kisebb modell, a Ministral 3 – 3 milliárd, 8 milliárd és 14 milliárd paraméter – van, amelyek mindegyike háromféle, összesen kilenc változatban kapható. (A paraméter az a súly vagy függvény, amely megmondja a modellnek, hogyan kezelje a bemeneti adatait. A nagyobb modellek jobbak és hatékonyabbak, de nagyobb számítási teljesítményre van szükségük, és lassabban működnek.)
A kisebb modellek három változata így bomlik le: egy alapmodell, amelyet a felhasználó módosíthat és beállíthat, egy a Mistral által finomhangolt, hogy jól teljesítsen, egy pedig az érvelésre épített több időt tölt a lekérdezések iterálásával és feldolgozásával, hogy jobb választ kapjon.
Lample szerint a kisebb modellek különösen fontosak, mivel sok mesterséges intelligencia-felhasználó olyasmit szeretne, ami egy vagy két feladatot jól és hatékonyan végez, szemben a nagy és költséges általános modellekkel. A fejlesztők testreszabhatják ezeket a modelleket az adott munkákhoz, és egy személy vagy egy vállalat saját szerverén tárolhatja őket, így megtakaríthatják a valahol egy adatközpontban való üzemeltetés költségeit.
A kisebb modellek bizonyos eszközökön is működhetnek. Egy kicsi futhat az okostelefonon, egy kicsit nagyobb a laptopon. Ez előnyökkel jár a magánélet és a biztonság szempontjából – az adatok soha nem hagyják el az eszközt –, valamint költség- és energiamegtakarítást jelent.
Az eszközön futó kis modellnek sincs szüksége internet-hozzáférésre a működéséhez, ami létfontosságú, ha arra gondolunk, hogy az AI-t olyan dolgokban használják, mint például a robotok és az autók, ahol nem számíthatunk megbízható Wi-Fi-re a dolgok megfelelő működéséhez.









