Az NVIDIA állítólag szintetikus adatgyártást vásárolt. Tehát mi a szintetikus adatok?

A Chipmaker Nvidia tovább támaszkodik a generatív AI fejlesztők számára történő eszközök előállításához, a GRETEL szintetikus adatgyártó cégének több mint 320 millió dollárért történő megszerzésével, a Wired jelentése szerint.
A lépés az, amikor a generatív AI cégek küzdenek, hogy elegendő adatot találjanak a modellek kiképzéséhez és fejlesztéséhez, növelve az adatok előállításának szükségességét.
A jelentés szerint Gretel alkalmazottait az NVIDIA -ba hajtják. A Gretel, amely szintetikus vagy szimulált adatokat állít elő az AI modell edzéshez, támogatja az NVIDIA kínálatát az AI fejlesztők számára.
Az NVIDIA szóvivője elutasította a jelentést.
Miért számít a szintetikus adatok?
A generatív AI modellek edzése, mint például az Openai Chatgpt, egy nagy nyelvi modell, sok adatot igényel. A valós adatok problémákat okozhatnak az AI fejlesztők számára-nevezetesen zajos lehet, és nincs elég.
Az AI cégek felállnak a számukra szabadon elérhető képzési adatok korlátozásával, és konfliktusokhoz vezetnek a szerzői joggal védett tartalom felhasználásával. Színészek, írók és igazgatók százai nyílt levelet nyújtottak be a Trump Adminisztráció Tudományos és Technológiai Politikai Hivatalának, hogy felhívják a figyelmet a szerzői joggal védett adatok felhasználásával kapcsolatos aggodalmaikra. Jelenleg az OpenAi azt kéri a kormányt, hogy nagyobb hozzáférést biztosítson a szerzői joggal védett anyagokhoz az AI modellek kiképzéséhez, különben az amerikai vállalatokat Kína hagyja el.
Nézze meg ezt: Nézze meg az NVIDIA GTC 2025 Keynote -t: Az összes kiemelés 16 perc alatt
16:26
A szintetikus adatoknak is van értéke a privát információk védelmében. Gretel szerint szintetikus adatai felhasználhatók a modellek és eszközök képzésére anélkül, hogy érzékeny vagy személyes információkat feltárnának – például olyan egészségügyi adatokat, amelyek nem azonosítják az egyes embereket, és potenciálisan megsértik az adatvédelmi törvényeket.
Aggodalmak merülnek fel az ilyen adatok felhasználásával a modellképzésben. A valóságban nem gyökerező információk túlzott mértékű támaszkodása növelheti annak valószínűségét, hogy egy modell hibás lesz. Ha a probléma elég rossz lesz, akkor a modell összeomlásának nevezett problémát okozhat, amikor a modell annyira pontatlan lesz, hogy haszontalanná válik.