Az AI generációra szintetikus adatokra van szüksége. Képesnek kell lennünk abban, hogy bízzunk benne

A mai generatív AI modelleket, mint például a CHATGPT és az Ikrek mögött álló modelleket, a valós adatok Reams-en képzik, de még az interneten lévő összes tartalom sem elegendő ahhoz, hogy minden lehetséges helyzethez modellt készítsen.
A növekedés folytatásához ezeket a modelleket szimulált vagy szintetikus adatokra kell képezni, amelyek olyan forgatókönyvek, amelyek valószínű, de nem valós. Az AI fejlesztőinek ezt felelősségteljesen kell megtenniük – mondta a szakértők a dél -délnyugati testületen, különben a dolgok gyorsan eljuthatnak.
A szimulált adatok felhasználása a mesterséges intelligencia modellek képzésében új figyelmet kapott ebben az évben a DeepSeek AI elindítása óta, egy új Kínában készített modell, amelyet szintetikus adatok felhasználásával képzettek, mint más modellek, pénzmegtakarítás és feldolgozási teljesítmény.
De a szakértők szerint ez több, mint az adatok gyűjtésének és feldolgozásának megtakarítása. A szintetikus adatok-a számítógép által gyakran az AI által generált számítógép-taníthat egy modellt azokról a forgatókönyvekről, amelyek nem léteznek az általa nyújtott valós információkban, de a jövőben is szembesülhet. Ennek az egy-egy-egy-egy lehetőségnek nem kell meglepetésnek lennie egy AI-modell számára, ha azt szimulációt látja.
“A szimulált adatokkal megszabadulhat az Edge -esetek gondolatától, feltételezve, hogy bízhat benne” – mondta Oji Udezue, aki a Twitter, az Atlassian, a Microsoft és más vállalatok termékcsoportjait vezette. Ő és a többi panelész vasárnap beszélt az SXSW konferencián, Austinban, Texasban. “Készíthetünk egy olyan terméket, amely elméletben 8 milliárd ember számára működik, mindaddig, amíg bízhatunk benne.”
A nehéz rész annak biztosítása, hogy bízhasson benne.
A szimulált adatokkal kapcsolatos probléma
A szimulált adatoknak sok előnye van. Egyrészt kevesebb a gyártás. Bizonyos szoftverek segítségével összeomlik a szimulált autók ezreinek ezreit, de ahhoz, hogy ugyanazokat az eredményeket érjék el a valós életben, valójában összetörnie kell az autókat – ami sok pénzt fizet – mondta Udezue.
Ha például egy önjáró autót edz, akkor néhány kevésbé gyakori forgatókönyvet kell rögzítenie, amelyeket egy jármű megtapasztalhat az utakon, még akkor is, ha nem képzési adatokban vannak-mondta Tahir Ekin, a Texas Állami Egyetem üzleti elemzésének professzora. Használta a denevérek esetét, amelyek látványos kialakulást eredményeznek az Austin Congress Avenue hídjáról. Lehet, hogy ez nem jelenik meg az edzési adatokban, de az önjáró autónak valamilyen megértésre van szüksége, hogyan reagálhat a denevérek rajjára.
A kockázatok abból származnak, hogy a szintetikus adatokkal kiképzett gép hogyan reagál a valós változásokra. Nem létezhet egy alternatív valóságban, vagy kevésbé hasznos, vagy akár veszélyes is – mondta Ekin. -Hogyan érezné magát-kérdezte-, bejutni egy önjáró autóba, amelyet nem képeztek az úton, és ezt csak a szimulált adatokra képezték? A szimulált adatokat használó rendszereket “a valós világban” kell megalapozni – mondta, beleértve a visszajelzést arról, hogy a szimulált érvelése hogyan igazodik ahhoz, ami valójában történik.
Udezue összehasonlította a problémát a közösségi média létrehozásával, amely a kommunikáció világszerte történő kibővítésének módjaként kezdődött, ezt az elért célt. De a közösségi médiát is visszaélnek, mondta, megjegyezve, hogy “most a despotok az emberek ellenőrzésére használják, és az emberek azt használják, hogy egyszerre vicceket mondjanak”.
Ahogy az AI eszközök méretarányában és népszerűségben növekednek, a szintetikus edzési adatok felhasználásával megkönnyítik a forgatókönyvet, a megbízhatatlan képzés és a valóságtól való eltérő modellek valós hatásai jelentősebbé válnak. “A teher az amerikai építőkre, a tudósokra, hogy dupla, hármas biztos, biztos, hogy a rendszer megbízható” – mondta Udezue. “Ez nem fantázia.”
Hogyan lehet ellenőrizni a szimulált adatokat
Az egyik módja annak, hogy a modellek megbízhatóak legyenek, az, hogy átláthatóvá tegyék képzésüket, hogy a felhasználók választhassák meg, hogy melyik modellt használják az információk értékelése alapján. A panelisták többször is felhasználták a táplálkozási címke analógiáját, amelyet a felhasználó számára könnyű megérteni.
Néhány átlátszóság létezik, például a fejlesztői platformon keresztül, átölelhető modellkártyák, amelyek lebontják a különböző rendszerek részleteit. Mike Hollinger, a Chipmaker Nvidia, a Chipmaker AI termékmenedzsment igazgatójának, a Chipmaker Nvidia termékmenedzsmentének igazgatójának a lehető legvilágosabbnak és átláthatóbbnak kell lennie. “Az ilyen típusú dolgoknak a helyükön kell lenniük” – mondta.
Hollinger azt mondta, hogy végül nem csak az AI fejlesztők, hanem az AI felhasználók is meghatározzák az iparág legjobb gyakorlatait.
Az iparágnak az etikát és a kockázatokat is szem előtt kell tartania – mondta Udezue. “A szintetikus adatok sok mindent megkönnyíthetnek” – mondta. “Ez csökkenti a dolgok építésének költségeit. De ezek közül néhány megváltoztatja a társadalmat.”
Udezue elmondta, hogy a megfigyelhetőséget, az átláthatóságot és a bizalmat be kell építeni a modellekbe, hogy biztosítsák azok megbízhatóságát. Ez magában foglalja a képzési modellek frissítését, hogy azok tükrözzék a pontos adatokat, és ne nagyítsák a szintetikus adatok hibáit. Az egyik aggodalom a modell összeomlása, amikor egy más AI modellek által előállított adatokra képzett AI modell egyre távolabb lesz a valóságtól, a haszontalanságig.
“Minél jobban félsz a valós sokféleség megragadásától, a válaszok egészségtelenek lehetnek” – mondta Udezue. A megoldás a hibajavítás – mondta. “Ezek nem érzik magukat megoldhatatlan problémáknak, ha egyesítik a bizalom, az átláthatóság és a hibajavítás gondolatát.”