Home Hír A Google úgy találja, hogy az AI chatbotok csak 69%-ban pontosak… a...

A Google úgy találja, hogy az AI chatbotok csak 69%-ban pontosak… a legjobb esetben is

4
0

Google egy nyers értékelést tett közzé arról, hogy a mai mesterséges intelligencia chatbotjai mennyire megbízhatóak, és a számok nem hízelgőek. Az újonnan bevezetett TÉNYEK Benchmark Suitea cég azt is megállapította a legjobb AI modellek küzdenek a 70%-os ténybeli pontossági ráta túllépéséért. A legjobban teljesítő, Gemini 3 Proelérte a 69%-os általános pontosságot, míg más vezető rendszerek tól OpenAI, Antropikusés xAI még alacsonyabb pontszámot ért el. Az elvitel egyszerű és kényelmetlen. Ezek a chatbotok még mindig nagyjából minden harmadikból egy rossz választ adnak, még akkor is, ha magabiztosnak tűnnek.

A benchmark számít, mert a legtöbb létező Az AI-tesztek arra összpontosítanak, hogy egy modell képes-e elvégezni egy feladatot, nem pedig arra, hogy az általa előállított információ valóban igaz-e. Az olyan iparágak számára, mint a pénzügy, az egészségügy és a jog, ez a szakadék költséges lehet. A magabiztosnak tűnő, de hibákat tartalmazó gördülékeny válasz valódi károkat okozhat, különösen akkor, ha a felhasználók azt feltételezik, hogy a chatbot tudja, miről beszél.

Amit a Google pontossági tesztje feltár a Google számára

A FACTS Benchmark Suite-ot a Google FACTS csapata építette a Kaggle-lel, hogy közvetlenül tesztelje a tények pontosságát négy, valós használat során. Az egyik teszt a parametrikus tudást méri, amely azt ellenőrzi, hogy egy modell meg tud-e válaszolni a tényeken alapuló kérdésekre csak azzal, amit a képzés során tanult. Egy másik a keresési teljesítményt értékeli, tesztelve, hogy a modellek mennyire használják a webes eszközöket a pontos információk lekérésére. A harmadik a földelésre összpontosít, vagyis arra, hogy a modell ragaszkodik-e a megadott dokumentumhoz anélkül, hogy hamis részleteket adna hozzá. A negyedik a multimodális megértést vizsgálja, például diagramok, diagramok és képek helyes olvasását.

Google

Az eredmények éles különbségeket mutatnak a modellek között. A Gemini 3 Pro vezette a ranglistát 69%-os FACTS-pontszámmal, majd a Gemini 2.5 Pro és az OpenAI’s ChatGPT-5 közel 62 százalék. Claude 4.5 Opus ~51%-on landolt, míg a Grok 4 ~54%-ot ért el. A multimodális feladatok voltak a leggyengébb terület az egész világon, a pontosság gyakran 50% alatti. Ez azért fontos, mert ezek a feladatok diagramok, diagramok vagy képek olvasását foglalják magukban, ahol a chatbot magabiztosan félreolvashatja az értékesítési grafikont, vagy rossz számot húzhat ki egy dokumentumból, ami könnyen kihagyható, de nehezen visszavonható hibákhoz vezethet.

A lényeg nem az, hogy a chatbotok haszontalanok, de a vak bizalom kockázatos. A Google saját adatai szerint a mesterséges intelligencia javul, de még mindig szükség van ellenőrzésre, védőkorlátokra és emberi felügyeletre, mielőtt az igazság megbízható forrásaként kezelhető lenne.

Fuente de noticias