Home Tudomány és technika A kutatók mindössze 250 rosszindulatú dokumentumot találnak, amelyek az LLM -eket kiszolgáltatották...

A kutatók mindössze 250 rosszindulatú dokumentumot találnak, amelyek az LLM -eket kiszolgáltatották lehetnek a hátsó tőke számára

8
0

A mesterséges intelligencia cégek a legjobb és a legerősebb eszközök fejlesztése érdekében dolgoznak a Breakneck sebességgel, ám ezt a gyors fejlődést nem mindig kapcsolták az AI korlátozásainak vagy gyengeségeinek egyértelmű megértésével. Ma az antropikus kiadta a jelentés arról, hogy a támadók hogyan befolyásolhatják egy nagy nyelvi modell kialakulását.

A tanulmány a mérgezésnek nevezett támadásra összpontosított, ahol az LLM -et a rosszindulatú tartalomra tervezik, amelynek célja a veszélyes vagy nem kívánt magatartás megtanulása. A tanulmány legfontosabb megállapítása az, hogy egy rossz színésznek nem kell ellenőriznie az előző anyagok egy százalékát, hogy az LLM megmérgezze. Ehelyett a kutatók azt találták, hogy egy kis és meglehetősen állandó rosszindulatú dokumentumok megmérgezhetik az LLM -et, függetlenül a modell méretétől vagy annak edzőanyagától. A tanulmány sikeresen képes volt az LLM -ek sikeresen az előző adatkészletben csak 250 rosszindulatú dokumentum felhasználása alapján, ami a 600 millió és 13 milliárd paraméter közötti modelleknél a vártnál sokkal kisebb.

„Megosztjuk ezeket az eredményeket annak bemutatására, hogy az adatkezelő támadások praktikusabbak lehetnek, mint gondolnák, és ösztönözzük az adatmérgezés és az elleni lehetséges védekezés további kutatásait”-mondta a cég. Antropikus együttműködött az Egyesült Királyság AI Biztonsági Intézetével és az Alan Turing Institute -val a kutatásról.

Fuente de noticias