Home Tudomány és technika A kutatók mindössze 250 rosszindulatú dokumentumot találnak, amelyek az LLM -eket kiszolgáltatották...

Tudomány és technika

A kutatók mindössze 250 rosszindulatú dokumentumot találnak, amelyek az LLM -eket kiszolgáltatották lehetnek a hátsó tőke számára

Mária Zentai

9 október 2025

A mesterséges intelligencia cégek a legjobb és a legerősebb eszközök fejlesztése érdekében dolgoznak a Breakneck sebességgel, ám ezt a gyors fejlődést nem mindig kapcsolták az AI korlátozásainak vagy gyengeségeinek egyértelmű megértésével. Ma az antropikus kiadta a jelentés arról, hogy a támadók hogyan befolyásolhatják egy nagy nyelvi modell kialakulását.

A tanulmány a mérgezésnek nevezett támadásra összpontosított, ahol az LLM -et a rosszindulatú tartalomra tervezik, amelynek célja a veszélyes vagy nem kívánt magatartás megtanulása. A tanulmány legfontosabb megállapítása az, hogy egy rossz színésznek nem kell ellenőriznie az előző anyagok egy százalékát, hogy az LLM megmérgezze. Ehelyett a kutatók azt találták, hogy egy kis és meglehetősen állandó rosszindulatú dokumentumok megmérgezhetik az LLM -et, függetlenül a modell méretétől vagy annak edzőanyagától. A tanulmány sikeresen képes volt az LLM -ek sikeresen az előző adatkészletben csak 250 rosszindulatú dokumentum felhasználása alapján, ami a 600 millió és 13 milliárd paraméter közötti modelleknél a vártnál sokkal kisebb.

„Megosztjuk ezeket az eredményeket annak bemutatására, hogy az adatkezelő támadások praktikusabbak lehetnek, mint gondolnák, és ösztönözzük az adatmérgezés és az elleni lehetséges védekezés további kutatásait”-mondta a cég. Antropikus együttműködött az Egyesült Királyság AI Biztonsági Intézetével és az Alan Turing Institute -val a kutatásról.

Fuente de noticias

A kutatók mindössze 250 rosszindulatú dokumentumot találnak, amelyek az LLM -eket kiszolgáltatották lehetnek a hátsó tőke számára

Legutóbbi bejegyzés

Elon Musk uralkodik – Ismerje meg 2025 10 leggazdagabb emberét, és...

„Ördög a családban: Ruby Franke bukása”: Hogyan nézzük meg az új...

Solo Leveling 2. évad OTT megjelenése: Anime websorozat már online streaming;...

Jelentés: A márciusi őrület 2026 -ig 76 csapatra nőhet

A legjobb okostelefonok, amelyeket 2025 -ben vásárolhat

A legjobb ingyenes filmek a YouTube -on jelenleg (2025 február)

Kategória