Kiderült, hogy az AI modelleket szerzői joggal védett anyag nélkül képezheti

Mária Zentai2 weeks agoLast Updated: 5 June 2025

Az AI vállalatok azt állítják, hogy eszközeik nem létezhetnek szerzői joggal védett anyagok képzése nélkül. Kiderült, hogy tudnak – csak nagyon nehéz. Ennek bizonyítására az AI kutatói egy új modellt képeztek, amely kevésbé erős, de sokkal etikusabb. Ennek oka az, hogy az LLM adatkészlete csak nyilvános és nyíltan licencelt anyagot használ.

A cikk (a Washington Poston keresztül) 14 különböző intézmény közötti együttműködés volt. A szerzők olyan egyetemeket képviselnek, mint a MIT, Carnegie Mellon és a Toronto Egyetem. A nonprofit szervezetek, mint például a Vector Intézet és az AI Allen Intézet, szintén hozzájárultak.

A csoport 8 TB-os etikai forrású adatkészletet épített. Az adatok között szerepelt a Kongresszusi Könyvtárban található 130 000 könyv. Az anyag bevitele után egy hét milliárd paraméteres nagy nyelvi modellt (LLM) kiképeztek az adatokra. Az eredmény? Körülbelül 2023-tól a Meta hasonló méretű Llama 2-7B-jét mutatta be. A csapat nem tett közzé referenciaértékeket, amelyek összehasonlítják az eredményeit a mai legfontosabb modellekkel.

A kétéves modellhez hasonló teljesítmény nem volt az egyetlen hátránya. Az egész összerakása szintén őrlés volt. Az adatok nagy részét a gépek nem tudták elolvasni, így az embereknek át kellett szitálniuk. “Automatizált eszközöket használunk, de az összes cuccunkat a nap végén manuálisan megjegyeztük, és az emberek ellenőrizték”-mondta Stella Biderman társszerzője a WAPO-nak. “És ez csak nagyon nehéz.” A jogi részletek kitalálása szintén megnehezítette a folyamatot. A csapatnak meg kellett határoznia, hogy melyik licencet alkalmazta az egyes weboldalakra.

Szóval, mit csinálsz egy kevésbé erős LLM -mel, amelyet sokkal nehezebb edzeni? Ha semmi más, akkor ellenpontként szolgálhat.

2024 -ben az Openai elmondta egy brit parlamenti bizottságnak, hogy egy ilyen modell lényegében nem létezhet. A vállalat azt állította, hogy “lehetetlen lenne a mai vezető AI modelleket kiképezni a szerzői joggal védett anyagok használata nélkül”. Tavaly egy antropikus szakértő tanú hozzátette: “Az LLM -ek valószínűleg nem léteznek, ha AI cégeknek engedélyezniük kell a képzési adatkészletükben szereplő munkákat.”

Természetesen ez a tanulmány nem változtatja meg az AI -társaságok pályáját. Végül is a kevésbé hatékony eszközök létrehozására irányuló több munka nem érdekli az érdeklődésüket. De legalább az iparág egyik közös érvei. Ne lepődj meg, ha jogi ügyekben és szabályozási érvekben ismét hallja ezt a tanulmányt.

Mária Zentai2 weeks agoLast Updated: 5 June 2025