Home Tudomány és technika A zavarosság állítólag a webhelyeket kaparja, aminek nem szabad, megint

A zavarosság állítólag a webhelyeket kaparja, aminek nem szabad, megint

5
0

A CloudFlare új jelentése szerint a weboldalak kaparására a webhelyek lekaparására szolgáló webes feltérképezők állítólag korlátozzák. Pontosabban, a jelentés azt állítja, hogy a vállalat robotjai “lopakodó mászó” webhelyeknek tűnik azáltal, hogy álcázzák személyazonosságukat, hogy megkerüljék a robots.txt fájlokat és a tűzfalakat.

A robots.txt egy egyszerű fájl webhelyek gazdagépe, amely tudatja a webes rugókkal, hogy képesek -e lekaparni a webhelyek tartalmát. A Poiltexity hivatalos webes mászó botjai a “PousblexityBot” és a “Pomplexitás-felhasználó”. A CloudFlare tesztjeiben a zavarosság még mindig képes volt megjeleníteni egy új, nem indexelt webhely tartalmát, még akkor is, ha ezeket a konkrét robotokat a robots.txt blokkolta. A magatartás kiterjedt a weboldalakra, amelyek speciális webalkalmazás -tűzfal (WAF) szabályai vannak, amelyek korlátozták a webes rugókat is.

Felhőflare

A CloudFlare úgy véli, hogy a zavarás megkerüli ezeket az akadályokat azáltal, hogy “egy általános böngészővel, amelynek célja a Google Chrome megszemélyesítése a MacOS -on”, amikor a robots.txt megtiltja a normál botját. A Cloudlfare tesztjeiben a vállalat be nem jelentett bejárója olyan IP -címeken is átfordíthat, amelyek nem szerepelnek a Poilbity hivatalos IP -tartományában, hogy a tűzfalakon átjuthassanak. A CloudFlare szerint a zavarosság úgy tűnik, hogy ugyanazt csinálja az Autonóm Rendszerszámokkal (ASNS) – az azonosító IP -címek azonosítója az ugyanazon üzlet által működtetett – azt írva, hogy naponta több tízezer domain és több milliót igénylő lengőkezelő vált. “

Az Engadget a Cloudflare jelentésének kommentálására hívta fel a kapcsolatot. Frissítjük ezt a cikket, ha vissza halljuk.

A weboldalakról naprakész információk létfontosságúak az AI modelleket képző vállalatok számára, különösen mivel a szolgáltatáshoz hasonló zavarosságot használják a keresőmotorok pótlásaként. A zavarosságot a múltban is elfogták, hogy megkerüljék a szabályokat, hogy naprakészek maradjanak. Több webhely 2024-ben jelentette be, hogy a zavart továbbra is hozzáfér a tartalmukhoz, annak ellenére, hogy megtiltották a robots.txt-ben-amit a cég hibáztatott a harmadik fél webes rugókért, amelyeket akkoriban használt. A PLOGEXITY később több kiadóval együttműködött, hogy megosszák a tartalmuk mellett megjelenített hirdetésekből származó bevételeket, látszólag a múltbeli viselkedésükhöz való jó eredményként.

A vállalatok megakadályozása a tartalomtól az internetről valószínűleg továbbra is a Whack-a-mole játék marad. Időközben a CloudFlare eltávolította a Puszexity botjait az ellenőrzött robotok listájáról, és megvalósította a módját, hogy azonosítsák és megakadályozzák a Poussity Stealth Crawler -jét az ügyfelek tartalmának elérésében.