A Semalt tippeket nyújt a robotok, a pókok és a robotok kezelésére

A keresőmotor számára barátságos URL-ek létrehozása mellett a .htaccess fájl lehetővé teszi a webmesterek számára, hogy blokkolják az egyes robotok hozzáférését a webhelyükhöz. A robotok blokkolásának egyik módja a robots.txt fájl. Ross Barber, a Semalt ügyfélszolgálati menedzser azonban kijelenti, hogy látta, hogy néhány bejáró figyelmen kívül hagyja ezt a kérést. Az egyik legjobb módszer a .htaccess fájl használata a tartalom indexelésének megakadályozására.

Mik ezek a botok?

Ezek egy olyan típusú szoftver, amelyet a keresőmotorok új tartalom törléséhez az internetről indexelési célokra használnak.

A következő feladatokat látják el:

  • Látogasson el a weboldalakra, amelyekre linkelt
  • Ellenőrizze a HTML-kód hibáit
  • Mentik azokat a weboldalakat, amelyekre hivatkoznak, és megnézik, hogy milyen weboldalak kapcsolódnak az Ön tartalmához
  • Indexelik a tartalmat

Egyes robotok azonban rosszindulatúak, és az Ön webhelyén olyan e-mail címeket és űrlapokat keresnek, amelyeket általában nem kívánt üzenetek vagy spam küldésére használnak. Mások még biztonsági réseket keresnek a kódjában.

Mire van szükség a webrobotok blokkolásához?

A .htaccess fájl használata előtt ellenőrizze a következőket:

1. A webhelynek Apache szerveren kell futnia. Manapság még azok a webtárhely-szolgáltatók is hozzáférhetnek a szükséges fájlokhoz, amelyek munkája félig tisztességes.

2. Hozzá kell férnie a webhelye nyers kiszolgálói naplójához, hogy megkereshesse azokat a botokat, amelyek meglátogatták a weboldalakat.

Ne feledje, hogy egyetlen módon sem tudja blokkolni az összes káros robotot, kivéve ha blokkolja az összeset, még azokat is, amelyeket hasznosnak tart. Minden nap új robotok jelennek meg, az idősebbek módosulnak. A leghatékonyabb módja annak, hogy biztosítsa a kódot, és megnehezítse a robotok számára a spam küldését.

A robotok azonosítása

A robotok azonosíthatók az IP-cím alapján vagy a „Felhasználói ügynök karakterlánca” alapján, amelyet elküldnek a HTTP fejlécekben. A Google például a "Googlebot" -t használja.

Szüksége lehet erre a listára 302 bottal, ha már rendelkezik a bot nevével, amelyet a .htaccess használatával távol szeretne tartani.

Egy másik módszer az összes naplófájl letöltése a szerverről, és szövegszerkesztővel történő megnyitás. Helyük a szerveren változhat a szerver konfigurációjától függően. Ha nem találja meg őket, kérjen segítséget a webhelyétől.

Ha tudja, melyik oldalon látogatta meg a látogatást, vagy a látogatás időpontját, könnyebb eljutni egy nem kívánt bothoz. A naplófájlban ezekkel a paraméterekkel is kereshet.

Egyszer már megjegyezte, hogy milyen botokat kell blokkolnia; akkor beillesztheti őket a .htaccess fájlba. Felhívjuk figyelmét, hogy a bot letiltása nem elég ahhoz, hogy megállítsák. Lehet, hogy új IP-vel vagy névvel tér vissza.

Hogyan blokkolhatom őket

Töltse le a .htaccess fájl másolatát. Készítsen biztonsági másolatot, ha szükséges.

1. módszer: blokkolás IP-vel

Ez a kódrészlet blokkolja a robotot a 197.0.0.1 IP-cím használatával

Rendelje tagadást, engedélyezze

Tagadja 197.0.0.1

Az első sor azt jelenti, hogy a szerver blokkolja az Ön által megadott mintáknak megfelelő összes kérést, és engedélyezi az összes többi kérést.

A második sor azt mondja a szervernek, hogy adjon ki egy 403: tiltott oldalt

2. módszer: Blokkolás a felhasználói ügynökök által

A legegyszerűbb módszer az Apache újraíró motorjának használata

RewriteEngine be

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Az első sor biztosítja, hogy az újraírási modul engedélyezve legyen. A második sor az a feltétel, amelyre a szabály vonatkozik. A 4. sorban szereplő „F” azt mondja a szervernek, hogy adja vissza a 403-at: Tilos, míg az „L” azt jelenti, hogy ez az utolsó szabály.

Ezután feltölti a .htaccess fájlt a szerverére, és felülírja a meglévőt. Idővel frissítenie kell a bot IP-jét. Hiba esetén csak töltse fel a biztonsági mentést.