Archiwa tagu: cpu

FAQ: Jak zablokować konkretnym robotom dostęp do katalogu ?

Katalog stron ze względu na dużą ilość podstron i dosyć sporą ilość połączeń z bazą danych jest szczególnie narażony na bezmyślne ataki spam-robotów. Często takie akcje kończą się blokadą serwera za zbyt duże przekroczenie obciążenia CPU. Aby uchronić nasz katalog przed takimi sytuacjami możemy:

  • włączyć Cache stron w PA -> Konfiguracja -> Cache
  • zablokować niechciane roboty po ich nazwie i IP w pliku .htaccess

Aby to zrobić wystarczy w pliku .htaccess dodać kod:

 SetEnvIfNoCase User-Agent .*Twiceler.* bad_bot
 SetEnvIfNoCase User-Agent .*VoilaBot BETA 1.2.* bad_bot
 SetEnvIfNoCase User-Agent .*libwww-perl/5.805.* bad_bot
 SetEnvIfNoCase User-Agent .*Java/1.5.0_11.* bad_bot
 SetEnvIfNoCase User-Agent .*Sogou web spider/3.0.* bad_bot
 SetEnvIfNoCase User-Agent .*psbot.* bad_bot
 SetEnvIfNoCase User-Agent .*Exabot.* bad_bot
 SetEnvIfNoCase User-Agent .*Charlotte/1.0b.* bad_bot
 SetEnvIfNoCase User-Agent .*boitho.com-dc.* bad_bot
 SetEnvIfNoCase User-Agent .*ajSitemap.* bad_bot
 SetEnvIfNoCase User-Agent .*bot/1.0.* bad_bot
 SetEnvIfNoCase User-Agent .*panscient.com.* bad_bot
 SetEnvIfNoCase User-Agent .*Java/1.6.0_11.* bad_bot
 SetEnvIfNoCase User-Agent .*WebDataCentreBot/1.0.* bad_bot
 SetEnvIfNoCase User-Agent .*Java.* bad_bot
 SetEnvIfNoCase User-Agent .*SapphireWebCrawler.* bad_bot
 SetEnvIfNoCase User-Agent .*Yandex.* bad_bot
 SetEnvIfNoCase User-Agent .*Baiduspider.* bad_bot
 SetEnvIfNoCase User-Agent .*Rankivabot.* bad_bot
 SetEnvIfNoCase User-Agent .*DBLBot/1.0.* bad_bot

 order allow,deny
 deny from env=bad_bot
 allow from all

 order allow,deny
 deny from 196.207.208.8
 deny from 41.214.120.182
 deny from 41.214.112.207
 allow from all 

Instrukcja:

Roboty po IP (znamy je np. ze statystyk) blokujemy w sekcji:

order allow,deny
deny from 196.207.208.8
deny from 41.214.120.182
deny from 41.214.112.207
allow from all

Roboty po nazwie blokujemy w sekcji SetEnvIfNoCase User-Agent np:

SetEnvIfNoCase User-Agent .*DTS Agent.* bad_bot
Opublikowano Instrukcja, Kwestie techniczne | Otagowano , , | 2 komentarzy