Заблокируйте всех ботов / искателей / пауков для специальной директории с htaccess

Я пытаюсь заблокировать всех ботов / искателей / пауков для специального каталога. Как я могу сделать это с помощью htaccess ? Я немного искал и нашел решение путем блокировки на основе пользовательского агента:

 RewriteCond %{HTTP_USER_AGENT} googlebot 

Теперь мне понадобится больше пользовательских агентов (для всех известных ботов), и правило должно быть действительным только для моего отдельного каталога. У меня уже есть файл robots.txt, но не все сканеры рассматривают его … Блокирование по IP-адресу не является вариантом. Или есть другие решения? Я знаю пароль, но сначала мне нужно спросить, будет ли это вариант. Тем не менее, я ищу решение на основе пользовательского агента.

У вас должен быть включен mod_rewrite. Поместил его в .htaccess в этой папке. Если он помещен в другое место (например, родительская папка), тогда шаблон RewriteRule должен быть слегка изменен, чтобы включить это имя папки).

 RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC] RewriteRule .* - [R=403,L] 
  1. Я ввел только несколько ботов – вы добавляете других (буквенный регистр не имеет значения).
  2. Это правило будет отвечать с кодом результата «403 Access Forbidden» для таких запросов. Вы можете изменить другой HTTP-код ответа, если вы действительно хотите (403 наиболее подходит здесь, учитывая ваши требования).

Зачем использовать .htaccess или mod_rewrite для задания, специально предназначенного для robots.txt ? Вот fragment robots.txt, который вам понадобится, чтобы заблокировать определенный набор каталогов.

 User-agent: * Disallow: /subdir1/ Disallow: /subdir2/ Disallow: /subdir3/ 

Это заблокирует все поисковые роботы в каталогах /subdir1/ , /subdir2/ и /subdir3/ .

Дополнительную информацию можно найти здесь: http://www.robotstxt.org/orig.html

Я знаю, что тема «старая», но все же, для ppl, который тоже приземлился здесь (как и я), вы можете посмотреть великолепный 5g blacklist 2013 .
Это отличная помощь и НЕТ не только для WordPress, но и для всех других сайтов. Работает потрясающим имхо.
Еще один, на который стоит обратить внимание, – это Linux-обзоры антиспама через .htaccess

  • Как я действительно развертываю приложение Angular 2 + Typcript + systemjs?
  • Отображать специальные символы, используя System.out.println
  • Почему в Android не работает «System.out.println»?
  • Как я могу запускать системные команды Perl в фоновом режиме?
  • Выполняют ли Google или другие поисковые системы JavaScript?
  • Как сохранить результат системной команды в переменной Perl?
  • Interesting Posts

    Как передать именованные параметры с помощью Invoke-Command?

    Как я могу получить начальный экран Windows 8 в Windows 10?

    Как создать несколько экземпляров модели с помощью Django Rest Framework?

    Удалить многострочные комментарии

    Как установить объекты File и length в объекте FileList, где файлы также отражаются в объекте FormData?

    Инструмент сборки Gradle не может найти play-services-tasks.aar? Зачем?

    Как восстановить исходный файл из .swp-файла?

    Как изменить режим браузера в IE9 на постоянной основе?

    64-разрядная Dell застряла на экране входа / заставки

    Какова техническая причина, по которой «lookbehind assertion ДОЛЖЕН быть фиксированной длиной» в регулярном выражении?

    Как обрабатывать всплывающее окно загрузки файлов с помощью Selenium WebDriver?

    Передайте переменную javascript в качестве параметра в @ url.Action ()

    Самый эффективный способ листинга списка для списка

    Когда вы экспортируете документ в формате pdf в Word 2010, какая разница между публикацией стандартного и минимального размера?

    Хорошее (желательно бесплатное), простое в использовании, привлекательное программное обеспечение блок-схемы

    Давайте будем гением компьютера.