Back to Question Center
0

Semalt надає поради про те, як боротися з ботами, павуками та сканерами

1 answers:

Окрім створення дружніх URL-адрес пошукової системи , файл .htaccess дозволяє веб-майстру блокувати певні боти від доступу до свого веб-сайту. Один із способів блокування цих роботів - через файл robots.txt. Проте Росс Барбер, менеджер із успішності клієнтів Semalt , заявляє, що він бачив деякі сканери, які ігнорують цей запит. Один із найкращих способів - використовувати файл .htaccess, щоб він не індексував ваш вміст.

Які ці боти?

Це тип програмного забезпечення, що використовується пошуковими системами для видалення нового вмісту з Інтернету для цілей індексування.

Вони виконують наступні завдання:

  • Відвідайте веб-сторінки, з якими ви пов'язали
  • Перевірте свій HTML-код на помилки
  • Вони заощаджують, які веб-сторінки ви зв'язуєте, і переглядаєте, які веб-сторінки посилаються на ваш вміст
  • Вони індексували ваш вміст

Однак деякі боти є зловмисними та виконують пошук на вашому сайті для адрес електронної пошти та форм, які зазвичай використовуються для надсилання небажаних повідомлень або спаму. Інші навіть шукають лазівки безпеки у вашому коді.

Що потрібно для блокування веб-сканерів?

Перш ніж використовувати файл .htaccess, вам слід перевірити наступні речі:

1. Ваш сайт повинен працювати на сервері Apache. На сьогоднішній день навіть ті веб-хостингові компанії, які належним чином займаються роботою, надають вам доступ до потрібного файлу.

2. Ви повинні мати доступ до вас - це сирі журнали сервера вашого веб-сайту, щоб ви могли знайти, які боти відвідували ваші веб-сторінки.

Зауважте, що ви не зможете заблокувати всі шкідливі боти, якщо ви не заблокуєте їх усіх, навіть тих, кого ви вважаєте корисними. Щоденно з'являються нові боти, а старіші - модифіковані. Найефективнішим способом є захист вашого коду і затруднення для роботи ботів, щоб спам вас.

Ідентифікаційні боти

Боти можуть бути або ідентифіковані за IP-адресою або зі своєї "String користувача-агента", яку вони надсилають у заголовках HTTP. Наприклад, Google використовує "Googlebot"

Вам може знадобитися цей список з 302 ботами, якщо у вас вже є ім'я бота, яке ви хочете відсторонити, використовуючи .htaccess

Ще один спосіб полягає в тому, щоб завантажити всі файли журналів з сервера та відкрити їх за допомогою текстового редактора. Їх розташування на сервері може змінюватися в залежності від конфігурації вашого сервера. допомога від вашого веб-хостингу.

Якщо ви знаєте, яка сторінка була відвідана або час відвідування, простіше прийти з небажаним ботом. Ви можете шукати в лог-файлі ці параметри.

Одного разу ви помітили, які боти вам потрібно заблокувати; ви можете включити їх у файл .htaccess. Зверніть увагу, що блокування бота недостатньо, щоб зупинити його. Це може повернутись з новим IP або ім'ям.

Як заблокувати їх

Завантажте копію файлу .htaccess. Зробити резервні копії, якщо потрібно.

Спосіб 1: блокування IP

Цей фрагмент коду блокує бота за допомогою IP-адреси 197.0.0.1

Замовлення Заборонити, Дозволити

Відхилити від 197.0.0.1

Перший рядок означає, що сервер заблокує всі запити, що відповідають вказаним вами шаблонам, і дозволить усім іншим.

Друга лінія повідомляє серверу видати 403: заборонену сторінку

Метод 2: блокування агентами користувача

Найпростіший спосіб полягає у використанні перезапису Apache двигуна

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Перший рядок забезпечує включення модуля перезапису. Друга лінія - це умова, до якої застосовується правило. "F" у рядку 4 говорить серверу повернути 403: Заборонено, а "L" означає, що це останнє правило.

Після цього ви завантажите файл .htaccess на свій сервер і перезаписує існуючий файл. З часом вам доведеться оновити IP-адресу бота. Якщо ви зробите помилку, просто завантажте резервну копію, яку ви зробили.

November 29, 2017
Semalt надає поради про те, як боротися з ботами, павуками та сканерами
Reply