Файл Robots txt - настройка, як створити і перевірити: приклад robots txt на сайті, директиви

Robots.txt - як створити правильний файл robots.txt
Чому важливо створювати файл robots.txt для сайту
Як створити robots.txt для сайту
Основні директиви robots.txt
Директива User-agent
Директива Disallow
Директива Allow
Спецсимволи в директивах
Додаткові директиви robots.txt
Директива Crawl-delay
Директива Clean-param
Використання кирилиці
Як перевірити robots.txt
Як додати файл robots.txt на сайт

Текстовий файл, який записує спеціальні інструкції для пошукового робота, що обмежують доступ до вмісту на http сервері, що знаходиться в кореневій директорії веб-сайту і має шлях щодо імені самого сайту (/ robots.txt ).

Robots.txt - як створити правильний файл robots.txt

Файл robots.txt дозволяє управляти індексацією вашого сайту. Закрити який-небудь розділ можна директивою disallow, відкрити - allow. Перевірка і аналіз robots.txt.

Вивантажити в xls, файл, індексація, сайт, директива, яндекс, настройка, заборона, перевірка, приклад, генератор, аналіз, сторінка, правильний, закрити, створити, додати, перевірити, поставити, заборонити, зробити, robots, txt, host, закритий, де, disallow

Robots.txt - текстовий файл, що містить інструкції для пошукових роботів, як потрібно індексувати сайт.

Чому важливо створювати файл robots.txt для сайту

У 2011 році сталося відразу кілька гучних скандалів, пов'язаних з перебуванням в пошуку Яндекса небажаної інформації.

Спочатку у видачі Яндекса виявилося понад 8 тисяч SMS-повідомлень, надісланих користувачами через сайт компанії «Мегафон». У результатах пошуку відображалися тексти повідомлень і телефонні номери, на які вони були відправлені.

Заступник генерального директора «Мегафона» Валерій Єрмаков заявив, що причиною публічного доступу до даних могло стати наявність у клієнтів «Яндекс.Бара», який зчитував інформацію і відправляв пошуковому роботу Яндекса.

У Яндекса було інше пояснення:

«Ще раз можемо підтвердити, що сторінки з SMS з сайту Мегафона були публічно доступні всім пошуковим системам ... Відповідальність за розміщення інформації у відкритому доступі лежить на тому, хто її розмістив або не захистив належним чином ...

Особливо хочемо відзначити, що ніякі сервіси Яндекса не винні у витоку даних з сайту Мегафона. Ні Яндекс.Бар, ні Яндекс.Метрика не скачують вміст веб-сторінок. Якщо сторінка закрита для індексації у файлі robots.txt або захищена логіном і паролем, то вона недоступна і пошуковим роботам, тобто інформація, розміщена на ній, ніколи не опиниться в будь-якої пошукової системи ».

Незабаром після цього користувачі знайшли в Яндексі кілька тисяч сторінок зі статусами замовлень в онлайн-магазинах книг, ігор, секс-товарів і т.д. За посиланнями з результатів пошуку можна було побачити ПІБ, адреса та контактні дані клієнта магазину, IP-адреса, найменування його покупки, дату і час замовлення. І знову причиною витоку став некоректно складений (або взагалі відсутній) файл robots.txt.

Щоб не опинитися в подібних ситуаціях, краще заздалегідь скласти правильний robots.txt файл для сайту. Як зробити robots.txt відповідно до рекомендацій пошукових систем, розповімо нижче.

Як створити robots.txt для сайту

Налаштування robots.txt починається зі створення текстового файлу з ім'ям «robots.txt». Після заповнення цей файл потрібно буде зберегти в кореневому каталозі сайту, тому краще заздалегідь перевірити, чи є до нього доступ.

Основні директиви robots.txt

У найпростішому файлі robots.txt використовуються наступні директиви:

Директива User-agent

Тут вказуються роботи, які повинні слідувати зазначених інструкцій. Наприклад, User-agent: Yandex означає, що команди будуть поширюватися на всіх роботів Яндекса. User-agent: YandexBot - тільки на основного індексуючему робота. Якщо в даному пункті ми поставимо *, правило буде поширюватися на всіх роботів.

Директива Disallow

Ця команда повідомляє роботу user-agent, які URL не потрібно сканувати. При складанні файлу robots.txt важливо пам'ятати, що ця директива буде ставитися тільки до тих роботам, які були перед цим вказані в директиві user-agent. Якщо маються на увазі різні заборони для різних роботів, то у файлі потрібно вказати окремо кожного робота і директиву disallow для нього.

Як закрити частині сайту за допомогою директиви Disallow:

Якщо потрібно закрити від сканування весь сайт, необхідно використовувати косу риску (/): Disallow: /
Якщо потрібно закрити від сканування каталог з усім його вмістом, необхідно ввести його назву і косу риску в кінці: Disallow: / events /
Якщо потрібно закрити сторінку, необхідно вказати назву сторінки після косою риси: Disallow: /file.html

Директива Allow

Дозволяє роботу сканувати сайт або окремі URL.

У прикладі нижче robots.txt забороняє роботам Яндекса сканувати весь сайт за винятком сторінок, що починаються з «events»:

User-agent: Yandex

Allow: / events

Disallow: /

Спецсимволи в директивах

Для директив Allow і Disallow використовуються спецсимволи «*» і «$».

Зірочка (*) має на увазі собою будь-яку послідовність символів. Наприклад, якщо потрібно закрити підкаталоги, що починаються з певних символів: Disallow: / example * /
За замовчуванням символ * ставиться в кінці кожного рядка. Якщо потрібно закінчити рядок певним символом, використовується спецсимвол $. Наприклад, якщо потрібно закрити URL, що закінчуються на doc: Disallow: /*.doc$
Спецсимвол # використовується для написання коментарів і не враховується роботами.

Додаткові директиви robots.txt

Директива Host

Директива Host в robots.txt використовується, щоб вказати роботу на головне дзеркало сайту.

приклад:

https://www.glavnoye-zerkalo.ru є головним дзеркалом сайту, і для всіх сайтів з групи дзеркал необхідно прописати в robots.txt:

User-Agen t: *

Disallo w: / forum

Disallo w: / cgi-bin

Hos t: https://www.glavnoye-zerkalo.ru

Правила використання директиви Host:

У файлі robots.txt може бути тільки одна директива Host. Робот завжди орієнтується на першу директиву, навіть якщо їх вказано кілька.
Якщо дзеркало є по захищеному каналу, потрібно додати протокол HTTPS,
Повинно бути зазначено одне доменне ім'я і номер порту в разі потреби.

Якщо директива Host прописана неправильно, роботи її проігнорують.

Директива Crawl-delay

Директива Crawl-delay задає для робота проміжок часу, з яким він повинен завантажувати сторінки. Стане в нагоді в разі сильного навантаження на сервер.

Наприклад, якщо потрібно задати проміжок в 3 секунди між завантаженням сторінок:

User-agent: *

Disallow: / search

Crawl-delay: 3

Директива Clean-param

Стане в нагоді для сайтів, сторінки яких містять динамічні параметри, які не впливають на їх вміст (наприклад, ідентифікатори сесій). Директива дозволяє робот не перезавантажувати дублює інформацію, що позитивно позначається на навантаженні на сервер.

Використання кирилиці

При складанні файлу robots.txt можна використовувати кириличні символи. Допускається використання Punycode для доменів.

Як перевірити robots.txt

Для перевірки файлу robots.txt можна використовувати Яндекс.Вебмайстер (Аналіз robots.txt) або Google Search Console (Інструмент перевірки файлу Robots.txt).

Як додати файл robots.txt на сайт

Як тільки файл robots.txt написаний і перевірений, його потрібно зберегти у вигляді текстового файлу з назвою robots.txt і завантажити в каталог верхнього рівня сайту або в кореневий каталог.

Производственная компания El.Od