файл robots.txt

Формат файлу robots.txt
додаткові директиви
Регулярні вирази в robots.txt
Карта сайту
Дзеркала сайту
Коментарі в robots.txt
Приклади файлів robots.txt
Часто зустрічаються помилки
Перевірка файлу robots.txt на наявність помилок

Автор статті: Сергій Камінський

Одним з етапів оптимізації сайту для пошукових систем є складання файлу robots.txt. За допомогою даного файлу можна забороняти деяким або всім пошуковим роботам індексувати ваш сайт або його певні частини, не призначені для індексації. Зокрема можна заборонити індескірованіе дублюючого контенту такого як версії сторінок для друку.

Зокрема можна заборонити індескірованіе дублюючого контенту такого як версії сторінок для друку

Пошукові роботи перед початком індексації завжди звертаються до файлу robots.txt в кореневому каталозі вашого сайту, наприклад, http://site.ru/robots.txt, щоб знати які розділи сайту роботу індексувати заборонено. Але навіть якщо ви не збираєтеся нічого забороняти, то даний файл все одно рекомендується створити.

Як видно з розширення robots.txt - це текстовий файл. Для створення або редагування даного файлу краще використовувати найпростіші текстові редактори зразок Блокнот (Notepad). robots.txt повинен бути розміщений в кореневому каталозі сайту і має власний формат, який ми розглянемо нижче.

Формат файлу robots.txt

Файл robots.txt повинен складатися як мінімум з двох обов'язкових записів. Першою йде директива User-agent яка вказує, який пошуковий робот повинен слідувати йде далі інструкцій. Значним може бути ім'я робота (googlebot, Yandex, StackRambler) або символ * в разі якщо ви звертаєтеся відразу до всіх роботам. наприклад:

User-agent: googlebot

Назва робота ви можете знайти на сайті відповідного пошукача. Далі повинна йти одна або кілька директив Disallow. Ці директиви повідомляють роботу, які файли і папки індексувати заборонено. Наприклад, такі рядки забороняють роботам індексувати файл feedback.php і каталог cgi-bin:

Disallow: /feedback.php Disallow: / cgi-bin /

Також можна використовувати тільки початкові символи файлів або папок. Рядок Disallow: / forum забороняє індексування всіх файлів і папок в корені сайту, ім'я яких починається на forum, наприклад, файл http://site.ru/forum.php і папку http://site.ru/forum/ з усім її вмістом. Якщо Disallow буде порожнім, то це означає, що робот може індексувати всі сторінки. Якщо значенням Disallow буде символ /, то це означає що весь сайт індексувати заборонено.

Для кожного поля User-agent має бути присутнім хоча б одне поле Disallow. Те-є, якщо ви не збираєтеся нічого забороняти для індексації, то файл robots.txt повинен містити такі записи:

User-agent: * Disallow:

додаткові директиви

Крім регулярних виразів Яндекс і Google дозволяють використання директиви Allow, яка є протилежністю Disallow, тобто вказує які сторінки можна індексувати. У наступному прикладі Яндексу заборонено індексувати всі, крім адрес сторінок починаються з / articles:

User-agent: Yandex Allow: / articles Disallow: /

В даному прикладі директиву Allow потрібно прописувати перед Disallow, інакше Яндекс зрозуміє це як повна заборона індексації сайту. Порожня директива Allow також повністю забороняє індексування сайту:

User-agent: Yandex Allow:

рівнозначно

User-agent: Yandex Disallow: /

Нестандартні директиви потрібно вказувати тільки для тих пошукачів, які їх підтримують. В іншому випадку робот не розуміє даний запис може неправильно обробити її або весь файл robots.txt. Більш докладно про додаткові директивах і взагалі про розуміння команд файлу robots.txt окремим роботом можна дізнатися на сайті відповідної пошукової системи.

Регулярні вирази в robots.txt

Більшість пошукових систем враховують тільки явно зазначені імена файлів і папок, але є і більш просунуті пошуковики. Робот Google і робот Яндекса підтримують використання простих регулярних виразів в robots.txt, що значно зменшує кількість роботи для вебмайстрів. Наприклад, такі команди забороняють роботу Google індексувати всі файли з розширенням .pdf:

User-agent: googlebot Disallow: * .pdf $

У наведеному прикладі символ * - це будь-яка послідовність символів, а $ вказує на закінчення посилання.

User-agent: Yandex Allow: /articles/*.html$ Disallow: /

Наведені вище директиви дозволяють Яндексу індексувати тільки знаходяться в папці / articles / файли з розширенням ".html". Все інше заборонено для індексації.

Карта сайту

У файлі robots.txt можна вказувати розташування XML-карти сайту:

User-agent: googlebot Disallow: Sitemap: http://site.ru/sitemap.xml

Якщо у вас дуже велика кількість сторінок на сайті і вам довелося розбити карту сайту на частини, то у файлі robots.txt потрібно вказувати всі частини карти:

User-agent: Yandex Disallow: Sitemap: http://mysite.ru/my_sitemaps1.xml Sitemap: http://mysite.ru/my_sitemaps2.xml

Дзеркала сайту

Як ви знаєте зазвичай один і той же сайт може бути доступний за двома адресами: як з www, так і без нього. Для пошукового робота site.ru і www.site.ru це різні сайти, але з однаковим вмістом. Вони називаються дзеркалами.

Через те що на сторінки сайту є посилання як з www так і без, то вага сторінок може розділитися між www.site.ru і site.ru. Щоб цього не відбувалося пошуковику потрібно вказати головне дзеркало сайту. В результаті "склеювання" весь вага буде належати одному головному дзеркала і сайт зможе зайняти більш високу позицію в пошуковій видачі.

Вказати основне дзеркало для Яндекса можна прямо в файлі robots.txt за допомогою директиви Host:

User-agent: Yandex Disallow: /feedback.php Disallow: / cgi-bin / Host: www.site.ru

Після склеювання дзеркала www.site.ru буде належати весь вага і він буде займати більш високу позицію в пошуковій видачі. А site.ru пошуковик взагалі не буде індексувати.

При обміні посиланнями з іншими сайтами бажано використовувати вказаний в полі Host адреса www.site.ru, а не site.ru.

Для інших пошукових систем вибором головного дзеркала є серверний постійний редирект (код 301) з додаткових дзеркал на основне. Робиться це за допомогою файлу .htaccess і модуля mod_rewrite. Для цього кладемо в корінь сайту файл .htaccess і пишемо туди наступне:

RewriteEngine On Options + FollowSymlinks RewriteBase / RewriteCond% {HTTP_HOST} ^ site.ru $ RewriteRule ^ (. *) $ Http://www.site.ru/$1 [R = 301, L]

В результаті всі запити з site.ru йтимуть на www.site.ru, тобто site.ru/page1.php перенаправлятиметься на www.site.ru/page1.php.

Метод з перенаправленням буде працювати для всіх пошукових систем і браузерів, але все ж рекомендується додавати для Яндекса директиву Host в файл robots.txt.

Коментарі в robots.txt

У файл robots.txt також можна додавати коментарі - вони починаються з символу # і закінчуються перекладом рядка. Коментарі бажано писати в окремому рядку, а краще взагалі їх не використовувати.

Приклад використання коментарів:

User-agent: StackRambler Disallow: / garbage / # нічого корисного в цій папці немає Disallow: /doc.xhtml # і на цій сторінці теж # і все коментарі в цьому файлі також не приносять користі

Приклади файлів robots.txt

1. Дозволяємо всім роботам індексувати всі документи сайту:

User-agent: * Disallow:

2. Забороняємо всім роботам індексувати сайт:

User-agent: * Disallow: /

3. Забороняємо роботу пошуковика Google індексувати файл feedback.php і вміст каталогу cgi-bin:

User-agent: googlebot Disallow: / cgi-bin / Disallow: /feedback.php

4. Дозволяємо всім роботам індексувати весь сайт, а роботу пошукача Яндекс забороняємо індексувати файл feedback.php і вміст каталогу cgi-bin:

User-agent: Yandex Disallow: / cgi-bin / Disallow: /feedback.php Host: www.site.ru User-agent: * Disallow:

5. Дозволяємо всім роботам індексувати весь сайт, а роботу Яндекса дозволяємо індексувати тільки призначену для нього частину сайту:

User-agent: Yandex Allow: / yandex Disallow: / Host: www.site.ru User-agent: * Disallow:

Порожні рядки поділяють обмеження для різних роботів. Кожен блок обмежень повинен починатися з рядка з полем User-Agent, що вказує робота, до якого відносяться дані правила індексації сайту.

Часто зустрічаються помилки

Потрібно обов'язково враховувати, що порожній рядок у файлі robots.txt є роздільник двох записів для різних роботів. Також не можна вказувати декілька директив в одному рядку. Забороняючи індексацію файлу веб-майстри часто пропускають / перед назвою файлу.

Не потрібно прописувати в robots.txt заборона на індексування сайту для різних програм, які призначені для повного завантаження сайту, наприклад, TeleportPro. Ні "програми-качалки", ні браузери ніколи не дивляться в цей файл і не виконують прописаних там інструкцій. Він призначений виключно для пошукових систем. Не варто також блокувати в robots.txt адмінку вашого сайту, адже якщо на неї ніде немає посилання, то і індекіроваться вона не буде. Ви всього лише розкриєте розташування адмінки людям, які не повинні про неї знати. Також варто пам'ятати, що занадто великий robots.txt може бути проігнорований пошуковою системою. Якщо у вас занадто багато сторінок не призначених для індексації, то краще їх просто видалити з сайту або перенести в окрему директорію і заборонити індексування даної директорії.

Перевірка файлу robots.txt на наявність помилок

Обов'язково перевірте як розуміє ваш файл robots поісковіковие системи. Для перевірки Google ви можете скористатися Інструментами Google для веб-майстрів. Якщо ви хочете дізнатися як ваш файл robots.txt розуміє Яндекс, то можете скористатися сервісом Яндекс.Вебмайстер. Це дозволить вчасно виправити допущені помилки. Також на сторінках даних сервісів ви зможете знайти рекомендації по складанню файлу robots.txt і багато іншої корисної інформації.

Інші записи по темі в розділі статті по розкрутці сайтів

Копіювання статті заборонено.

Производственная компания El.Od