Пишемо robots.txt
Створюю і просуваю комерційні сайти та інтернет-магазини з 2008 року. 21-04-2013, 23:54 3 103 0Пошукові сервера завжди перед індексацією вашого ресурсу шукають в кореневому каталозі вашого домену файл з ім'ям
"robots.txt" (http://www.mydomain.com/robots.txt).
Цей файл повідомляє роботам (павукам-індексаторам), які файли вони можуть індексувати, а які ні.
Robots.txt повинен створюватися в текстовому форматі Unix.
Перейдемо одразу до прикладів:
Директива дозволяє всім роботам індексувати всі ресурси сайту:
User-agent: * Disallow:
Ця директива забороняє всім роботам індексацію:
User-agent: * Disallow: /
Забороняє всім роботам заходити в каталоги "cgi-bin" і "images":
User-agent: * Disallow: /cgi-bin/ Disallow: /images/
Дана директива забороняє роботу Roverdog індексувати всі файли сервера:
User-agent: Roverdog Disallow: /
Забороняє роботу googlebot індексувати файл cheese.htm:
User-agent: googlebot Disallow: cheese.htm
Запамятай!
Немає такої директиви Allow, є тільки Disallow. Цей приклад невірний:
User-agent: Spot
Disallow: / john /
Allow: / jane /
Правильно буде так:
User-agent: Spot Disallow: /john/ Disallow:
Завжди після того, як Ви закачали файл robots.txt на сервер, перевіряйте його. Досить у браузері набрати простий запит:
http://www.mydomain.com/robots.txt
Незважаючи на те, що стандарт байдуже ставиться до регістру букв в robots.txt, в іменах каталогів і файлів регістр таки важливий.
Найкраще наслідувати приклади і в верхньому регістрі писати перші літери тільки в словах User і Disallow.
______________________________
Значення для robots можна задати і в мета-тегах:
Наприклад:
<META NAME=ROBOTS" CONTENT="NOINDEX, FOLLOW"> <META NAME=ROBOTS" CONTENT="INDEX, NOFOLLOW"> <META NAME=ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
Індексувати все = INDEX, FOLLOW
Не індексувати нічого = NOINDEX, NOFLLOW
Корисно!
Завжди можна переглянути, як написаний файл robots.txt на інших сайтах, наприклад -
http://edition.cnn.com/robots.txt