Правильная индексация сайта.Файл robots.txt и его применение - 23 Марта 2012 - Блог

Меню сайта

Рекомендуем

Карты Шуберта

Категории раздела

Секс [2]

Интернет [15]

Спорт [1]

НЛП [1]

Курение [1]

Сайт [4]

Спасибо сайту

Статистика

Онлайн всего: 1

Гостей: 1

Пользователей: 0

Форма входа

Старая форма входа

Реклама

Рекламка

Главная » 2012 » Март » 23 » Правильная индексация сайта.Файл robots.txt и его применение

23:26

Правильная индексация сайта.Файл robots.txt и его применение

Доброго времени суток!

Сегодня мы обдумаем тему "правильная индексация сайта роботами Google, Яндекса и всеми остальными жителями этого чудного зоопарка". Речь пойдет не о способах быстро засунуть сайт в индекс, или о том, как ботов заставить сразу проиндексировать весь сайт. Разговор будет всего лишь о том, как запретить роботам- поисковикам индексировать определенные страницы сайта или, даже, целые папки. А следовательно, уменьшить время на полную индексацию полезного контента сайта. Выполняется это при помощи маленького, но весьма значительного файла под именем robots.txt. Существуют мнения, что сайт, не содержащий robots.txt вообще не индексируется, либо индексируется неправильно и не полностью.

Meсто расположения на сайте и формат файла robots.txt

Файл robots.txt, для правильного его прочтения и принятия к сведению роботами поисковиков Google, MSN, Яндекс и т.д., должен находиться строго в корневой директории сайта. То есть если у вас сайт *.ru, то файл должен находиться в папке www или httpdocs, либо в папке, которая звучит одноименно Вашему домену. Именно туда смотрят роботы при начале индексации сайта. Впрочем, не только при первом заходе с целью индексации, а и во все последующие. Нахождение файла в другом месте- неверно и не приводит к его нахождению, и как итог, к его правильной интерпретации роботами. Назван файл должно быть robots (маленькие латинские буквы), расширение txt и никак иначе. Заглавные буквы в имени недопустимы. Создается файл стандартным "Блокнотом" Windows. Пустой файл, в котором нет ни одной команды, равноценен его отсутствию.

Синтаксис и команды файла robots.txt.

Как я уже озвучил ранее, файл запрещает индексацию страниц. Следовательно, то, что не запрещено, то разрешено. Уж простите за тафтологию. Содержимое файла представляет собой список роботов и рекомендации им же. Сначала идет имя робота, на следующей строке- команды для исполнения. Рассмотрим это на примерах.

User-Agent: *

 Disallow:

Эти две строки предписывают всем ботам( команда User-Agent: *) индексировать все страницы (команда Disallow: ) сайта. Обратите внимание, что перед оператором запрета Disallow всегда указано имя робота, для которого создано это правило. Если Вы задаете правило для всех роботов, то ставите знак "*" вместо имени. Рассмотрим примеры, когда Вы хотите, чтобы роботы не индексировали, например, целую папку "data". Пишем строку с указанием робота, а потом строку с запретом индексации папки.

User-Agent: *

 Disallow: /data/

Таким же образом создается запрет на индексацию отдельных файлов. При этом остальные файлы в той же папке спокойно при этом индексируются. Пример:

User-Agent: *

 Disallow: /data/index.php

Очень важно понимать при этом, что для каждой папки нужно делать новую строку. Перечисление папок в одной строке недопустимо. Рассмотрим запрет папок "data" и "image".

Правильный пример запрета индексации:

User-Agent: *

 Disallow: /data/

 Disallow: /image/

Неправильный пример запрета индексации:

User-Agent: *

 Disallow: /data/ /image/

В некоторых случаях бывает необходимо создать правило на запрет индексации некоторых папок только для одного или нескольким роботам- индексаторам. Делается это следующим образом. Сначала создается правило для отдельного робота, а потом для всех остальных Пример запрета индексации папки "data" для Яндекса и Google, а всем остальным - можно индексировать все содержимое сайта.

User-Agent: Yandex

 Disallow: /data/

 User-Agent: Googlebot

 Disallow: /data/

 User-Agent: *

 Disallow:

Можно сделать и короче. Просто перечислив сначала отдельными строками роботов, а потом одну строку запрета индексации. Пример:

User-Agent: Yandex

 User-Agent: Googlebot

 Disallow: /data/

 User-Agent: *

 Disallow:

Но, на мой взгляд, удобнее прописать правила для каждого робота. Ибо Вы потом при таком подробном списке не запутаетесь, что Вы какому роботу запретили и оперативно можете менять правила для каждого отдельно взятого робота. Плюс будут наглядно видны все правила и структура файла robots.txt, что позволит Вам помнить все правила создания данного файла. А правильный robots.txt- залог правильной и быстрой индексации сайта. Успехов Вам в построении своего robots.txt.

Команды robots.txt не связанные с запретом индексации.

Таких команд две: Host и Craw-delay. Первая используется для Яндекса и конкретно указывает, как индексировать сайт, с приставкой "www" или без нее. Яндекс, к сожалению, без этого указания может проиндексировать, как захочет его левая нога. Половину страниц как "www.site.ru/", а другую половину "site.ru/". Если Вас не сильно заботит такое раздвоение, то можете не уделять этому внимание. С другой стороны ТИЦ достается не целиком одному домену, а двум. Один с www, другой - без www. Пример использования команды:

User-agent: Yandex

 Disallow:

 Host: govitya.com.ua

Данный пример показывает роботу Яндекса, что сайт govitya.com.ua нужно индексировать без приставки www.

Команда Craw-delay указывает роботу, какую задержку нужно делать перед индексацией следующей страницы. Эту команду актуально применять, когда Ваш сайт загружен и выполняет какие-то мощные расчеты. Либо много графики и php- скриптов на странице.

User-agent: * Crawl-delay: 3

Робот каждой поисковой системы имеет своё название (например, для рамблера это StackRambler), как в приведенном выше примере. Здесь я приведу список поисковых роботов, самых известных поисковиков:

Google       http://www.google.com     Googlebot
Yahoo!       http://www.yahoo.com      Slurp (или Yahoo! Slurp)
AOL          http://www.aol.com        Slurp
MSN          http://www.msn.com        MSNBot
Live          http://www.live.com        MSNBot
Ask          http://www.ask.com        Teoma
AltaVista    http://www.altavista.com  Scooter
Alexa        http://www.alexa.com        ia_archiver
Lycos        http://www.lycos.com        Lycos
Яндекс       http://www.ya.ru            Yandex
Рамблер      http://www.rambler.ru     StackRambler
Мэйл.ру      http://mail.ru            Mail.Ru
Aport        http://www.aport.ru        Aport
Вебальта     http://www.webalta.ru        WebAlta (WebAlta Crawler/2.0)

Категория: Интернет | Просмотров: 2611 | Добавил: govitya | Теги: Правильная индексация сайта.Файл ro | Рейтинг: 0.0/0

БАР чат

Поиск

Календарь

Лучшие фильмы

SpirITix Key Check

Друзья сайта

Cекрет Казановы