Однако, бывают ситуации, когда по тем или иным причинам, не желательно, чтобы поисковый робот ползал по определенным страницам или частям страниц, а так же переходил по определенным ссылкам. В данной статье, я покажу, как можно указать поисковым роботам, игнорировать определенный веб мастером контент.
Для чего нужен файл robots.txt?

У вас есть свой сайт и в корневом каталоге этого сайта (директории www или httpdocs на сервере) нет файла robots.txt? Зайдите в панель просмотра ошибок сервера и внимательно проанализируйте ошибки "404 - Страница не найдена". Держу пари, что вы найдете среди страниц, к которым пытались обратиться, и нашего знакомого robots.txt. Кто и когда пытался прочитать этот файл?

Файл robots.txt был придуман для того, чтобы можно было сказать поисковому роботу, какие страницы сайта не следует индексировать.

Формат файла robot.txt следующий:

Этот файл состоит из одной или более записей, разделенных одной или более пустых линий. Каждая запись имеет формат:
<имя_поля>:<необязательные_пробелы><значение><необязательные_пробелы>
Значение имени поля чувствительно к регистру.

В файл robots.txt можно включать комментарии в формате командных оболочек UNIX систем: символ # означает, что остаток строки - это комментарий и не анализируется поисковым роботом.

Каждая запись начинается с одной или более строк User-Agent, за которыми следует одна или более строки Disallow (описано ниже). Все остальные строки игнорируются.
User-agent
Значением этого поля является имя поискового робота, для которого применяются следующие поля Disallow.
Можно перечислить подряд несколько полей User-agent. Тогда следующие за ними поля Disallow будут применены для всех роботов (смотри пример 3 внизу)
Необходимо присутствие, как минимум одного такого поля.
Если значение этого поля - '*', то такое поле описывает правила для всех роботов, которые не перечислены в других записях. В файле robots.txt можно иметь только одно поле с User-agent равным '*'.
Disallow
Значение этого поля - часть URL, которое не должно быть посещено поисковиком. URL может быть полным или относительным; любой адрес, начинающийся с этого значения, не будет индексироваться поисковым роботом.
Например, Disallow: /about запрещает страницы /about.html и /about/index.html , тогда как Disallow: /about/ запрещает /about/index.html и не запрещает /about.html
Пустое значение разрешает индексацию всех страниц данного сайта.
Как минимум одна строка Disallow должна присутствовать для каждой записи.

Присутствие на сайте пустого файла robots.txt не имеет какого-либо особого значения. Такой файл рассматривается так же, как отсутствие robots.txt, то есть все страницы сайта могут посещаться поисковыми роботами.

Примеры использования файла robots.txt

В следующем примере, ни один из роботов не должен посещать URL, начинающиеся с /maps/map1/ или с /temporary/, или /checkout.php
# robots.txt for http://www.ex.ru/

User-agent: *
Disallow: /maps/map1/ # This is a comment
Disallow: /temporary/ # it is just temporary file location
Disallow: /checkout.php

В следующем примере, ни один из роботов не должен посещать URL, начинающиеся с /maps/map1/ за исключением робота Яндекса
# robots.txt for http://www.ex.ru/

User-agent: *
Disallow: /maps/map1/ # This is a comment

#Yandex can visit everything
User-agent: Yandex
Disallow:

В следующем примере, ни Яндекс ни Googlebot не должны индексировать страницу /checkout.php
# robots.txt for http://www.ex.ru/

User-agent: Yandex
User-agent: Googlebot
Disallow: /checkout.php

Если вы хотите, чтобы ваш сайт не индексировался совсем, то используйте следующий формат
# robots.txt for http://www.ex.ru/

User-agent: *
Disallow: /

Наиболее полный список активных поисковых роботов вы можете посмотреть на http://www.robotstxt.org/wc/active.html

Запомните, что символы регулярных выражений не поддерживаются в путях Disallow. То есть:
Disallow: /tmp/t* не запрещает все файлы в директории /tmp/, начинающиеся с символа 't'.
Попытка использовать символы регулярных выражений, это одна из самых распространенных ошибок при написании файла robots.txt
Yandex. От сих до сих - не сканируй. (Тег noindex).

Наш родной Яндекс облегчил жизнь веб мастерам и дал возможность указать часть веб страницы, которую не нужно индексировать роботу Яндекс.

Для этого нужно заключить текст, не подлежащий индексированию, между тегами и .

Это очень удобно, когда, например, вы хотите на своей странице привести пример, как не надо обманывать поисковых роботов.
Например:

Продаю розовую собачку

Name: Секреты web дизайна и раскрутки сайта Выпуск 6. Как запретить индексацию сайта
Item: Секреты web дизайна и раскрутки сайта Выпуск 6. Как запретить индексацию сайта
Author: chegressyk

Розовая собачка, очень розовая собачка. Розовая собачка на любой вкус.
Розовая собачка. Покупайте розовую собачку.
Розовая собачка. Только здесь и сейчас - розовые собачки
Розовая собачка.

Ясно, что такой текст будет сильно оптимизирован по слову "розовая собачка". Однако, это является нарушением и попыткой обмануть поисковую систему. И теги в данном случае говорят Яндексу не индексировать этот участок текста. Другими словами, поисковик не будет накладывать на такую страницу никаких санкций, так как все противоправные приемы спрятаны от поискового робота при помощи тега .

К сожалению, теги не являются стандартными. Это "изобретение" Яндекса. Иногда, такого же инструмента очень не хватает для Google.
Googlebot, ты туда не ходи. Ты сюда ходи. (Атрибут nofollow)

У Google есть своя фишка, с помощью которой можно указать его роботу по каким ссылкам он не должен переходить.

Предположим, что по тем или иным причинам, вы не желаете, чтобы Googlebot следовал (follow) по определенной ссылке со страницы. Для этого можно в атрибуте rel тега указать значение nofollow. По ссылкам с таким атрибутом, Googlebot не ходит.
Пример:
это ссылка

Это решение тоже не переносимо, то есть работает только для робота Google. Однако, знать об этом все же стоит. Очень удобно использовать атрибут nofollow при оптимизации страниц для получения большего Page Rank от Google. (О Page Rank я расскажу подробнее в одном из следующих выпусков).
Выводы

Мы рассмотрели основные способы, которые можно использовать для управления индексированием вашего сайта различными поисковыми роботами. Единственное универсальное решение - это использование файла robots.txt. Все остальные способы не универсальны. Они применимы лишь для определенных поисковых систем (не исключено, что многие из них войдут в будущем в стандарты HTML), но знать о них необходимо.

Вообще, если необходимо оптимизировать сайт для определенного поисковика, то внимательно читайте правила работы поискового робота. Там вы найдете самую точную и достоверную информацию об особенностях работы этого поисковика. Особенно обращайте внимание на пункты, нарушение которых карается баном. Старайтесь не нарушать эти правила. В противном случае, оправдаться будет очень не легко.
Обратная связь

Как и любому автору, мне очень важно мнение читателей о рассылке. Поэтому, я буду очень благодарен за любой отзыв. Даже критический.
Только, пожалуйста, не пишите мне письма вроде: "Дурацкая рассылка. Мне не нравится". Такое письмо не принесет мне никакой пользы, только негатив. Пишите, что конкретно вам не понравилось, и почему. Я постараюсь учесть ваше мнение.

По моему глубокому мнению, рассылка - это совместное творение автора и читателей. Так что, присылайте мне свои вопросы и пожелания относительно содержания будущих выпусков. Что бы лично вы хотели прочитать и узнать из этой рассылки. Ибо мнение читателя - закон для автора. (По крайней мере, к этому надо стремиться).

На самые интересные вопросы я буду публиковать ответы в конце рассылки.

Я жду ваших писем по адресу simeon@neomoon.ru

Заходите на webarticles.neomoon.ru - сайт, посвященный веб дизайну и раскрутке сайта. Вы можете стать соавтором материалов, призванных помочь другим людям в освоении этих интересных тем. Если вы хотите и можете написать интересную, познавательную статью, присылайте ее мне. Я обязательно размещу ее на сайте с указанием Вашего имени и координат. Наиболее интересные статьи будут анонсированы в рассылке.

Категория: Раскрутка сайта | Добавил: Admin (24.03.2007)