Статьи

Robots.txt - вот как это делается

  1. Robots.txt - Что это?
  2. Стандартный протокол исключения роботов
  3. Создание Robots.txt
  4. Расширения правил
  5. Проверьте готовый Robots.txt
  6. Альтернативы Robots.txt
  7. Вывод:
  8. Дополнительная информация по теме:
  9. Оцените наши статьи

В эту среду все о теме Robots.txt. Мы хотим посмотреть, как создать Robots.txt, как избежать наиболее распространенных ошибок и какие есть альтернативы. Но прежде чем я начну, позвольте мне объяснить несколько основ.

Robots.txt - Что это?

С Robots.txt у веб-мастера есть возможность определить, какие подстраницы и каталоги его сайта не будут проиндексированы поисковыми системами. Существует множество причин, по которым страницы или каталоги исключаются из индексации. Например, не следует индексировать страницы, которые находятся в стадии разработки или используются только в личных целях.

Стандартный протокол исключения роботов

Чтобы сделать это возможным, стандарт исключения роботов был запущен в 1994 году независимой группой. Между тем, протокол является общепринятым и может рассматриваться как квази-стандартный.

Между тем, протокол является общепринятым и может рассматриваться как квази-стандартный

© iStockphoto / Thinkstock

Протокол указывает, что пользовательский агент (робот) сначала ищет в корневом каталоге домена файл robots.txt при вызове веб-страницы, а затем читает и интерпретирует его.
!! ВАЖНО !! - Имя файла должно быть написано полностью строчными буквами.
Этот файл может использоваться, чтобы указать, может ли и как сайт посещаться роботом. Протокол носит чисто ориентировочный характер и поэтому опирается на сотрудничество роботов. Известные поисковые системы обычно следуют инструкциям в Robots.txt, если они синтаксически верны.
Исключение определенных URL-адресов веб-присутствия протоколом не гарантирует секретность. Чтобы сохранить документ в секрете, вы должны использовать другие методы, такие как HTTP-аутентификация, список контроля доступа (ACL) или аналогичные. Дополнительную информацию о защите веб-сайтов можно найти среди прочего в Университет Кобленца Ландау ,

Создание Robots.txt

Теперь, когда я кое-что узнал об основах, давайте посмотрим на создание Robots.txt. Robots.txt в основном легко создать, вам не нужно ничего, кроме одного редактор текста , Между тем, есть и бесплатные инструменты для веб-мастеров, которые автоматизируют процесс. В Инструменты для веб-мастеров У Google также есть генератор Robots.txt. Однако для этого требуется учетная запись Google.
Robots.txt состоит из разных записей, которые построены по очень определенной схеме. Набор данных в основном состоит из двух частей. В первой части указывается, к каким роботам (пользовательским агентам) должны применяться следующие инструкции. Во второй части записаны инструкции:

Пользователь-агент: Googlebot Disallow:

Используя User Agent, мы определили, что эта запись относится только к роботу Googlebot. В следующей строке мы находим пустую запись запрета. Если вы обходитесь без спецификации файла или каталога, это означает, что все страницы могут быть включены в индекс.

- Противоположным эффектом является использование одной косой черты (/), когда вся веб-страница исключается из индексации:

Пользователь-агент: Googlebot Disallow: /

- Если вы хотите исключить определенные файлы или каталоги для всех роботов, существует так называемый wildchar (*) - заполнитель, который применяется ко всем роботам:

Пользовательский агент: * Disallow: / example-directory /

- Конечно, мы можем захотеть сформулировать правило, которое применяется, например, только к роботу Googlebot и веб-сканеру Yahoo! Поэтому Robots.txt допускает несколько записей. Например, вы можете найти названия различных веб-сканеров (роботов) на странице robotstxt.org , Для тех из вас, кто хочет знать точно, вы также можете посмотреть полные данные о роботах там.

Я собрал несколько важных пользовательских агентов в небольшой список:

Пользовательский агентПоиск

Googlebot Google Googlebot Изображение Google Image Search Adsbot-Google Google-Adwords MediaPartners-Google Google-Adsense Slurp Yahoo Msnbot / bingbot MSN / bing ia_archiver Интернет-архив Пользовательский агент: googlebot Пользовательский агент: slurp Disallow: / example-directory /

- Если вы хотите исключить несколько страниц из индексации, необходимо создать отдельную строку запрета для каждого файла или каталога. Указание нескольких путей в строке запрета приводит к ошибкам.

Пользовательский агент: googlebot Запретить: / example-directory / Disallow: / example-directory-2 / Disallow: /example-file.html

- robots.txt не разрешает регулярные выражения, но есть способ исключить файлы, которые содержат определенную строку:

User-agent: * Disallow: / пример

Это правило приведет к тому, что все URL-адреса, начинающиеся с / example, не будут включены в индекс. Не имеет значения, является ли это файл (/example.html) или каталог (/example-directory/file-1.html).

- Последнее общее правило, к которому я обращаюсь, позволяет исключать файлы с определенными расширениями:

Пользователь-агент: * Disallow: /*.jpg$

Звездочка служит подстановочным знаком для любой строки. Знак доллара в конце говорит о том, что после расширения файла больше ничего не может последовать. Таким образом, у нас есть средства для исключения различных типов файлов, таких как изображения, программные файлы или даже файлы журналов, из индексации.

Расширения правил

Есть еще несколько очень интересных правил, но они не могут быть интерпретированы всеми роботами. Поэтому я отошлю все следующие правила к роботу Google, так как он может понять эти правила.
Если вы специально хотите исключить каталоги, начинающиеся с определенной строки, можно использовать следующее правило:

Пользовательский агент: Googlebot Disallow: / example-directory * /

Например, каталоги / example-directory-1 / и / example-directory-2 / не будут проиндексированы.

- Часто бывает, что одна и та же страница появляется несколько раз в индексе поисковых систем благодаря использованию параметров. Это может произойти, например, с помощью форм или определенных функций фильтра:

Пользователь-агент: Googlebot Disallow: / *?

Это правило исключает любые пути, которые содержат вопросительный знак в URL из индексации.

- Другая запись, часто встречающаяся в Robots.txt, - это спецификация карты сайта:

Карта сайта: http://www.example.com/sitemap.xml

Эта запись сообщает роботу, где найти ситмап страницы. На этом этапе должны быть перечислены все карты сайта.

- Несколько записей должны быть указаны следующим образом:

Карта сайта: http://www.beispielseite.de/sitemap.xml Карта сайта: http://www.beispielseite.de/sitemap-bilder.xml

IETF (Internet Engineering Task Force), представленная в дополнение к утверждению Disallow и утверждению Allow, это еще не поддерживается каждым роботом. Поэтому следует скорее обходиться без и ограничиваться инструкциями Disallow.

Проверьте готовый Robots.txt

Конечно, с более длинными правилами можно быстро расползаться по ошибкам, поэтому вы должны проверить созданные правила снова. Одной из возможностей является Инструменты для веб-мастеров Google (Конфигурация сайта -> Crawler Access), другой инструмент можно найти здесь и здесь , Для последних двух инструментов Robots.txt уже должен быть на сервере.

Альтернативы Robots.txt

Теперь, когда мы подробно рассмотрели создание Robots.txt, давайте рассмотрим альтернативу. Robots.txt - не единственный способ сообщить поисковым системам, какие страницы включить в индекс. Альтернативой является метатег robots, который, как и другие метатеги, определяется в области заголовка страницы. Этот вариант полезен для исключения отдельных страниц из индексации. Исключить целые каталоги здесь невозможно. Однако, если вы хотите убедиться, что страница не отображается в индексе поисковых систем, это более безопасный вариант.

<meta name = "robots" content = "noindex, follow" />

С помощью этой записи мы можем сообщить роботам поисковой системы, что страница не должна индексироваться, а ссылки на этой странице должен посещать сканер.

- Если вы также хотите запретить архивирование страницы поисковыми системами, вы можете вставить третье значение:

<meta name = "robots" content = "noindex, nofollow, noarchive" />

Вывод:

Напоследок хотелось бы вкратце сказать несколько слов о Robots.txt. Следует иметь в виду, что запись в Robots.txt не гарантирует, что страница не будет проиндексирована. Если вы действительно хотите быть уверены, вы должны установить соответствующую страницу в метатеге роботов на noindex. Мэтт Каттс решает эту проблему в этом коротком видео:

Наконец, я хотел бы привести несколько советов, которые следует учитывать при работе с Robots.txt:

  • Верхний и нижний регистр имеет значение
  • Два правила разделены пустой строкой
  • Каждое правило работает само по себе, нет никаких зависимостей
  • Неправильный синтаксис может привести к серьезным ошибкам (проверьте синтаксис)
  • Каждый недопустимый оператор должен начинаться с косой черты (/)

Дополнительная информация по теме:

Надеюсь, вам понравилась статья, хотя на этот раз нужно было прочитать много строк кода. Если у вас есть какие-либо дополнительные предложения или вопросы, мы можем обсудить это в комментариях.

Филипп и SEO-стажеры.

Оцените наши статьи

Вам понравилась статья? Скажите нам и оцените его в шляпе.

Вы уже проголосовали за эту тему!

Новости

Интернет магазин искусственных цветов
Человеческая фантазия безгранична, как и стремление человека к прекрасному. Это не может не радовать творческих личностей, да и вообще представителей современного прогрессивного человечества. Но в двойне

Werkel интернет магазин
Электроснабжение дома, квартиры является той системой, которой мы пользуемся раз в день. Подключение устройств к розеткам, включение и выключение света — мы нередко исполняем эти деяния, не задумываясь.

Интернет магазин ЛЕГО
Ка быстро растут чужие дети, да что там чужие и свои растут не медленнее. Еще казалось только вчера Вы ощутили небывалый прилив нежности только сказав мужу новость, что скоро он станет папой. И вот уже

Билайн домашний интернет за 1 рубль
Компания Beeline предоставляет абонентам не только качественную  мобильную связь, но и домашний интернет с телевидением. Появилась услуга недавно, поэтому многие клиенты ещё не знают об интересной

Как устранить ошибку 651 при подключении к интернету
Ошибка 651 может возникнуть из-за технических проблем со стороны провайдера или Вашего сетевого оборудования. В этом всем участвуют сетевая карта компьютера, роутер или модем. Если на Вашем компьютере

Кому какой пакет: на что хватит 1 ГБ мобильного интернета, а на что нужно больше
28 Января 2016 15:00 34791 С появлением 3G в Украине мобильный интернет перестал быть медленным и неполноценным придатком к смартфону, а стал таким же рабочим инструментом, как и Wi-Fi.  Скорость

Операторы показали украинцам 3G: на что хватит 1 ГБ трафика
Операторы предлагают абонентам пакеты с 0,7-2,5 ГБ трафика. Много это или мало? И что конкретно можно сделать, имея в смартфоне 1 ГБ? К середине июня уже два из трех мобильных операторов - Астелит (life:)

Интернет-банк Банка Авангард
Обзор системы интернет-банка Пожалуй, не будет преувеличением сказать, что интернет-банк – самый востребованный банковский сервис современного банка. Возможность подключения практически

Наталья Толстая - Что делать, если у мужа появилась любовница? Советы психолога
Еще лет двадцать назад невозможно было себе представить, чтобы люди знакомились, влюблялись и изменяли своим половинам, не вставая с кресла. Но с появлением Интернета все это стало реальностью... Виртуальный

Что делать если 3G,LTE и WIFI не работает
«Мегафон» - это компания, которая предоставляет услуги мобильной связи, а так же доступ к Интернету. Эта российская компания набирает все большей и большей популярности, так как имеет множество разных