Robots.txt - вот как это делается

Robots.txt - Что это?
Стандартный протокол исключения роботов
Создание Robots.txt
Расширения правил
Проверьте готовый Robots.txt
Альтернативы Robots.txt
Вывод:
Дополнительная информация по теме:
Оцените наши статьи

В эту среду все о теме Robots.txt. Мы хотим посмотреть, как создать Robots.txt, как избежать наиболее распространенных ошибок и какие есть альтернативы. Но прежде чем я начну, позвольте мне объяснить несколько основ.

Robots.txt - Что это?

С Robots.txt у веб-мастера есть возможность определить, какие подстраницы и каталоги его сайта не будут проиндексированы поисковыми системами. Существует множество причин, по которым страницы или каталоги исключаются из индексации. Например, не следует индексировать страницы, которые находятся в стадии разработки или используются только в личных целях.

Стандартный протокол исключения роботов

Чтобы сделать это возможным, стандарт исключения роботов был запущен в 1994 году независимой группой. Между тем, протокол является общепринятым и может рассматриваться как квази-стандартный.

Между тем, протокол является общепринятым и может рассматриваться как квази-стандартный

Протокол указывает, что пользовательский агент (робот) сначала ищет в корневом каталоге домена файл robots.txt при вызове веб-страницы, а затем читает и интерпретирует его.
!! ВАЖНО !! - Имя файла должно быть написано полностью строчными буквами.
Этот файл может использоваться, чтобы указать, может ли и как сайт посещаться роботом. Протокол носит чисто ориентировочный характер и поэтому опирается на сотрудничество роботов. Известные поисковые системы обычно следуют инструкциям в Robots.txt, если они синтаксически верны.
Исключение определенных URL-адресов веб-присутствия протоколом не гарантирует секретность. Чтобы сохранить документ в секрете, вы должны использовать другие методы, такие как HTTP-аутентификация, список контроля доступа (ACL) или аналогичные. Дополнительную информацию о защите веб-сайтов можно найти среди прочего в Университет Кобленца Ландау ,

Создание Robots.txt

Теперь, когда я кое-что узнал об основах, давайте посмотрим на создание Robots.txt. Robots.txt в основном легко создать, вам не нужно ничего, кроме одного редактор текста , Между тем, есть и бесплатные инструменты для веб-мастеров, которые автоматизируют процесс. В Инструменты для веб-мастеров У Google также есть генератор Robots.txt. Однако для этого требуется учетная запись Google.
Robots.txt состоит из разных записей, которые построены по очень определенной схеме. Набор данных в основном состоит из двух частей. В первой части указывается, к каким роботам (пользовательским агентам) должны применяться следующие инструкции. Во второй части записаны инструкции:

Пользователь-агент: Googlebot Disallow:

Используя User Agent, мы определили, что эта запись относится только к роботу Googlebot. В следующей строке мы находим пустую запись запрета. Если вы обходитесь без спецификации файла или каталога, это означает, что все страницы могут быть включены в индекс.

- Противоположным эффектом является использование одной косой черты (/), когда вся веб-страница исключается из индексации:

Пользователь-агент: Googlebot Disallow: /

- Если вы хотите исключить определенные файлы или каталоги для всех роботов, существует так называемый wildchar (*) - заполнитель, который применяется ко всем роботам:

Пользовательский агент: * Disallow: / example-directory /

- Конечно, мы можем захотеть сформулировать правило, которое применяется, например, только к роботу Googlebot и веб-сканеру Yahoo! Поэтому Robots.txt допускает несколько записей. Например, вы можете найти названия различных веб-сканеров (роботов) на странице robotstxt.org , Для тех из вас, кто хочет знать точно, вы также можете посмотреть полные данные о роботах там.

Я собрал несколько важных пользовательских агентов в небольшой список:

Пользовательский агентПоиск

Googlebot Google Googlebot Изображение Google Image Search Adsbot-Google Google-Adwords MediaPartners-Google Google-Adsense Slurp Yahoo Msnbot / bingbot MSN / bing ia_archiver Интернет-архив Пользовательский агент: googlebot Пользовательский агент: slurp Disallow: / example-directory /

- Если вы хотите исключить несколько страниц из индексации, необходимо создать отдельную строку запрета для каждого файла или каталога. Указание нескольких путей в строке запрета приводит к ошибкам.

Пользовательский агент: googlebot Запретить: / example-directory / Disallow: / example-directory-2 / Disallow: /example-file.html

- robots.txt не разрешает регулярные выражения, но есть способ исключить файлы, которые содержат определенную строку:

User-agent: * Disallow: / пример

Это правило приведет к тому, что все URL-адреса, начинающиеся с / example, не будут включены в индекс. Не имеет значения, является ли это файл (/example.html) или каталог (/example-directory/file-1.html).

- Последнее общее правило, к которому я обращаюсь, позволяет исключать файлы с определенными расширениями:

Пользователь-агент: * Disallow: /*.jpg$

Звездочка служит подстановочным знаком для любой строки. Знак доллара в конце говорит о том, что после расширения файла больше ничего не может последовать. Таким образом, у нас есть средства для исключения различных типов файлов, таких как изображения, программные файлы или даже файлы журналов, из индексации.

Расширения правил

Есть еще несколько очень интересных правил, но они не могут быть интерпретированы всеми роботами. Поэтому я отошлю все следующие правила к роботу Google, так как он может понять эти правила.
Если вы специально хотите исключить каталоги, начинающиеся с определенной строки, можно использовать следующее правило:

Пользовательский агент: Googlebot Disallow: / example-directory * /

Например, каталоги / example-directory-1 / и / example-directory-2 / не будут проиндексированы.

- Часто бывает, что одна и та же страница появляется несколько раз в индексе поисковых систем благодаря использованию параметров. Это может произойти, например, с помощью форм или определенных функций фильтра:

Пользователь-агент: Googlebot Disallow: / *?

Это правило исключает любые пути, которые содержат вопросительный знак в URL из индексации.

- Другая запись, часто встречающаяся в Robots.txt, - это спецификация карты сайта:

Карта сайта: http://www.example.com/sitemap.xml

Эта запись сообщает роботу, где найти ситмап страницы. На этом этапе должны быть перечислены все карты сайта.

- Несколько записей должны быть указаны следующим образом:

Карта сайта: http://www.beispielseite.de/sitemap.xml Карта сайта: http://www.beispielseite.de/sitemap-bilder.xml

IETF (Internet Engineering Task Force), представленная в дополнение к утверждению Disallow и утверждению Allow, это еще не поддерживается каждым роботом. Поэтому следует скорее обходиться без и ограничиваться инструкциями Disallow.

Проверьте готовый Robots.txt

Конечно, с более длинными правилами можно быстро расползаться по ошибкам, поэтому вы должны проверить созданные правила снова. Одной из возможностей является Инструменты для веб-мастеров Google (Конфигурация сайта -> Crawler Access), другой инструмент можно найти здесь и здесь , Для последних двух инструментов Robots.txt уже должен быть на сервере.

Альтернативы Robots.txt

Теперь, когда мы подробно рассмотрели создание Robots.txt, давайте рассмотрим альтернативу. Robots.txt - не единственный способ сообщить поисковым системам, какие страницы включить в индекс. Альтернативой является метатег robots, который, как и другие метатеги, определяется в области заголовка страницы. Этот вариант полезен для исключения отдельных страниц из индексации. Исключить целые каталоги здесь невозможно. Однако, если вы хотите убедиться, что страница не отображается в индексе поисковых систем, это более безопасный вариант.

С помощью этой записи мы можем сообщить роботам поисковой системы, что страница не должна индексироваться, а ссылки на этой странице должен посещать сканер.

- Если вы также хотите запретить архивирование страницы поисковыми системами, вы можете вставить третье значение:

Вывод:

Напоследок хотелось бы вкратце сказать несколько слов о Robots.txt. Следует иметь в виду, что запись в Robots.txt не гарантирует, что страница не будет проиндексирована. Если вы действительно хотите быть уверены, вы должны установить соответствующую страницу в метатеге роботов на noindex. Мэтт Каттс решает эту проблему в этом коротком видео:

Наконец, я хотел бы привести несколько советов, которые следует учитывать при работе с Robots.txt:

Верхний и нижний регистр имеет значение
Два правила разделены пустой строкой
Каждое правило работает само по себе, нет никаких зависимостей
Неправильный синтаксис может привести к серьезным ошибкам (проверьте синтаксис)
Каждый недопустимый оператор должен начинаться с косой черты (/)

Дополнительная информация по теме:

Надеюсь, вам понравилась статья, хотя на этот раз нужно было прочитать много строк кода. Если у вас есть какие-либо дополнительные предложения или вопросы, мы можем обсудить это в комментариях.

Филипп и SEO-стажеры.

Оцените наши статьи

Вам понравилась статья? Скажите нам и оцените его в шляпе.

Вы уже проголосовали за эту тему!

Похожие

Alexa Rank - концептуальное определение
Alexa Rank является ключевой фигурой, определяемой Alexa. Компания Alexa предоставляет своим пользователям данные о доступе к веб-сайтам в своих аналитических инструментах. Alexa Rank - это определение количества посетителей сайта, чтобы сделать выводы об их популярности. Он определяет 1 000 000 наиболее посещаемых веб-сайтов и оценивает их по шкале от 0 до 50 000. Alexa получает данные доступа через подключаемые модули браузера, которые устанавливаются

Важность оптимизации страницы и как это сделать правильно!
Мне до смерти скучно говорить, что SEO больше не является выбором для компаний, которые стремятся к значительному росту, поэтому я подумал, что должен начать этот пост с СЕКСУАЛЬНОГО определения SEO, сформулированного Брюсом Клеем. Поисковая оптимизация не специализируется на задачах, которые заставят свиней парить высоко в небе. Его реальная задача - глубже изучить генетику сайта и реорганизовать основные элементы, пока он не превратится в орла

Meta Robots Tag & Robots.txt Учебник для Google, Bing и других поисковых систем
Как создать файлы Robots.txt Используйте наш Robots.txt генератор создать файл robots.txt. Проанализируйте ваш файл Robots.txt Используйте наш Robots.txt анализатор проанализировать

SEO и PPC - мощная комбинация
... это? SEO: SEO - это процесс, помогающий поисковым системам организовать Интернет, предоставляя поисковикам информацию, услуги и продукты, которые они ищут. Это также процесс удовлетворения индивидуальных потребностей поисковика за счет быстрой доставки контента, который не только соответствует их поисковому запросу, но и обеспечивает лучший опыт. КПП: реклама КПП позволяет создавать объявления, которые будут отображаться в поисковой

Что стало с гуру SEO?
Хотя термин «гуру» был принят многими оппортунистами в различных отраслях промышленности, возможно, нигде он не получил

Что такое заголовок и почему это важно?
Тег заголовка является одним из центральных элементов поисковая оптимизация Стратегия, и та, которая наиболее часто используется, легко модифицируется и оптимизируется.

Как улучшить ваши SEO страницы
Что делать, если у вас есть страница на вашем сайте и по какой-то причине она полностью игнорируется поисковыми системами? Какой действенный интеллект вы можете использовать в качестве стратегии или какой SEO Техника, которую вы можете реализовать, чтобы поместить эту страницу на карту? Следующая тактика способна исправить (1) осиротевшие страницы и (2) установить назначение страниц в стратегический порядок клевывания.

Автоматическое создание карты сайта: Freshdesk
Эта функция в настоящее время недоступна на Freshdesk Mint. Эта функция недоступна на старом Freshdesk. Файлы Sitemap играют жизненно важную роль в поисковой оптимизации. Они помогают поисковым системам быстро пролистывать страницы, что приводит к улучшению рейтинга в поисковых системах. Благодаря лучшему ранжированию в поисковых системах ваши клиенты могут быстро найти ответы на свои вопросы. Благодаря функции автоматической генерации карты сайта мы автоматически

Как улучшить SEO в Joomla 3.0?
... это не должно быть преувеличено. Есть много инструментов подсказки ключевых слов, которые могут вам понравиться Инструмент Google Adwords Ключевые слова и слово трекер Wodtracker , 3.- Используйте метатеги для веб-сайта Joomla: вы можете найти конфигурацию метаданных в глобальной конфигурации Joomla. Тэг мета-заголовка не должен превышать 70

Что такое SMM и Smo?
Если вы уже знаете, что такое SEO и SEM, и как они помогают улучшить позиционирование в Интернете и теперь вы задаетесь вопросом, что такое позиционирование SMM и SMO , вот основные характеристики этих методов позиционирования. Для начала, SMM и SMO позиционирование - это методы позиционирования, ориентированные на социальные сети или социальные сети.

SEO: важность и неважность роботов
... txt. Google рекомендует любой веб-сайт с более старыми файлами robots.txt, которые блокируют CSS или JavaScript, обновлять свои файлы. У нас уже было несколько клиентов по этому поводу. В основном это клиенты со старыми веб-сайтами, которые не ремонтировались в течение некоторого времени. Видите ли, поскольку Google объявил, что они будут наказывать сайты в мобильных поисках, которые не были оптимизированы для мобильных устройств, файл robots.txt приобрел новое значение.

Это нельзя отрицать, что это проблема - я могу показать вам аналитические результаты, чтобы доказать это, - но почему?
Это нельзя отрицать, что это проблема - я могу показать вам аналитические результаты, чтобы доказать это, - но почему? Ну, ответ идет вплоть до 2011 года и обновления Google Panda. Панда была огромным изменением алгоритма Google, которое отдавало приоритет качественному контенту и обесценивало низкокачественный контент. Это был шаг, направленный как на борьбу с фермой контента, так и со скребками контента и тонкими блогами контента. Это помогло удалить частные сети блогов из обращения,

Пока что это новое обновление алгоритма намекает только на это, но кто знает, что может быть дальше?
Пока что это новое обновление алгоритма намекает только на это, но кто знает, что может быть дальше? На Ваш рейтинг влияет Google Fred? Если вы являетесь тем, чей рейтинг веб-сайта был затронут с момента запуска этого обновления, вы должны думать буквально. Там должно быть что-то, что вы делаете не правильно для вашего сайта. Что-то, что не ладит с этим новым обновлением! Прежде всего, вам необходимо проверить свой профиль построения ссылок, поскольку, скорее

Статью Местный SEO - что это такое и как это работает?
Пока что это новое обновление алгоритма намекает только на это, но кто знает, что может быть дальше? На Ваш рейтинг влияет Google Fred? Если вы являетесь тем, чей рейтинг веб-сайта был затронут с момента запуска этого обновления, вы должны думать буквально. Там должно быть что-то, что вы делаете не правильно для вашего сайта. Что-то, что не ладит с этим новым обновлением! Прежде всего, вам необходимо проверить свой профиль построения ссылок, поскольку, скорее

Если Google начнет игнорировать наши оптимизированные теги заголовка - элемент № 1 оптимизации на странице - и будет воспринимать его как мета-описание, как это изменит нашу работу?
Если Google начнет игнорировать наши оптимизированные теги заголовка - элемент № 1 оптимизации на странице - и будет воспринимать его как мета-описание, как это изменит нашу работу? Возможно, стоит подумать, потому что день может наступить. Я думаю, что больше всего на свете возрастет важность актуальности страниц и оптимизации. У меня есть второй пост с более подробной информацией об этой мысли. Как вы думаете? Кто-нибудь еще заметил это? У кого-нибудь еще есть пример,

Это нормально, так как мох строители в некоторой степени похожи на это, но стоит ли это Weebly?
Это нормально, так как мох строители в некоторой степени похожи на это, но стоит ли это Weebly? Weebly на самом деле очень похож на WIX с точки зрения того, что они предлагают для SEO. Они учитывают основы, такие как оптимизация метаданных, управление контентом, alt-атрибуты изображения, пользовательские URL-адреса, некоторый уровень настройки заголовка страницы и многое другое. Как и Wix, у них большинство этих опций включено в стандартную комплектацию для всех пользователей, которые

Несмотря на это, Нил считает, что «хотя в моем отце нет ни одной тонны, которая бы не сосала», он всегда говорил, что совпадений не было, так что « Может быть, мы встретились по причине?
Несмотря на это, Нил считает, что «хотя в моем отце нет ни одной тонны, которая бы не сосала», он всегда говорил, что совпадений не было, так что « Может быть, мы встретились по причине? Может быть, из этого получилось что-то хорошее? - Ничего, о чем я могу подумать, - произносит Эмма, скрывая новости Генри, и возвращает подарок в виде брелка, который она носила как ожерелье. Замечательная работа Дженнифер Моррисон.

Как Google решает, что продвигать в своих поисковой выдаче, а что понижать?
Как Google решает, что продвигать в своих поисковой выдаче, а что понижать? Вот где поисковое намерение вступает в игру. Оптимизация вашего контента для поисковых целей Проще говоря, поисковые системы, такие как Google, существуют для объединения заинтересованных пользователей с лучшим из лучшего контента. Они знают, что когда пользователь использует контент, которому он может доверять, он будет возвращаться к поисковой системе, чтобы написать еще больше поисковых запросов.

Помните, мы рассмотрели, как структура их веб-сайта не была оптимизирована для SEO, и как трудно было посетителям найти то, что они хотят?
Помните, мы рассмотрели, как структура их веб-сайта не была оптимизирована для SEO, и как трудно было посетителям найти то, что они хотят? Что ж, это оказало большое пагубное влияние на их способность использовать свою значимость в своей отрасли (один из самых больших активов). К счастью, Medaesthetics сделал правильный выбор и

Так что если вы находитесь в Форт Лодердейл, Флорида Как наши эксперты по SEO в Форт-Лодердейле могут помочь вашему бизнесу?
Помните, мы рассмотрели, как структура их веб-сайта не была оптимизирована для SEO, и как трудно было посетителям найти то, что они хотят? Что ж, это оказало большое пагубное влияние на их способность использовать свою значимость в своей отрасли (один из самых больших активов). К счастью, Medaesthetics сделал правильный выбор и

Мы все знаем, что когда вы запускаете поиск в Google, вы получаете длинный список результатов, которые имеют отношение к тому, что вы ввели в поле поиска, но как определяется этот список результатов?
Мы все знаем, что когда вы запускаете поиск в Google, вы получаете длинный список результатов, которые имеют отношение к тому, что вы ввели в поле поиска, но как определяется этот список результатов? Почему одна веб-страница занимает первое место, а другая внизу страницы 10? Ключ к эффективному SEO - это то, что происходит на вашем сайте. Это может быть Google, который определяет ваш рейтинг, но они реагируют только на то, как ваш контент представлен. Google рассматривает ряд факторов,

Это нормально, вся эта информация, но как использовать?
Это нормально, вся эта информация, но как использовать? Выделить определенную страницу Если вы хотите убедиться, что одна страница вашего сайта хорошо структурирована (что она имеет несколько внутренних ссылок с других страниц сайта), вы можете убедиться в этом через меню, это прекрасно! Удалить или переименовать страницы Если вы хотите удалить или переименовать страницы со своего сайта, проверьте

Txt - Что это?
Txt - Что это?
О?
Какой действенный интеллект вы можете использовать в качестве стратегии или какой SEO Техника, которую вы можете реализовать, чтобы поместить эту страницу на карту?
Это нельзя отрицать, что это проблема - я могу показать вам аналитические результаты, чтобы доказать это, - но почему?
Пока что это новое обновление алгоритма намекает только на это, но кто знает, что может быть дальше?
На Ваш рейтинг влияет Google Fred?
Пока что это новое обновление алгоритма намекает только на это, но кто знает, что может быть дальше?
На Ваш рейтинг влияет Google Fred?
Если Google начнет игнорировать наши оптимизированные теги заголовка - элемент № 1 оптимизации на странице - и будет воспринимать его как мета-описание, как это изменит нашу работу?

Статьи