Статьи

Meta Robots Tag & Robots.txt Учебник для Google, Bing и других поисковых систем

  1. Как создать файлы Robots.txt
  2. Проанализируйте ваш файл Robots.txt
  3. Пример формата Robots.txt
  4. Справочная информация о файлах Robots.txt
  5. Задержка сканирования
  6. Robots.txt Подстановочные знаки соответствия
  7. Конкретные советы по URL
  8. Образец Робот Странности
  9. Noindex вместо Disallow в Robots.txt?
  10. Защищенная версия вашего сайта индексируется?
  11. Есть проблемы с каноникализацией или угоном?
  12. Хотите разрешить индексирование определенных файлов в папке, заблокированных с помощью сопоставления с образцом?
  13. Сравнивая Robots.txt с ...

Как создать файлы Robots

Как создать файлы Robots.txt

Используйте наш Robots.txt генератор создать файл robots.txt.

Проанализируйте ваш файл Robots.txt

Используйте наш Robots.txt анализатор проанализировать ваш файл robots.txt сегодня.

Google также предлагает аналогичный инструмент внутри Google Webmaster Central и показывает ошибки сканирования Google для вашего сайта.

Google также предлагает аналогичный инструмент внутри   Google Webmaster Central   и показывает ошибки сканирования Google для вашего сайта

Пример формата Robots.txt

Разрешить индексацию всего

Пользователь-агент: *
Disallow:

или же

Пользователь-агент: *
Разрешать: /

Запретить индексирование всего

Пользователь-агент: *
Disallow: /

Отключить индексирование определенной папки

Пользователь-агент: *
Disallow: / папка /

Запретить Googlebot индексировать папку, за исключением разрешения индексирования одного файла в этой папке

Пользователь-агент: Googlebot
Disallow: / folder1 /
Разрешить: /folder1/myfile.html

Справочная информация о файлах Robots.txt

  • Файлы Robots.txt сообщают поисковикам, как взаимодействовать с индексацией вашего контента.
    • По умолчанию поисковые системы являются жадными. Они хотят индексировать как можно больше высококачественной информации и предположат, что могут сканировать все, если вы не скажете им иначе.
    • Если вы укажете данные для всех ботов (*) и данные для конкретного бота (например, GoogleBot), то будут следовать конкретные команды ботов, в то время как этот движок игнорирует команды ботов global / default .
    • Когда вы блокируете URL-адреса от индексации в Google с помощью robots.txt, они все равно могут показывать эти страницы как списки только URL-адресов в своих результатах поиска. Лучшее решение для полной блокировки индекса конкретной страницы - использовать метатег noindex для роботов на основе страниц. Вы можете указать им не индексировать страницу или не индексировать страницу и не переходить по исходящим ссылкам, вставив один из следующих битов кода в заголовок HTML вашего документа, который вы не хотите индексировать.
      • <meta name = "robots" content = "noindex"> <- страница не проиндексирована, но можно переходить по ссылкам
      • <meta name = "robots" content = "noindex, nofollow"> <- страница не проиндексирована и ссылки не переходят
      • Обратите внимание, что если вы сделаете и то и другое: заблокируйте поисковые системы в robots.txt и через метатеги, тогда команда robots.txt является основным драйвером, так как они могут не сканировать страницу, чтобы увидеть метатеги, поэтому URL может По-прежнему появляются в результатах поиска, перечисленных только для URL.
  • Если у вас нет файла robots.txt, журналы вашего сервера будут возвращать 404 ошибки каждый раз, когда бот пытается получить доступ к вашему файлу robots.txt. Вы можете загрузить пустой текстовый файл с именем robots.txt в корень вашего сайта (то есть: seobook.com/robots.txt ) если вы хотите прекратить получать ошибки 404, но не хотите предлагать какие-либо конкретные команды для ботов.
  • Некоторые поисковые системы позволяют вам указывать адрес XML Sitemap в вашем файле robots.txt, но если ваш сайт небольшой и хорошо структурирован с чистой структурой ссылок, вам не нужно создавать XML карту сайта. Для крупных сайтов с несколькими подразделениями, сайтов, которые генерируют огромные объемы контента каждый день, и / или сайтов с быстро меняющимся запасом, XML-карты сайта могут быть полезным инструментом для индексации важного контента и отслеживания относительной эффективности глубины индексации по типу страницы.

Задержка сканирования

  • Поисковые системы позволяют устанавливать приоритеты сканирования.
    • Google не поддерживает команду задержки сканирования напрямую, но вы можете снизить приоритет сканирования в Google Webmaster Central.
    • Вы можете установить Yahoo! Задержка сканирования в файле robots.txt. ( Примечание: на большинстве крупных рынков за пределами Японии Yahoo! Search работает на Bing, а Google поддерживает поиск в Yahoo! Япония).
      • Их код задержки сканирования robots.txt выглядит следующим образом
        Пользователь-агент: Slurp
        Задержка сканирования: 5
        где 5 в секундах.
    • Информация Microsoft для Bing находится Вот ,
      • Их код задержки сканирования robots.txt выглядит следующим образом
        Пользователь-агент: bingbot
        Задержка сканирования: 10
        где 10 в секундах.

Robots.txt Подстановочные знаки соответствия

Google и Microsoft Bing разрешают использование подстановочных знаков в файлах robots.txt.

Чтобы заблокировать доступ ко всем URL-адресам, содержащим знак вопроса (?), Вы можете использовать следующую запись:

Пользователь-агент: *
Disallow: / *?

Вы можете использовать символ $, чтобы указать соответствие конца URL. Например, чтобы заблокировать URL-адреса, заканчивающиеся на .asp, вы можете использовать следующую запись:

Пользователь-агент: Googlebot
Disallow: /*.asp$

Больше информации о подстановочных знаках доступно от Google а также Yahoo! Поиск ,

Конкретные советы по URL

Частью создания чистого и эффективного файла robots.txt является обеспечение того, чтобы структура вашего сайта и имена файлов создавались на основе разумной стратегии. Какие мои любимые советы?

  • Избегайте дат в URL: если в какой-то момент вы хотите отфильтровать архивы на основе дат, то вам не нужны даты в путях к файлам на страницах с обычным контентом, или вы легко можете отфильтровать обычные URL-адреса. Есть множество других причин избегать дат в URL также.
  • Конечные URL-адреса с обратной косой чертой : если вы хотите заблокировать короткое имя файла, и у него нет обратной косой черты в конце, тогда вы можете случайно заблокировать другие важные страницы.
  • Рассмотрим связанные URL-адреса, если вы используете подстановочные знаки Robots.txt: я случайно стоил мне более 10000 долларов прибыли с одной ошибкой robots.txt!
  • Динамическая перезапись URL: Yahoo! Поиск предлагает динамическое переписывание URL , но так как большинство других поисковых систем не используют его, вам, вероятно, лучше переписать свои URL-адреса в файле .htaccess, чем создавать дополнительные переписывания только для Yahoo! Поиск. Google предлагает параметры обработки параметров & отн = каноническое , но, как правило, лучше исправлять общедоступные URL-адреса таким образом, чтобы они были максимально согласованными, чтобы
    • если вы когда-нибудь мигрируете между платформами, у вас не будет много случайных ссылок, указывающих на страницы, которые больше не существуют
    • вы не заканчиваете тем, что разрабатываете сложный лабиринт, когда меняете платформы на протяжении многих лет
  • Сайты на разных рынках и языках. Поисковые системы обычно стараются повысить рейтинг известных локальных результатов, хотя в некоторых случаях бывает сложно встроить ссылки во многие локальные версии сайта. Google предлагает hreflang чтобы помочь им узнать, какие URL являются эквивалентами для разных языков и рынков.
  • Дополнительные советы по URL в именование файлов раздел нашего Программа обучения SEO ,

Образец Робот Странности

Google создает страницы поиска на вашем сайте?

Google начал вводить поисковые фразы в формы поиска, что может привести к потере PageRank & вызвал некоторые проблемы с дублированием контента , Если у вас недостаточно прав доступа к домену, возможно, вы захотите запретить Google индексировать URL-адрес вашей страницы поиска. Если вы не уверены в URL своей поисковой страницы, вы можете выполнить поиск на своем сайте и посмотреть, какой URL появляется. Например,

  • URL поиска Wordpress по умолчанию обычно ? S =
    • Добавление
      Пользователь-агент: *
      Disallow: /? S =
      в ваш файл robots.txt не позволит Google создавать такие страницы
  • Drupal поддерживает сайт SEO Book, и наш поисковый URL по умолчанию для Drupal - / search / node /

Noindex вместо Disallow в Robots.txt?

Обычно директива noindex включается в тег meta robots. Тем не менее, Google уже много лет поддержали используя noindex внутри Robots.txt Точно так же, как веб-мастер использовал бы запрет.

Пользователь-агент: Googlebot
Disallow: / page-uno /
Noindex: / page-uno /

Улов, как заметил Sugarrae , - это URL-адреса, которые уже проиндексированы, но в robots.txt установлены значения noindex, что приведет к ошибкам в поисковой консоли Google (ранее известной как Инструменты Google для веб-мастеров). Джон Мёллер из Google также рекомендуется против используя noindex в robots.txt.

Защищенная версия вашего сайта индексируется?

В этом гостевом посте Тони Спенсер о 301 перенаправления и .htaccess он предлагает советы о том, как предотвратить индексацию вашей версии SSL https на вашем сайте. За годы, прошедшие с момента первоначального опубликования, Google указывал на то, что рейтинг HTTPS-версии сайта предпочтительнее, чем HTTP-версии сайта. Есть способы выстрелить себе в ногу, если она не перенаправлена ​​или не канонизирована должным образом.

Есть проблемы с каноникализацией или угоном?

На протяжении многих лет некоторые люди пытались угнать другие сайты используя гнусные приемы с веб-прокси. Google , Yahoo! Поиск , Microsoft Live Search , а также Просить все позволяют владельцам сайтов аутентифицировать своих ботов.

  • Хотя я полагаю, что Google исправил угон прокси прямо сейчас, хорошим советом, чтобы минимизировать любые риски угона, является использование абсолютных ссылок (таких как <a href="http://www.seobook.com/about.shtml">), а не относительных ссылки (<a href="about.shtml">).
  • Если и WWW и не WWW версии вашего сайта индексируются, вы должны 301 перенаправление менее авторитетная версия для более важной версии.
    • Версия, которая должна быть перенаправлена, является той, которая не ранжируется также для большинства поисковых запросов и имеет меньше входящих ссылок.
    • Сделайте резервную копию вашего старого файла .htaccess перед его изменением!

Хотите разрешить индексирование определенных файлов в папке, заблокированных с помощью сопоставления с образцом?

Разве мы не хитрый!

Первоначально robots.txt поддерживал только директиву disallow, но некоторые поисковые системы также поддерживают директиву allow. Директива allow плохо документирована и может обрабатываться разными поисковыми системами по-разному. Семетрическая информация о как Google обрабатывает директиву allow , Их исследование показало:

Количество символов, которые вы используете в пути директивы, имеет решающее значение при оценке Разрешить против Запрета. Правило, чтобы управлять ими все следующее:

Соответствующая директива Allow бьет соответствующий Disallow, только если она содержит больше или равное количество символов в пути

Сравнивая Robots.txt с ...

ссылка rel = nofollow и мета-роботы Noindex / Nofollow Tags

Просканировано роботом Googlebot?

Появляется в указателе?

Потребляет PageRank

Риски? Отходы?

Формат robots.txt нет Если документ связан с, он может отображаться только по URL или с данными из ссылок или надежных сторонних источников данных, таких как ОРС да

Люди могут просмотреть ваш файл robots.txt, чтобы увидеть, какой контент вы не хотите индексировать. Многие новые запуски обнаруживаются людьми, которые следят за изменениями в файле robots.txt.

Неправильное использование подстановочных знаков может быть дорогим !

Пользователь-агент: *
Disallow: / папка /

ИЛИ ЖЕ

Пользователь-агент: *
Disallow: /file.html

Сложные подстановочные знаки также могут быть использованы.

тэг robots meta noindex да нет да, но может передавать большую часть своего PageRank путем ссылки на другие страницы

Ссылки на странице noindex все еще сканируются поисковыми пауками, даже если страница не отображается в результатах поиска (если они не используются вместе с nofollow).

Страница, использующая роботы meta nofollow (1 строка ниже) в сочетании с noindex, может накапливать PageRank, но не передавать его другим страницам.

<meta name = "robots" content = "noindex">
ИЛИ можно использовать с Nofollow Likeo
<meta name = "robots" content = "noindex, nofollow"> целевая страница тега meta nofollow роботов сканируется только в том случае, если ссылка на страницу назначения из других документов отображается только в том случае, если ссылка на страницу из других документов отсутствует, PageRank не передается в пункт назначения Если вы нажимаете значительный PageRank на страницу и не позволяйте PageRank вытекать с этой страницы, вы можете потерять значительный капитал ссылки.

<meta name = "robots" content = "nofollow">

ИЛИ можно использовать с noindex likeso

<meta name = "robots" content = "noindex, nofollow">

ссылка rel = nofollow конечная страница сканируется только в том случае, если ссылка на нее из других документов конечная страница отображается только в случае ссылки на другие документы. Использование этого может привести к потере некоторого PageRank. Рекомендуется использовать в пользовательских областях контента. Если вы делаете что-то пограничный спам и используете nofollow для внутренних ссылок для создания PageRank, то вы больше похожи на SEO и с большей вероятностью будете наказаны инженером Google за «поисковый спам» <a href = "http: // destination .com / "rel =" nofollow "> текст ссылки </a> rel = canonical yes. несколько версий страницы могут быть просканированы и могут отображаться в индексных страницах, все еще отображаться в индексе. это воспринимается как подсказка, а не директива. PageRank должен накапливаться в целевой точке назначения. С помощью таких инструментов, как перенаправления 301 и rel = canonical, может быть небольшое количество утечки PageRank, особенно с rel = canonical, поскольку обе версии страницы остаются в поисковом индексе.

<link rel = "canonical" href = "http://www.site.com/great-page" />

Ссылка на Javascript, как правило, да, если целевой URL легко доступен в разделах href или onclick целевой страницы ссылки, отображается только в том случае, если ссылки на другие документы обычно да, PageRank обычно передается в пункт назначения, хотя многие из них следуют Google , они не могут сопровождаться другими поисковыми системами.

  • <div onclick = "document.location.href = 'http: //foo.com/'">
  • <tr onclick = "myfunction ('index.html')"> <a href = "#"
    onclick = "myfunction ()"> новая страница </a>
  • <a href = "javascript: void (0)" onclick = "window.open
    ('welcome.html') "> открыть новое окно </a>

Новости

Интернет магазин искусственных цветов
Человеческая фантазия безгранична, как и стремление человека к прекрасному. Это не может не радовать творческих личностей, да и вообще представителей современного прогрессивного человечества. Но в двойне

Werkel интернет магазин
Электроснабжение дома, квартиры является той системой, которой мы пользуемся раз в день. Подключение устройств к розеткам, включение и выключение света — мы нередко исполняем эти деяния, не задумываясь.

Интернет магазин ЛЕГО
Ка быстро растут чужие дети, да что там чужие и свои растут не медленнее. Еще казалось только вчера Вы ощутили небывалый прилив нежности только сказав мужу новость, что скоро он станет папой. И вот уже

Билайн домашний интернет за 1 рубль
Компания Beeline предоставляет абонентам не только качественную  мобильную связь, но и домашний интернет с телевидением. Появилась услуга недавно, поэтому многие клиенты ещё не знают об интересной

Как устранить ошибку 651 при подключении к интернету
Ошибка 651 может возникнуть из-за технических проблем со стороны провайдера или Вашего сетевого оборудования. В этом всем участвуют сетевая карта компьютера, роутер или модем. Если на Вашем компьютере

Кому какой пакет: на что хватит 1 ГБ мобильного интернета, а на что нужно больше
28 Января 2016 15:00 34791 С появлением 3G в Украине мобильный интернет перестал быть медленным и неполноценным придатком к смартфону, а стал таким же рабочим инструментом, как и Wi-Fi.  Скорость

Операторы показали украинцам 3G: на что хватит 1 ГБ трафика
Операторы предлагают абонентам пакеты с 0,7-2,5 ГБ трафика. Много это или мало? И что конкретно можно сделать, имея в смартфоне 1 ГБ? К середине июня уже два из трех мобильных операторов - Астелит (life:)

Интернет-банк Банка Авангард
Обзор системы интернет-банка Пожалуй, не будет преувеличением сказать, что интернет-банк – самый востребованный банковский сервис современного банка. Возможность подключения практически

Наталья Толстая - Что делать, если у мужа появилась любовница? Советы психолога
Еще лет двадцать назад невозможно было себе представить, чтобы люди знакомились, влюблялись и изменяли своим половинам, не вставая с кресла. Но с появлением Интернета все это стало реальностью... Виртуальный

Что делать если 3G,LTE и WIFI не работает
«Мегафон» - это компания, которая предоставляет услуги мобильной связи, а так же доступ к Интернету. Эта российская компания набирает все большей и большей популярности, так как имеет множество разных