Новости

Robots.txt

  1. Robots.txt Примеры для SEO

Мы сгруппировали метатег robots и файл robots.txt в одну и ту же категорию, поскольку они по-разному выполняют схожие вещи. Один из них - файл, другой - HTML-тег, однако оба они могут разрешить или помешать поисковым роботам сканировать ваш сайт.

Файл robots.txt - это файл, который вы создаете и который существует на вашем сервере. Он сообщает таким ботам, как Google и Bing (а также некоторым «плохим» ботам), где сканировать, а где не сканировать. Этот файл в основном служит руководством для ботов, чтобы показать им, где, а иногда и как часто сканировать.

Пример: наш файл robots.txt

https://elite-strategies.com/robots.txt

Например, вы действительно не хотите, чтобы область «admin» вашего сайта просматривалась большинством пользователей, поэтому вы можете указать Google не сканировать ее, не разрешая.

Точно так же, если вы действительно хотите обеспечить сканирование определенного раздела вашего веб-сайта, вы можете указать это и в файле robots.txt.

Большинство сайтов имеют очень ограниченный «бюджет сканирования», то есть количество страниц, которые будут сканироваться каждый раз, когда робот Googlebot посещает ваш сайт. Тем не менее, вы действительно хотите оптимизировать время Googlebot, когда он посещает ваш сайт. Вы не хотите, чтобы Google тратил свое время на нерелевантные разделы вашего веб-сайта, когда он может сканировать более важные разделы.

Мы сгруппировали метатег robots и файл robots

файл robots.txt для LinkedIn отличный пример хорошо продуманного файла robots.txt Последнее, что мы проверили, было более 1000 строк. На таком огромном веб-сайте им действительно нужно учитывать, какие части веб-сайта они хотят открыть для Google, особенно если у них более 200 000 000 (200 миллионов) результатов в Google.

Кривой шар: вы можете запретить URL-адрес в файле robots.txt, но Google по-прежнему может индексировать его. Я перефразирую это: то, что вы говорите Google не разрешать URL, не означает, что оно вас будет слушать.

Имея это в виду, не стоит рассчитывать на файл robots.txt, чтобы блокировать или разблокировать страницы в поисковых системах. Файл robots.txt намного лучше подходит в качестве руководства для робота Google, чтобы помочь ему сканировать большие и важные области вашего сайта.

Если вы действительно хотите глубоко понять файл robots.txt, Google написал очень подробная спецификация на сайте разработчиков Google.

Файл robots.txt, вероятно, не изменит или не нарушит план действий SEO, но, вероятно, поможет.

Robots.txt Примеры для SEO

Robots.txt, поддерживающий CSS и JavaScript

В последние месяцы эта тема была популярной темой для разговоров, особенно после того, как Google раздавал людям предупреждения о блокировке CSS и JavaScript. Одним из решений является добавление этого в ваш файл robots.txt. Это гарантирует, что ваш сервер не будет блокировать JavaScript или CSS.

Пользователь-агент: Googlebot Разрешить: .js Разрешить: .css

Этот пример говорит Yahoo (код с именем «Slurp» не сканировать ваш сайт)

Пользователь-агент: Slurp Disallow: / cgi-bin /

Этот пример сообщает всем роботам, что они могут сканировать все файлы на этом конкретном веб-сайте.

Пользователь-агент: * Disallow:

Этот пример говорит всем роботам не сканировать сайт вообще.

Пользователь-агент: * Disallow: /

Этот пример говорит всем роботам не сканировать эти конкретные каталоги

Пользовательский агент: * Disallow: / administrator / Disallow: /login.php/ Disallow: / private-files /

Этот пример говорит всем роботам не сканировать один файл в частности

Агент пользователя: * Disallow: /directory/file.html

Тэг meta robots - это тег, который вы можете добавить в заголовок вашего сайта, чтобы дать определенным роботам, таким как инструкции робота Google, инструкции по сканированию вашего сайта. Для быстрого примера, вот как будут выглядеть некоторые из них.

<meta name = "robots" content = "noindex"> <meta name = "robots" content = "nofollow">

Хотя мета-роботы, вероятно, сами по себе не являются фактором прямого ранжирования, они все же могут играть жизненно важную роль в общей оптимизации (SEO) вашего сайта.

Существует несколько различных параметров, которые вы можете использовать в теге meta robots. Вот таблица, иллюстрирующая некоторые из наиболее популярных и сканеры, которые их распознают.

Значение роботовGoogleYahoo / Bing

index Да Да noindex Да Да nofollow Да Да нет Да Да Возможно следовать Да Возможно noodp Да Да noarchive Да Да nosnippet Да Нет

В этом посте мы будем говорить в основном о поисковых роботах, таких как Googlebot и Slurp (он же Yahoo).

Индекс, Noindex

Индексный тег мета-роботов, чтобы обеспечить индексацию этой конкретной страницы. И наоборот, тег noindex скажет сканеру не индексировать страницу. Ключевым моментом здесь является то, что иногда, даже если вы «noindex» страницу, она все равно будет отображаться в результатах поиска. Если вы действительно не хотите, чтобы Google проиндексировал ваш веб-сайт, мы советуем вам не размещать его в открытой сети или защищать паролем.

Хорошим примером параметра noindex могут служить такие страницы, как страницы администратора или входа, которые вы не хотите, чтобы Google сканировал. Эти страницы могут не только облагать налогом ресурсы вашего сервера, но и вводить пользователей в заблуждение, если они видят их в результатах поиска.

Следуй, нофоллоу

Параметр nofollow указывает сканерам не переходить по ссылкам на этой странице. И наоборот, тег follow указывает сканерам явно переходить по ссылкам на этой странице.

Другие параметры

Другие параметры не так популярны, как раньше. Noodp говорит Open Directory Project (DMOZ) не указывать сайт в своем каталоге. Noarchive сообщает сканеру archive.org не указывать веб-сайт в своем архиве. Одна из причин, по которой сайты могут запретить эти сканеры, заключается в том, что они могут занимать много серверных ресурсов, сканирующих веб-сайт.

По большей части большинству пользователей не нужно использовать большинство этих тегов, за исключением noindex и nofollow.

On-Page SEO Руководство Содержание