файл ROBOTS.TXT

ЗАЧЕМ НУЖЕН ФАЙЛ ROBOTS.TXT? (для начинающих)

Здравствуйте дорогие читатели блога myborder.ru.
Каждый, кто создал хоть один сайт и хочет заняться его продвижением просто ОБЯЗАН знать об этом файле, хотя бы иметь представление о его содержимом, а так же как создать файл roobots и как настроить файл robots в wordpress или где-либо ещё, ведь в любой системе управления контентом (CMS) robots настраивается одинаково. Из статьи вы узнаете как настроить файл роботс и конечно же проверить файл роботс.

ЧТО ИЗ СЕБЯ ПРЕДСТАВЛЯЕТ ФАЙЛ ROBOTS txt?

ROBOTS txt — это обычный текстовый файл, который содержит некие правила, указывающие какие разделы или страницы необходимо показать для индексации поисковых систем, а какие наоборот скрыть. Можно показать или запретить доступ для индексации как весь сайт, так и его часть.

Содержимое файла robots состоит в основном из так называемых ДИРЕКТИВ файла robots, иначе говоря команд. К примеру директива Allow — разрешает, а директива Disallow — наоборот запрещает индексирование.

Если к этой директиве добавить путь к файлу, папке или целому разделу, то это уже будет целое правило. Приведем пример:
директива Disallow: */comment — запрещает индексировать комментарий на сайте, а директива
Allow: */uploads — разрешает индексировать файлы для загрузки.

Но кроме этих директив бывают и другие.

А ЗАЧЕМ СКРЫВАТЬ СОДЕРЖИМОЕ САЙТА ОТ ПОИСКОВИКОВ?

Дело все в том, что поисковые сервера могут проиндексировать содержимое с паролями, файлы со скриптами, плагины и остальную информацию, которая не нужна поисковикам и такое положение дел, может навредить Вашему сайту. Более того поисковики индексируют лишние страницы и в итоге у вас образуются дублирующие страницы, за которые поисковики наказывают ваш сайт, поэтому так важно знать как настроить файл robots.

А ГДЕ НАХОДИТСЯ ФАЙЛ ROBOTS или ГДЕ НАЙТИ ФАЙЛ ROBOTS?

ROBOTS.TXT обязательно должен лежать в корне вашего сайта и ни в коем случае в другом месте. Если у Вашего сайта есть поддомены, то для них нужно составить свой файл, причем для каждого свой в отдельности.
То есть для домена свой и для каждого поддомена свой.

Зная о том, что этот файл роботс находится в открытом доступе, то им могут воспользоваться хакеры и прочий сброд, с целью взлома Вашего сайта. И дабы не давать им для этого повода, старайтесь не указывать в нем явное расположение административных ресурсов. Так что если у Вас есть страница, на которую нет ссылок, то Вы её просто не прописывайте, её итак никто не сможет найти.

Присутствие файла нужно крайне важно для сайта, особенно при продвижении. Как только поисковый робот заходит на сайт, он тут же считывает файл роботс.тхт и руководствуется им. А если такового нет, то поисковик не поймет что можно индексировать, а что нежелательно и в итоге проиндексирует всё подряд, а это скажется на вашем ресурсе впоследствии.

Но исходя из опыта, не все поисковики одинаково реагируют на содержание такого файла. Например, Google прочитав этот файл robots, принимает его к сведению, а вот Yandex наоборот прочитав его, обязательно исключает указанные страницы из индексирования.

А сие означает, что Google может выдать запрещенные url файлом robots txt для индексирования, пренебрегая данными файла robots.txt. Гугл просто думает, что если на страницу ссылаются, то значит нужно её выдать в поисковой выдаче. Ведь суть данного файла — это вычеркнуть страницы из индексации, а если вы их там перечислили, то понятное дело, на них есть ссылки…

Более того, robots.txt необходимо использовать .htaccess, с мета-тегом noindex (не путайте с тегом от Yandex, который запрещает индексацию части текста), не указывать ссылки на ненужные страницы (атрибут rel=»nofollow»). Здесь подробно написано об индексируемых ссылках.

Если же запрещенные страницы таки были проиндексированы, то тут появляется необходимость воспользоваться панелью инструментов для вебмастеров и живущим в его составе инструментом удаления страниц. Это говорит о том, что мало создать файл robots, но и обязательно уметь настроить файл robots.txt.

В Yandex и Google есть панель вебмастера, где вы сможете просканировать свой веб ресурс и если в списке увидите, что есть ссылки, которые бы хотелось удалить, то там же есть инструмент удаления ссылки, с помощью которого можно удалить устаревшие или ненужные ссылки.

Как сделать файл robots txt?

Если вы еще не освоили, что нужно туда вписать, то создайте пустой файл, назовите его robots.txt и впишите туда следующие строки:

User-agent: *
Disallow: /cgi-bin
Host: вашсайтик.ru

Не забудьте заменить вашсайтик.ru на название Вашего сайта. Эти строчки говорят о следующем:

User-agent: * — для какого поисковика применять правила, в данном случае стоит знак *, значит эти правила для всех поисковиков. Таким образом можно создавать правила для каждого поисковика:

User-agent: Google — правила для гугла
Disallow: /cgi-bin
.
Disallow: /tag

User-agent: Yandex — правила для яндекса
Disallow: /cgi-bin
.
Disallow: /tag

Disallow: /cgi-bin — запрещает индексировать скрипты находящиеся по этому пути.
Host: вашсайтик.ru — эта строка должна быть единственной в файле robots и обязательно находится последней строчкой внизу. Здесь нужно указать ваш основной сайт, если у вас основной www.вашсайтик.ru, то значит строчка должна быть директива Host в файл robots txt: www.вашсайтик.ru или вашсайтик.ru . Это очень важно.

Впоследствии вы будете корректировать файл robots, добавляя например путь к странице, которая была удалена, а если этого не сделать, то у вас в вебмастере будут накапливаться ошибки, которые окажут отрицательное воздействие на ваш сайт.

Кстати, чтобы посмотреть файл robots какого-либо сайта, можно набрать в адресной строке браузера свойсайт/robots.txt и просмотреть содержимое.

Как проверить файл robots?

Если вы создали файл роботс txt, но не знаете как проверить, то зайдите в вебмастер Яндекса, слева в меню раздел Инструменты и выберите строчку Анализ robots.txt, где справа нужно только ввести сайт, который вы хотите проверить и после нажатия кнопки Загрузить и анализировать, вам выдаст результат проверки. Если содержимое имеет ошибки, то вам сразу выдаст строчку с ошибкой, ну а если ошибок нет, то УРА, вы всё сделали правильно.

Аналогично можно проверить роботс в гугл вебмастере, но здесь нужно слева выбрать раздел СКАНИРОВАНИЕ и чуть ниже выбрать строчку Инструмент проверки файла Robots, в правой части нужно указать путь к файлу и нажать проверить. Таким образом будет осуществлена проверка и так же здесь можно увидеть результаты проверки.

Еще хочу сказать про то, что содержимое файла роботс txt будет немного отличаться в разных CMS или движках, то есть файл на Джумле будет отличаться от файла в Вордпресс. Потому, что файловая структура разная, как и пути и названия папок и файлов.

Если кому-то интересно взять уже готовый пример файла robots, то можно скачать файл robots txt, только нужно иметь в виду, что этот файл роботс для WordPress.

Удачи в создании и настройка правильного файла robots!

Источник: https://myborder.ru Зачем нужен файл ROBOTS.TXT?
Заработок. Опубликовано: 2016-11-28

Отправить ответ

avatar
  Subscribe  
Уведомления