SEO Песочница - статьи для начинающих

Как сделать файл robots.txt для Joomla 1.5 ?

Прежде, чем ответить на этот вопрос, давайте для начала разберемся с тем, для чего нужен файл robots.txt

Для тех кто не знает, скажу что правильное создание этого файла является неотъемлемой частью мероприятий по внутренней SEO оптимизации любого сайта. Без грамотно составленного файла robots.txt может происходить индексация сайта не в том ключе, в котором нужно.

Итак, в robots.txt  прописываются правила поведения при сканировании сайта для поисковых роботов ПС.

 В данном файле Вы можете:

Запретить сканирование - Запретить сканировать можно папку, раздел сайта, любую его страницу. Это нужно для того, чтобы в индекс поисковых систем не попали сервисные страницы, которые не несут смысловой нагрузки для простого пользователя. Например, если на вашем сайте (на движке Joomla 1.5) выведен модуль входа и регистрации mod_login то при сканировании сайта в индекс попадают следующие страницы:

http://site.com/Lost-password/
http://site.com/Lost-user-name/ http://site.com/index.php?option=com_user&lang=ru&view=register

Очень важно запрещать индексацию страниц, которые дублируют контент. Проблема дублирующих страниц очень часто встречается в интернет магазинах на основе Joomla Virtuemart. Например, существуют товары, которые, по причине своих особенностей, могут находиться в нескольких категориях одновременно. Поэтому, URL таких товаров может быть разным, в зависимости от количества категорий, в которых он находится.

Запрет индексации производится параметром Disallow

Указать карту сайта - Создав карту сайта с помощью компонента XMAP или другого, Вы можете указать её в robots.txt Это может пригодиться в том случае, если Вы забыли добавить карту сайта в панелях вебмастеров поисковых систем. В любом случае это не помешает сделать, да и труда особого не составит.

 

Указать карту сайта Вы сможете так:

Sitemap: http://site.com/index.php?option=com_xmap&sitemap=1&view=xml

Указать основное зеркало сайта - Дело в том, что их может быть как минимум два! Это Ваш сайт с www и без него. При создании сайта нужно сразу определиться с этим вопросом, т.к. один и тот же сайт с www и без www для ПС по сути являются разным доменами. Кстати, если Вы наращивали ссылочную массу на оба домена, то они могут иметь разный статический вес и Google PR. Также, возникает проблема дубля контента! Поэтому, ссылки на неосновное зеркало сайта учитываться не будут!

Это делается директивой Host для ПС Яндекс. Для Google нужно прописать 301 редирект!

А теперь давайте рассмотрим пример файла robots.txt для Joomla 1.5 и по порядку разберемся с тем, что там написано.

User-agent: * - обозначает поискового бота, а звёздочка говорит о том, что нижеследующие условия действительны для всех поисковых ботов.

Disallow: - как выше упоминалось, это условие запрета сканирования. В данном файле robots.txt запрещены для сканирования сервисные каталоги движка.

Кстати, если у Вас интернет-магазин на Joomla Virtuemart то папку components запрещать сканировать целиком не стоит, потому что в ней находятся изображения товаров!

Карту сайта мы обозначили в 14-й строке нашего файла.

User-agent: Yandex - особый момент файла robots.txt - исключительно для Яндекса мы указываем с помощью директивы Host основное зеркало сайта.

В добавок можно сказать, что в последних версиях Joomla 1.5 данный файл имеет определенную первоначальную структуру. Как правило, условием для всех поисковых роботов является запрет сканирования сервисных корневых каталогов движка. Поэтому, указать карту сайта, запретить сканировать дубли страниц (если они есть) и прописать основное зеркало сайта для яндекса Вам нужно будет вручную самостоятельно.

 

Ещё я встречал варианты robots.txt, где веб-мастера прописывают директиву Allow. Как правило, данную директиву используют для разрешения сканирования отдельных файлов и папок, находящихся в каталоге, запрещенном к индексации. Лично я данную директиву не использую за отсутствием надобности, да и в стандартных ситуациях её никто не использует.

Вот практически и всё, что нужно знать начинающему джумловоду о том, как настроить файл robots.txt Joomla 1.5

Комментарии   

#5 uralmepru 02.10.2013 06:34
Хорошо если добавите примеры правильного robots для джумла с учетом до sef ссылок и после и по магазину virtuemart.
#4 György 24.04.2012 14:10
Andrew, согласно правилам синтаксиса и логики, такого игнорирования яндексом быть не должно.

Однако, я буду очень благодарен, если Вы предоставите мне пример, который говорит об обратном. Спасибо!
#3 Andrew 24.04.2012 14:03
Если указывать как тут вначале User-agent:*, а потом где-то еще например как тут перед Host добавить User-agent: Yandex, то поисковик Яндекс будет игнорировать те правила которые были написаны до User-agent: Yandex
Соответственно все служебные папки джумлы разрешены к индексации.
+1 #2 György 01.02.2012 12:16
Игорь, я полагаю что проблема наличия /index.php решается через .htaccess и настройки ЧПУ в админке сайта. По крайней мере у меня так было всегда, на всех сайтах что я делал.

Например, мой блог без /index.php, но url карты сайта выглядит таким как Вы описали выше. Тем не менее, она прекрасно сканируется. Для наглядности просмотрите мой robots.txt
#1 Игорь 28.01.2012 07:29
Насчет Allow не согласен...
пример : надо запретить индексацию дубля главной страницы site/index.php

делаем:
Disallow: /index.php

но вот карту сайта надо разрешить:
Allow: /index.php?opti on=com_xmap&sit emap=1