Меню

Настройка robots txt для dle

Настройка индексации страниц DLE метатегом robots.txt


На сайте https://dle9.com/ предлагаем полезную статью Как запретить дубликаты страниц сайта дле или Настройка индексации страниц при помощью метатега robots.txt использую новые возможности DataLife Engine с помощью метатега «robots», т.к. это самый оптимальный и удобный инструментом, который важно правильно использовать.

В недавно выпущенной версии разработчик DLE движка, вновь подключил данный метатег в дистрибутив скрипта, тем самым автор данного вариант воспользовавшись этим, вернулся к разработке управления работы с метатегом этим, используя уже существующий функционал и переменные в скрипте версии 9.7.

Как запретить дубликаты страниц сайта дле

Это настройка индексации страниц DLE метатегом robots.txt
Довольно простая установка:

1. Реализуем вывод метатега в определенных разделах сайта:

Открываем файл /engine/engine.php

Заменить на(приведённый ниже массив рекомендован мной и его состав, может быть подобран и изменён под свои цели*):

Заменяя, удаляя или добавляя строки в массиве из списка возможных вариантов приведённого ниже, настройте запрет индексации под свои цели.

*Возможные варианты значений в массиве

Чтобы запретить индексацию какого-либо модуля, необходимо использовать следующую конструкцию:

где module – это префикс модуля, который можно взять из url без ЧПУ, к примеру из url: site ru/?do=feedback берём feedback.

P.S. Список вариантов самому составлять было лень, взял его у Алича(alaev info)

2. Реализуем вывод метатега РОБОТс на несуществующих и удалённых страницах:
(тут есть нюанс для роботов при ответе 404, а не 200, но всё же, есть причины, для работы с сервисами)

Открываем файл /engine/modules/show.full.php

Открываем файл /engine/modules/static.php

Открываем файл /engine/modules/show.short.php

Найти, Внимание! (3 раза):

И Внимание! ВЫШЕ добавить:

3. Реализуем вывод метатега РОБОТс с его строгим значением на страницах печати:

Открываем файлы шаблона версии для печати /templates/имя вашего шаблона/print.tpl и /templates/имя вашего шаблона/static_print.tpl

3. Реализуем вывод метатега robots с его строгим значением на страницах админки:

Открываем файл /engine/skins/default.skin.php

(i) Внимание! При продаже ссылок с вашего ресурса, в частности в автоматическом режиме через ссылочные биржи, то прежде чем следующие настройки необходимо модификации, чтобы проверьте не закрыли ли вы от индексирования те страницы, с которых планируете продавать ссылки. Кстати, на dle9.com вы можете найти другие интересные материалы по этой теме.

Кроме того, манипулируя метатегом ROBOTS не забывайте, что возможно у вас имеется robots.txt и в нём тоже созданы правила, а робот поисковой системы при нахождении противоречий между метатегом и файлом выполнить наиболее строгое правило(запрет). Правильней будет удалить в файле robots.txt дублирующие правила, в итоге вы получите практически аналогичный правила вида:

О правильном robots.txt или как настроить robots.txt можно прочитать здесь для дле

Данная статья актуальна для v.9.7
Автор статьи: webseolife ru

Источник

Правильный robots.txt для DLE – какой он?

Привет, друзья. Сколько раз вы меня спрашивали, как составить правильный robots.txt для DLE – вот честно, надоели уже! Решил написать пост на эту тему, чтобы раз и навсегда исключить все подобные вопросы. Хотя, я уверен, выводы для вас будут неожиданными 🙂

Краткая суть поста – чем меньше файл robots.txt тем лучше и качественнее сайт, и это относится не только к DLE, но вообще к любому движку или сайту.

Я вам еще раз расскажу, почему и для чего нужен файл robots.txt и директивы в нем, а так же почему меньше директив это показатель качества.

Знаете что такое идеальный сайт? Это сайт, каждая страница которого несет пользу для посетителя и эту страницу не стыдно показать поисковику, потому что она ему понравится и будет высоко ранжироваться.

Читайте также:  Настройка фотоаппарата canon 1000d

А для чего придумали robots.txt? Для того чтобы указывать поисковику какие страницы посещать и индексировать можно, а какие нельзя. Закрывая от индексации какие-то страницы (или даже разделы) вы тем самым признаете, что эти страницы некачественные или ненужные по различным причинам. Чаще всего запрет используется для исключения дублей страниц и технической информации. К сожалению, реальность такова, что сегодня 99% сайтов имеющих файл роботс закрывают с его помощью как раз такие страницы.

Так вот еще раз – идеальный сайт – это когда бесполезных страниц нет и закрывать нечего. Но CMS, какими бы классными они не были, все равно создают для нас «неожиданности» и приходится выкручиваться. Приходим к выводу – без robots.txt не обойтись…НО!

Временно переключимся — смотрите на идеальный robots.txt для DLE

User-agent: * Disallow: /engine/ Host: site.ru Sitemap: http://site.ru/sitemap.xml

Но раз уж в заголовке сегодняшнего поста фигурирует название CMS Datalife Engine, то стоит вплотную переключиться на работу с DLE.

Я уже рассказывал о том, как закрывать ненужные страницы DLE при помощи мета-тега robots в третьей части seo оптимизации DLE, и сегодня я немного повторюсь, но добавлю новых фишек с учетом вопросов в комментариях.

Решение, которое будет описано ниже подходит абсолютно для всех версий DLE.

Для получения результата нам необходимо будет отредактировать всего один файл /engine/engine.php. Открываем его.

Для DLE 9.3 и ниже (для версий 9.4 и выше этого делать не надо) сперва необходимо найти следующую строку и удалить:

Далее (это уже для всех версий без исключения) находим строку:

Мини-FAQ из вопросов из комментариев:

Если я закрываю от индексации категорию, будут ли новости из этой категории индексироваться?
— Да, закрытие категории не закрывает публикации, принадлежащие этой категории.

Огромный список вариаций на любой вкус. Мне кажется, я все предусмотрел, и это закроет 99% любых потребностей. Оставшийся 1% — это потребности вебмастеров-извращенцев 🙂

Итак, давайте я расскажу, как теперь всем этим делом пользоваться.

Если вы вставите код в его изначальном виде (в том в котором я его выше представил), то ничего не произойдет кроме закрытия страниц буквенного каталога. Чтобы нужные правила начали работать, необходимо удалить знак комментирования, то есть двойной слеш в начале строки «//».

Мой код — это своего рода конструктор, где вы сами выбираете, что вам нужно, а что нет, при этом все сразу есть под рукой – если что-то потребовалось, зашли в файл и раскомментировали нужную строку или наоборот закомментировали.

Я уверен – вы разберетесь, как этим делом пользоваться, и вам это понравится. Главное будьте очень внимательны – раскомментировав не ту строку, вы рискуете запретить доступ поисковикам к важной и нужной информации.

Так какой правильный robots.txt для DLE?

Вот именно такой, какой я указал в начале поста, такой, который содержит всего 4 строчки. Кстати, можно даже строку Disallow: /engine/ исключить, если не используются редиректы на внешние ссылки, и заменить на Allow: /. Разумеется, это рассматривается чистая CMS «из коробки», без ваших заморочек, больной фантазии и сторонних модулей.

Так что «чистим» свой robots.txt, внедряем мета-тег robots и радуемся постепенному исчезновению ненужных страниц из дополнительной выдачи Google (supplemental).

Читайте также:  Кабель для настройки гбо brc

И еще один важный момент – правки надо будет не забывать вносить сразу же после очередного обновления движка.

Источник

Создание и анализ robots.txt, с помощью сервисов от Яндекс и Google

Здравствуйте, уважаемые читатели блога SdelaemBlog.ru. Сегодня хочу продолжить тему, что делать дальше после создания своего блога или сайта? Конечно уже хочется приступить к работе над блогом: начать писать посты, приглашать читателей на свой сайт, но это все впереди. Для начала нужно подготовить наш сайт к приему не только посетителей, но и поисковых систем или поисковых роботов. Главные поисковые роботы это конечно же Google и Яндекс. А как подготовиться к приему на нашем блоге роботов? Ведь, когда они придут на наш блог, они начнут индексировать не только те страницы, которые нам нужно, но и все остальное, то чему не место в индексе поисковых систем. Поэтому для роботов нужно написать рекомендации, какие страницы мы хотим, добавить в индекс, а какие нет.

Эти рекомендации или правила для роботов будут содержаться в одном текстовом файле, который называется robots.txt. Вот вам и тема сегодняшнего поста.

Итак, начнем с того что создать robots.txt лучше перед тем, как добавлять сайт или блог в поисковые системы, чтобы потом не было никаких ненужных проблем с индексированием вашего сайта.

Создать robots.txt можно, я думаю, не одним способом, но я приведу пример конкретного способа создания правил для поисковых роботов. Не ждите здесь готового файла, потому как robots.txt подбирается для каждого сайта индивидуально и на это требуется время и анализ. Но я расскажу основные моменты на которые стоит обратить внимание при создании данного файла и продемонстрирую примеры для WP и DLE.

Как создать robots.txt для WordPress (WP).

Для начала обратимся ко всем роботам или к отдельным роботам, для этого напишем:

После того, как вы написали обращение к определенному роботу (User-agent), нужно прописать сначала то что вы разрешаете индексировать поисковым машинам:

Еще можно указать задержку индексирования в самом начале robots.txt. Указывается она в секундах, но я ее не использую, так как не совсем я догнал для чего она конкретно нужна. Когда начал искать в сети, оказалось есть еще куча всяких задержек, поэтому бросил я это, да и не нужно оно мне. Но все же выглядит она так:

Также обращения к роботам можно прописать по-другому, обратившись именно к роботам, которые индексируют картинки, например:

Затем нужно прописать в файле, куда роботу не следует совать свой нос, делаем это с помощью команды

Что запрещать, решать только вам, но я рекомендую пользователям WordPress обязательно запретить индексировать следующее:

Чтобы в индекс не попадали всякие служебные данные и данные о ваших пользователях.

Также в robots.txt следует указать директиву Host, для избежания проблем с зеркалами. Она указывает на главное зеркало сайта и предназначена для поискового робота — Яндекс. Выглядит она так:

То есть robots.txt для WordPress (WP) с применением минимума функций должен выглядеть примерно так:

А также не забудьте указать пути к картам сайта для вашего блога. Если вы еще не сделали карту сайта для своего блога — не беда, скоро рассмотрим эту тему, если вам интересно подписывайтесь:

Вот в принципе и все, файл robots.txt для WordPress (WP) готов, конечно это минимум функций, но должно быть хотя бы это. У меня на блоге robots.txt выглядит пока так:

Читайте также:  Программа для настройки зенит про

Да, и обратите внимание, что разрывы строчек означают начало нового блока, ну или конец, кому как удобнее. То есть пришел Яндекс, нашел правила для себя (User-agent: yandex) и читает до тех пор пока не появляется разрыв, который сообщает ему о том, что правила для него закончились. Надеюсь, это понятно. И как вы заметили новое правило нужно писать с новой строки.

Как создать robots.txt для DLE (DataLife Engine).

Отличатся от WP пожалуй будет только само построение файла и названия папок и адресов.

Также нужно создать текстовый документ и назвать его robots. И поместить в него примерно следующий код (даю код, так как сам не изучал robots.txt для dle (datalife engine), пока):

После того как файл с инструкциями для роботов готов нужно залить его на хостинг в корневую папку. Если по адресу http://Ваш_сайт.ru/robots.txt, вы видите свой robots.txt, значит вы все сделали правильно. И поисковые роботы найдут для себя правила и проиндексируют ваш сайт или блог более правильно.

Анализ robots.txt

Как я уже написал, этот файл для каждого индивидуальный и его нужно анализировать для достижения оптимальных результатов. То есть, чтоб нужные страницы были в индексе, а не нужные… ну сами понимаете. И для этого можно воспользоваться сервисом от Google и Яндекс.

Анализ robots.txt с помощью сервиса Google. Для анализа с помощью Google нужно перейти в инструменты для вебмастера от гугл. Там нужно выбрать ваш сайт или блог(если он не один), анализ которого нужно провести. Затем слева (в панели инструментов) выбираем конфигурация сайта и выбираем доступ для сканера.

Там вы обнаружите свой robots.txt (еще прямо в этом разделе можно создать rotots.txt). Под окошком где будет содержимое вашего файла нужно вписать ссылки, которые вы хотели бы проверить на индексирование:

После нажатия на кнопку Проверить, Google выдаст вам список адресов, которые разрешено индексировать, а какие нет. Вот таким образом можно анализировать robots.txt и если в выдаче вы нашли то чего не должно там быть, нужно запретить индексировать роботу эту страницу или папку в robots.txt и проверить с помощью данного анализа запретилась индексация этой страницы или нет. Если адрес или папка открыты для индексирования проверяем, что сделано не так и т.д.

Теперь давайте рассмотрим анализ robots.txt с помощью сервиса от Яндекса. Для анализа с помощью Яндекса нужно перейти в Яндекс.Вебмастер. Там выбираем сайт из списка ваших сайтов. Затем слева в меню выбираем настройка индексирования и анализ robots.txt.

После этого вы попадете на страницу анализа вашего robots.txt. Если ваши правила еще не загружены в окно нажмите загрузить robots.txt с сайта. Затем, внизу, нажмите на кнопку добавить. После нажатия появится второе окно в которое, также как и в Google, нужно вставить или вписать адреса или папки, которые вы хотели бы проверить. И нажимаем на кнопку проверить.

После нажатия на кнопку вы наглядно увидите, какие страницы или папки запрещены к просмотру в robots.txt, а какие нет.

Ну вот пожалуй и все. Спасибо, если вы дочитали этот пост до конца. Надеюсь эта информация будет полезной для вас.

Подписывайтесь на новые статьи моего блога и рекомендуйте их своим друзьям, и Гуглу. Дальше будет больше.

Источник

Adblock
detector