0
<< предыдущая заметкаследующая заметка >>
20 июля 2011
robots.txt и поисковые роботы

Настоятельно рекомендую всем владельцам движка прописать в корне своего сайта в файле robots.txt следующее:

User-agent: *
Disallow: /blog/$
Disallow: /blog$
Disallow: /blog/last
Disallow: /blog/fido
Disallow: /blog/comments
Disallow: /blog/comms
Disallow: /blog/imbload
Disallow: /blog/friends
Disallow: /blog/pravki
Disallow: /blog/ajax/*

Пример дан для движка, располагающегося в папке /blog/, если он в корне — то просто /
При этом файл robots.txt должен лежать непременно именно в корневой папке сайта.

Не то, чтоб это было столь же крайне необходимо, как при отправке SMS с сайта Мегафона в связи с недавним скандалом ;) Нет, у нас все равно вся пользовательская информация идет не в статических страницах, а по аяксу, и таких проблем быть не может. Но все равно желательно написать robots.txt — этим вы убережете поисковых роботов от ненужной работы, а себя — от попадания в поисковую выдачу технических страниц, на которых информация меняется постоянно.

Любопытно, что команда типа "Disallow: /blog$"(этот формат записи мне подсказали в Яндексе) должна запретить поисковику индексировать титул блога — ведь информация там меняется с каждой новой заметкой, поскольку это лента последних сообщений или (как у меня) редирект на последнюю запись (поведение, как вы помните, настраивается в config.php в переменной $rootpage).

Однако, команда не работает - Яндекс все равно традиционно кладет хуй и регулярно лезет индексировать титул. Поэтому внутри движка уже не первый год установлена защита, которая ловит робота Яндекса на попытке прочесть титул и бережно отправляет его нахуй под белы рученьки, делая пометку в логе:

if(($rootpage=='' || strstr($rootpage,'last')) && (strstr($BRO,'Yandex') || $IP=='78.110.50.100')) {
logi("yandex_nah.log","\n".date("Y/m/d H:i:s")." Yandex пошел нахуй");
redirect("http://natribu.org");
}

Вы можете посмотреть свой /blog/log/yandex_nah.log и узнать, как часто Яндекс это делает. У меня — регулярно уже который год, несмотря на запрет в robots.txt:

[...]
2011/06/24 17:33:47 Yandex пошел нахуй
2011/06/26 22:27:58 Yandex пошел нахуй
2011/06/30 00:41:37 Yandex пошел нахуй
2011/07/04 05:20:19 Yandex пошел нахуй
2011/07/10 20:09:00 Yandex пошел нахуй
2011/07/11 10:09:04 Yandex пошел нахуй
2011/07/11 17:01:51 Yandex пошел нахуй
2011/07/12 21:07:47 Yandex пошел нахуй
2011/07/13 21:29:44 Yandex пошел нахуй
2011/07/14 11:13:58 Yandex пошел нахуй
2011/07/14 12:25:48 Yandex пошел нахуй
2011/07/14 22:16:29 Yandex пошел нахуй
2011/07/15 22:38:18 Yandex пошел нахуй
2011/07/17 12:16:45 Yandex пошел нахуй
2011/07/18 23:53:57 Yandex пошел нахуй

Лично посмотреть файлы из папки /blog/log/* с веба нельзя, потому что я туда положил файл .htaccess с абракадаброй внутри, запретив доступ. Чего и вам советую сделать со своей папкой /blog/log/, а файлы смотреть только изнутри сервера.

Когда-то, пока я не сделал отлуп Яндекса в движке, то постоянно видел в своей статистике для конкретной заметки заходы посетителей из поиска Яндекса с ключевыми словами из предыдущей заметки: Яндекс запоминал ее через редирект, зайдя на титул, и по этим ключевым словам отправлял посетителей, опять же, на титул. А заметка к тому времени переставала быть последней, и посетители попадали на следующую, где этих ключевых слов уже не было. Посетителей огорчал этот факт, а меня — их статистика запросов. Поэтому пришлось Яндекс выпроваживать с титула пинками ;)

<< предыдущая заметка следующая заметка >>
пожаловаться на эту публикацию администрации портала
архив понравившихся мне ссылок
Оставить комментарий


Include not found: `/home/www/lleo.me/blog/template/_reklamnaya_lirica.htm`