0
<< предыдущая заметкаследующая заметка >>
20 июля 2011
robots.txt и поисковые роботы

Настоятельно рекомендую всем владельцам движка прописать в корне своего сайта в файле robots.txt следующее:

User-agent: *
Disallow: /blog/$
Disallow: /blog$
Disallow: /blog/last
Disallow: /blog/fido
Disallow: /blog/comments
Disallow: /blog/comms
Disallow: /blog/imbload
Disallow: /blog/friends
Disallow: /blog/pravki
Disallow: /blog/ajax/*

Пример дан для движка, располагающегося в папке /blog/, если он в корне — то просто /
При этом файл robots.txt должен лежать непременно именно в корневой папке сайта.

Не то, чтоб это было столь же крайне необходимо, как при отправке SMS с сайта Мегафона в связи с недавним скандалом ;) Нет, у нас все равно вся пользовательская информация идет не в статических страницах, а по аяксу, и таких проблем быть не может. Но все равно желательно написать robots.txt — этим вы убережете поисковых роботов от ненужной работы, а себя — от попадания в поисковую выдачу технических страниц, на которых информация меняется постоянно.

Любопытно, что команда типа "Disallow: /blog$"(этот формат записи мне подсказали в Яндексе) должна запретить поисковику индексировать титул блога — ведь информация там меняется с каждой новой заметкой, поскольку это лента последних сообщений или (как у меня) редирект на последнюю запись (поведение, как вы помните, настраивается в config.php в переменной $rootpage).

Однако, команда не работает - Яндекс все равно традиционно кладет хуй и регулярно лезет индексировать титул. Поэтому внутри движка уже не первый год установлена защита, которая ловит робота Яндекса на попытке прочесть титул и бережно отправляет его нахуй под белы рученьки, делая пометку в логе:

if(($rootpage=='' || strstr($rootpage,'last')) && (strstr($BRO,'Yandex') || $IP=='78.110.50.100')) {
logi("yandex_nah.log","\n".date("Y/m/d H:i:s")." Yandex пошел нахуй");
redirect("http://natribu.org");
}

Вы можете посмотреть свой /blog/log/yandex_nah.log и узнать, как часто Яндекс это делает. У меня — регулярно уже который год, несмотря на запрет в robots.txt:

[...]
2011/06/24 17:33:47 Yandex пошел нахуй
2011/06/26 22:27:58 Yandex пошел нахуй
2011/06/30 00:41:37 Yandex пошел нахуй
2011/07/04 05:20:19 Yandex пошел нахуй
2011/07/10 20:09:00 Yandex пошел нахуй
2011/07/11 10:09:04 Yandex пошел нахуй
2011/07/11 17:01:51 Yandex пошел нахуй
2011/07/12 21:07:47 Yandex пошел нахуй
2011/07/13 21:29:44 Yandex пошел нахуй
2011/07/14 11:13:58 Yandex пошел нахуй
2011/07/14 12:25:48 Yandex пошел нахуй
2011/07/14 22:16:29 Yandex пошел нахуй
2011/07/15 22:38:18 Yandex пошел нахуй
2011/07/17 12:16:45 Yandex пошел нахуй
2011/07/18 23:53:57 Yandex пошел нахуй

Лично посмотреть файлы из папки /blog/log/* с веба нельзя, потому что я туда положил файл .htaccess с абракадаброй внутри, запретив доступ. Чего и вам советую сделать со своей папкой /blog/log/, а файлы смотреть только изнутри сервера.

Когда-то, пока я не сделал отлуп Яндекса в движке, то постоянно видел в своей статистике для конкретной заметки заходы посетителей из поиска Яндекса с ключевыми словами из предыдущей заметки: Яндекс запоминал ее через редирект, зайдя на титул, и по этим ключевым словам отправлял посетителей, опять же, на титул. А заметка к тому времени переставала быть последней, и посетители попадали на следующую, где этих ключевых слов уже не было. Посетителей огорчал этот факт, а меня — их статистика запросов. Поэтому пришлось Яндекс выпроваживать с титула пинками ;)

<< предыдущая заметка следующая заметка >>
пожаловаться на эту публикацию администрации портала
архив понравившихся мне ссылок
Оставить комментарий
Windows Firefox
1
0
Сергей Яковлев
В хидере «титульной страницы» надо прописать мета-тег «robots» с параметром «noindex,follow». Тогда [адекватный] поисковик (Яндекс в том числе) не будет её индексировать, но будет переходить по ссылкам с неё. Дёргать её, конечно же, будут.
Windows IE
0
0
D.iK.iJ
Он не адекватный. Индексит через тулбар даже странички с паролями :)
Windows Firefox
0
0
zencd
Этот человек не загрузил свой юзерпик, и я подобрал ему этот. Человек, пишущий такое, должен именно так выглядеть, верно?
Надо же какой Яндекс упорный. Я-то думал у них там всё отлажено в отношении robots.txt - за столько лет-то. Так что обвинения Мегафона уже не кажутся такими надуманным :)
Windows Firefox
0
0
zencd
Этот человек не загрузил свой юзерпик, и я подобрал ему этот. Человек, пишущий такое, должен именно так выглядеть, верно?
А вот такой момент: если через роботс.тхт запретить индексацию главной, не помешает ли это проиндексировать страницы, ссылки на которые содержатся на главной?
Nokia-E90 Safari
 Москва
0
0
lleo Nokia E90
Этот человек не загрузил свой юзерпик, и я подобрал ему этот. Человек, пишущий такое, должен именно так выглядеть, верно?
Во-первых, на главной не содержится "ссылок". Там редирект.

Во-вторых, зачем Яндексу узнавать о новой заметке через главную? Пусть узнает через "содержание" или другими путями.

Я уже не говорю о том, что Яндексу отдается RSS - вот его он и должен индексировать.
Windows Firefox
0
0
Сергей Яковлев
Редирект, наверняка, временный?
Windows Opera
0
0
Tiger
Этот человек не загрузил свой юзерпик, и я подобрал ему этот. Человек, пишущий такое, должен именно так выглядеть, верно?
Увы, перманентный.
Windows IE
2
0
D.iK.iJ
Очень советую прописать последней строкой:
Host: вашсайт.ru

Соответственно, с www или без. Этим спасете себя от вылета из Яшки как зеркала самого себя (или кого-то с похожим оформленим)... Месяцев так на 6 - пока не пройдет склейка "зеркал".
<< предыдущая заметка следующая заметка >>