ip роботов меняются часто, все не запретишь реальная ситуация с запретом индексирования директорий: вот лежит на сервере директория, на которую никаких ссылок с собственно сайта. но не защищённая паролями. ну выложила организация всякие не особо секретные файлы для сотрудников, доступные из любого места, например из офиса клиента в другом городе. исходя из "кому надо - знает прямой url документа и имеет доступ, остальные его не увидят". однако проходит время и прямые ссылки на документы появляются, например, в файлах статистики, например, у того же клиента. есть, знаете ли, такие дурацкие админы, у которых отчёты лог-анализатора формируются как открытые html-документы. и вот по этим ссылкам роботы начинают находить ту директорию. здесь и срабатывает robots.txt. это некоторая аналогия происходящему. кстати, подозреваю, что при выставлении пользователем блога галочки "не индексировать" соответствующая директория просто автоматически вносится в тот самый robots.txt сервера, в данном случае livejournal.com - а как ещё-то?
По поводу секретных файлов в открытых директориях - это уже диагноз, тут никакие роботы не спасут. Расчитывать на то, что поисковики не выдадут вашу секретную информацию это халатность, мягко говоря.
А каким образом Яндекс проиндексировал запретные болги не знаю. Думаю, что они перекупили у кого-то технологию (например у lj.crossroads.ru), а те не уважали роботов.
Да, вот еще вопрос - как с постингами быть. Допустим я не хочу, чтобы мои комментарии на журнале bbb были индексированы. Но реально такой возможности у меня нет. В этом случае поведение роботов не меняется, однако теперь они делают что-то с моими комментариями против моей воли.
Или наоборот - я оставил комментарий у corsica с надеждой, что его проиндексируют, а мне большую дулю показывают. Нехорошо ведь :)
кстати, подозреваю, что при выставлении пользователем блога галочки "не индексировать" соответствующая директория просто автоматически вносится в тот самый robots.txt сервера, в данном случае livejournal.com - а как ещё-то?
От этого утверждения и отвеча induke я, откровенно говоря, совсем обалдеваю. Обращаю внимание, что вы с ним обсуждаете не неизвестно какой robots.txt, а вполне конкретный. Если вам вдруг лень набрать этот url, вот он: http://www.livejournal.com/robots.txt . Нажмите на эту ссылку и посмотрите что там написано! Вы увидите, что там не запрещен ни один журнал.
На самом деле по стандартам-традициям хозяин сайта может запретить не только в robots.txt (который, действительно, изначально придуман для уменьшения нагрузки на сервер), а еще и в специальном HTML-тэге, пример которого можно пронаблюдать на той же странице http://www.livejournal.com/users/corsika/
Яндекс.Блоги же индексируют информацию из RSS-фида, в данном случае http://www.livejournal.com/users/corsika/data/rss . В этом файле никаких сдедов запрета индексации нет. Поэтому в первые дни работы Яндекс.Блогов запрещенные дурналы и индексировались. Теперь специально для livejournal был сделан специальный (довольно грязный) хак, чтобы узнавать, запрезен конкретный журнал или нет.
Уточняю. Хак - не грязный, а просто кривой. Яндексу стыдиться нечего, проблемы на стороне LJ: кроме непоредственно самодеятельности с файлом robots.txt, они еще несколько мимо стандарта попадают... Так что факт учета "специфики" LJ Яндексом - акт доброй воли. Все остальные могут легко обойтись без такового, если выполнят необременительную модификацию при формировании RSS файлов.
no subject
Date: 2005-01-14 06:22 pm (UTC)реальная ситуация с запретом индексирования директорий: вот лежит на сервере директория, на которую никаких ссылок с собственно сайта. но не защищённая паролями. ну выложила организация всякие не особо секретные файлы для сотрудников, доступные из любого места, например из офиса клиента в другом городе. исходя из "кому надо - знает прямой url документа и имеет доступ, остальные его не увидят". однако проходит время и прямые ссылки на документы появляются, например, в файлах статистики, например, у того же клиента. есть, знаете ли, такие дурацкие админы, у которых отчёты лог-анализатора формируются как открытые html-документы. и вот по этим ссылкам роботы начинают находить ту директорию. здесь и срабатывает robots.txt.
это некоторая аналогия происходящему.
кстати, подозреваю, что при выставлении пользователем блога галочки "не индексировать" соответствующая директория просто автоматически вносится в тот самый robots.txt сервера, в данном случае livejournal.com - а как ещё-то?
no subject
Date: 2005-01-14 06:42 pm (UTC)А каким образом Яндекс проиндексировал запретные болги не знаю. Думаю, что они перекупили у кого-то технологию (например у lj.crossroads.ru), а те не уважали роботов.
Да, вот еще вопрос - как с постингами быть. Допустим я не хочу, чтобы мои комментарии на журнале
Или наоборот - я оставил комментарий у
no subject
Date: 2005-01-14 08:46 pm (UTC)у меня диагноза нет :)
no subject
Date: 2005-01-14 07:27 pm (UTC)От этого утверждения и отвеча
На самом деле по стандартам-традициям хозяин сайта может запретить не только в robots.txt (который, действительно, изначально придуман для уменьшения нагрузки на сервер), а еще и в специальном HTML-тэге, пример которого можно пронаблюдать на той же странице http://www.livejournal.com/users/corsika/
<meta name="robots" content="noindex, nofollow, noarchive" />
Яндекс.Блоги же индексируют информацию из RSS-фида, в данном случае http://www.livejournal.com/users/corsika/data/rss . В этом файле никаких сдедов запрета индексации нет. Поэтому в первые дни работы Яндекс.Блогов запрещенные дурналы и индексировались. Теперь специально для livejournal был сделан специальный (довольно грязный) хак, чтобы узнавать, запрезен конкретный журнал или нет.
no subject
Date: 2005-01-14 08:56 pm (UTC)no subject
Date: 2005-01-17 08:02 am (UTC)