Date: 2005-01-14 06:22 pm (UTC)
From: [identity profile] mama-ari.livejournal.com
ip роботов меняются часто, все не запретишь
реальная ситуация с запретом индексирования директорий: вот лежит на сервере директория, на которую никаких ссылок с собственно сайта. но не защищённая паролями. ну выложила организация всякие не особо секретные файлы для сотрудников, доступные из любого места, например из офиса клиента в другом городе. исходя из "кому надо - знает прямой url документа и имеет доступ, остальные его не увидят". однако проходит время и прямые ссылки на документы появляются, например, в файлах статистики, например, у того же клиента. есть, знаете ли, такие дурацкие админы, у которых отчёты лог-анализатора формируются как открытые html-документы. и вот по этим ссылкам роботы начинают находить ту директорию. здесь и срабатывает robots.txt.
это некоторая аналогия происходящему.
кстати, подозреваю, что при выставлении пользователем блога галочки "не индексировать" соответствующая директория просто автоматически вносится в тот самый robots.txt сервера, в данном случае livejournal.com - а как ещё-то?

Date: 2005-01-14 06:42 pm (UTC)
From: [identity profile] induke.livejournal.com
По поводу секретных файлов в открытых директориях - это уже диагноз, тут никакие роботы не спасут. Расчитывать на то, что поисковики не выдадут вашу секретную информацию это халатность, мягко говоря.

А каким образом Яндекс проиндексировал запретные болги не знаю. Думаю, что они перекупили у кого-то технологию (например у lj.crossroads.ru), а те не уважали роботов.

Да, вот еще вопрос - как с постингами быть. Допустим я не хочу, чтобы мои комментарии на журнале [livejournal.com profile] bbb были индексированы. Но реально такой возможности у меня нет. В этом случае поведение роботов не меняется, однако теперь они делают что-то с моими комментариями против моей воли.

Или наоборот - я оставил комментарий у [livejournal.com profile] corsica с надеждой, что его проиндексируют, а мне большую дулю показывают. Нехорошо ведь :)

Date: 2005-01-14 08:46 pm (UTC)
From: [identity profile] mama-ari.livejournal.com
ну, я приводила пример из известной мне жизни, но не своей :)
у меня диагноза нет :)

Date: 2005-01-14 07:27 pm (UTC)
From: [identity profile] tejblum.livejournal.com
кстати, подозреваю, что при выставлении пользователем блога галочки "не индексировать" соответствующая директория просто автоматически вносится в тот самый robots.txt сервера, в данном случае livejournal.com - а как ещё-то?

От этого утверждения и отвеча [livejournal.com profile] induke я, откровенно говоря, совсем обалдеваю. Обращаю внимание, что вы с ним обсуждаете не неизвестно какой robots.txt, а вполне конкретный. Если вам вдруг лень набрать этот url, вот он: http://www.livejournal.com/robots.txt . Нажмите на эту ссылку и посмотрите что там написано! Вы увидите, что там не запрещен ни один журнал.

На самом деле по стандартам-традициям хозяин сайта может запретить не только в robots.txt (который, действительно, изначально придуман для уменьшения нагрузки на сервер), а еще и в специальном HTML-тэге, пример которого можно пронаблюдать на той же странице http://www.livejournal.com/users/corsika/

<meta name="robots" content="noindex, nofollow, noarchive" />

Яндекс.Блоги же индексируют информацию из RSS-фида, в данном случае http://www.livejournal.com/users/corsika/data/rss . В этом файле никаких сдедов запрета индексации нет. Поэтому в первые дни работы Яндекс.Блогов запрещенные дурналы и индексировались. Теперь специально для livejournal был сделан специальный (довольно грязный) хак, чтобы узнавать, запрезен конкретный журнал или нет.

Date: 2005-01-14 08:56 pm (UTC)
From: [identity profile] mama-ari.livejournal.com
спасибо большое!

Date: 2005-01-17 08:02 am (UTC)
From: [identity profile] russhatter.livejournal.com
Уточняю. Хак - не грязный, а просто кривой. Яндексу стыдиться нечего, проблемы на стороне LJ: кроме непоредственно самодеятельности с файлом robots.txt, они еще несколько мимо стандарта попадают... Так что факт учета "специфики" LJ Яндексом - акт доброй воли. Все остальные могут легко обойтись без такового, если выполнят необременительную модификацию при формировании RSS файлов.

Profile

borislvin

November 2025

S M T W T F S
      1
2345678
9101112131415
161718192021 22
23242526272829
30      

Style Credit

Expand Cut Tags

No cut tags
Page generated Dec. 28th, 2025 02:26 am
Powered by Dreamwidth Studios