borislvin | снова об авторских правах

You're viewing

borislvin's journal
Create a Dreamwidth Account Learn More

Reload page in style: site light

borislvin

http://www.livejournal.com/users/corsika/591077.html?thread=2699749

Flat | Top-Level Comments Only

From:

mama-ari.livejournal.com

ip роботов меняются часто, все не запретишь
реальная ситуация с запретом индексирования директорий: вот лежит на сервере директория, на которую никаких ссылок с собственно сайта. но не защищённая паролями. ну выложила организация всякие не особо секретные файлы для сотрудников, доступные из любого места, например из офиса клиента в другом городе. исходя из "кому надо - знает прямой url документа и имеет доступ, остальные его не увидят". однако проходит время и прямые ссылки на документы появляются, например, в файлах статистики, например, у того же клиента. есть, знаете ли, такие дурацкие админы, у которых отчёты лог-анализатора формируются как открытые html-документы. и вот по этим ссылкам роботы начинают находить ту директорию. здесь и срабатывает robots.txt.
это некоторая аналогия происходящему.
кстати, подозреваю, что при выставлении пользователем блога галочки "не индексировать" соответствующая директория просто автоматически вносится в тот самый robots.txt сервера, в данном случае livejournal.com - а как ещё-то?

From:

induke.livejournal.com

По поводу секретных файлов в открытых директориях - это уже диагноз, тут никакие роботы не спасут. Расчитывать на то, что поисковики не выдадут вашу секретную информацию это халатность, мягко говоря.

А каким образом Яндекс проиндексировал запретные болги не знаю. Думаю, что они перекупили у кого-то технологию (например у lj.crossroads.ru), а те не уважали роботов.

Да, вот еще вопрос - как с постингами быть. Допустим я не хочу, чтобы мои комментарии на журнале

bbb были индексированы. Но реально такой возможности у меня нет. В этом случае поведение роботов не меняется, однако теперь они делают что-то с моими комментариями против моей воли.

Или наоборот - я оставил комментарий у

corsica с надеждой, что его проиндексируют, а мне большую дулю показывают. Нехорошо ведь :)

From:

mama-ari.livejournal.com

ну, я приводила пример из известной мне жизни, но не своей :)
у меня диагноза нет :)

From:

tejblum.livejournal.com

кстати, подозреваю, что при выставлении пользователем блога галочки "не индексировать" соответствующая директория просто автоматически вносится в тот самый robots.txt сервера, в данном случае livejournal.com - а как ещё-то?

От этого утверждения и отвеча

induke я, откровенно говоря, совсем обалдеваю. Обращаю внимание, что вы с ним обсуждаете не неизвестно какой robots.txt, а вполне конкретный. Если вам вдруг лень набрать этот url, вот он: http://www.livejournal.com/robots.txt . Нажмите на эту ссылку и посмотрите что там написано! Вы увидите, что там не запрещен ни один журнал.

На самом деле по стандартам-традициям хозяин сайта может запретить не только в robots.txt (который, действительно, изначально придуман для уменьшения нагрузки на сервер), а еще и в специальном HTML-тэге, пример которого можно пронаблюдать на той же странице http://www.livejournal.com/users/corsika/

<meta name="robots" content="noindex, nofollow, noarchive" />

Яндекс.Блоги же индексируют информацию из RSS-фида, в данном случае http://www.livejournal.com/users/corsika/data/rss . В этом файле никаких сдедов запрета индексации нет. Поэтому в первые дни работы Яндекс.Блогов запрещенные дурналы и индексировались. Теперь специально для livejournal был сделан специальный (довольно грязный) хак, чтобы узнавать, запрезен конкретный журнал или нет.

From:

mama-ari.livejournal.com

спасибо большое!

From:

russhatter.livejournal.com

Уточняю. Хак - не грязный, а просто кривой. Яндексу стыдиться нечего, проблемы на стороне LJ: кроме непоредственно самодеятельности с файлом robots.txt, они еще несколько мимо стандарта попадают... Так что факт учета "специфики" LJ Яндексом - акт доброй воли. Все остальные могут легко обойтись без такового, если выполнят необременительную модификацию при формировании RSS файлов.