кстати, подозреваю, что при выставлении пользователем блога галочки "не индексировать" соответствующая директория просто автоматически вносится в тот самый robots.txt сервера, в данном случае livejournal.com - а как ещё-то?
От этого утверждения и отвеча induke я, откровенно говоря, совсем обалдеваю. Обращаю внимание, что вы с ним обсуждаете не неизвестно какой robots.txt, а вполне конкретный. Если вам вдруг лень набрать этот url, вот он: http://www.livejournal.com/robots.txt . Нажмите на эту ссылку и посмотрите что там написано! Вы увидите, что там не запрещен ни один журнал.
На самом деле по стандартам-традициям хозяин сайта может запретить не только в robots.txt (который, действительно, изначально придуман для уменьшения нагрузки на сервер), а еще и в специальном HTML-тэге, пример которого можно пронаблюдать на той же странице http://www.livejournal.com/users/corsika/
Яндекс.Блоги же индексируют информацию из RSS-фида, в данном случае http://www.livejournal.com/users/corsika/data/rss . В этом файле никаких сдедов запрета индексации нет. Поэтому в первые дни работы Яндекс.Блогов запрещенные дурналы и индексировались. Теперь специально для livejournal был сделан специальный (довольно грязный) хак, чтобы узнавать, запрезен конкретный журнал или нет.
Уточняю. Хак - не грязный, а просто кривой. Яндексу стыдиться нечего, проблемы на стороне LJ: кроме непоредственно самодеятельности с файлом robots.txt, они еще несколько мимо стандарта попадают... Так что факт учета "специфики" LJ Яндексом - акт доброй воли. Все остальные могут легко обойтись без такового, если выполнят необременительную модификацию при формировании RSS файлов.
no subject
Date: 2005-01-14 07:27 pm (UTC)От этого утверждения и отвеча
На самом деле по стандартам-традициям хозяин сайта может запретить не только в robots.txt (который, действительно, изначально придуман для уменьшения нагрузки на сервер), а еще и в специальном HTML-тэге, пример которого можно пронаблюдать на той же странице http://www.livejournal.com/users/corsika/
<meta name="robots" content="noindex, nofollow, noarchive" />
Яндекс.Блоги же индексируют информацию из RSS-фида, в данном случае http://www.livejournal.com/users/corsika/data/rss . В этом файле никаких сдедов запрета индексации нет. Поэтому в первые дни работы Яндекс.Блогов запрещенные дурналы и индексировались. Теперь специально для livejournal был сделан специальный (довольно грязный) хак, чтобы узнавать, запрезен конкретный журнал или нет.
no subject
Date: 2005-01-14 08:56 pm (UTC)no subject
Date: 2005-01-17 08:02 am (UTC)