[personal profile] borislvin
В продолжение предыдущего постинга (http://bbb.livejournal.com/2977358.html) - в ходе разговоров про новый поисковой движок, созданный юзером [livejournal.com profile] kukutz со товарищи (за что ему большое спасибо), имевших место в комментах к записи vvagrВити Агроскина (http://vvagr.livejournal.com/2159472.html) всплыло возможное объяснение загадочного запрета на индексирование календарного архива в ЖЖ.

Конкретно, Витя рассказал мне, что у Яндекса был особый вход в ЖЖ, позволявший ему (Яндексу) практически мгновенно индексировать и записи, и комменты на всю глубину архива, включая новые комменты к старым записям. В результате яндекс смог создать особую базу данных ЖЖ, которой в итоге и поделился с Кукуцем.

Соответственно, у меня возникла гипотеза, что именно этим особым доступом и объясняется общий запрет на индексирование архива ЖЖ. То есть ЖЖ не просто предоставил Яндексу особый канал доступа к своему ресурсу, но и на всякий случай дополнительно перекрыл шланг всем возможным конкурентам, пожелавшим воспользоваться обычным, общим каналом доступа.

Какое-то время назад Яндекс решил прекратить использование этого особого канала для пополнения своей базы записей и комментов ЖЖ, при этом неведомо зачем убил поиск по уже имеющейся базе. Я в этом деле совсем не разбираюсь, но мне не кажется, что НЕ-убивание поиска по накопленной базе, без новых обновлений этой базы, требовало бы каких-то особых дополнительных ресурсов, экономия которых хоть как-то могла сказаться на финансах корпорации - но тут я, конечно, не копенгаген.

При этом, судя по всему, ограничение на индексирование ЖЖ, изначально введенное ради защиты монопольного статуса Яндекса, снять просто-напросто забыли.

Вот такая гипотеза.

Date: 2016-06-19 07:35 pm (UTC)
From: [identity profile] lightjedi.livejournal.com
Мне всегда казалось (не знаю почему), что Яндекс прибил этот поиск для того, чтобы его не трогали по закону о "забвении", когда что-то там нехорошее в блогах не должно было индексироваться и показываться при поиске. А оказывается там какой-то спецдоступ был.

Date: 2016-06-19 07:50 pm (UTC)
From: [identity profile] bbb.livejournal.com
Я слышал эту версию про "закон о забвении", но никогда ее не понимал. Архив ЖЖ - это очень маленькая часть бескрайнего архива интернета, и этот дурацкий закон, как мне кажется, не проводит различия между сайтами. Если убивать поиск по архивам ради "забвения", то нет смысла ограчиваться только одним конкретным американским блогопорталом, да еще не самым популярным.

Date: 2016-06-19 09:02 pm (UTC)
From: [identity profile] krimsky.livejournal.com
Так они поиск по всем блогам прибили, разве не так?

Date: 2016-06-19 09:07 pm (UTC)
From: [identity profile] bbb.livejournal.com
Наверно, да. То есть я неправильно выразился. Поиск по остальному интернету-то остался. Который даже и старше всех этих блогов.

Date: 2016-06-19 09:12 pm (UTC)
From: [identity profile] krimsky.livejournal.com
Отменять поиск как таковой для России пока что ещё слишком радикально, а учитывая наличие гугла, ещё и глупо.
А вот убить довольно уникальный и действительно полезный сервис поиска по блогам имхо вполне себе в их духе. Т.е. я, подобно товарищу выше, тоже как-то всё был уверен, что дело в том забвении...
Edited Date: 2016-06-19 09:12 pm (UTC)

Date: 2016-06-20 12:03 am (UTC)
From: [identity profile] anton.livejournal.com
У ЖЖ был публичный atom-фид (возможно, и сейчас есть), через который любой желающий мог специальным образом узнавать о каждой новой записи. Этот фид не был уникальным для Яндекса. Монополии на индексацию ЖЖ у Яндекса ни в какой момент не было.

Date: 2016-06-20 01:42 pm (UTC)
From: [identity profile] bbb.livejournal.com
Наверно, вы правы, просто для уточнения - я, конечно, не говорил, будто у Яндекса была монополия на индексирование ЖЖ. Я говорил, что у Яндекса был некий особый монопольный статус, позволяющий ему делать что-то, что не могли делать другие поисковики. Например, индексировать ЖЖ в особом режиме, недоступном гуглу. Например, возможность индексирования архивов (которая сейчас гуглу и другим запрещена). Или что-нибудь в этом роде. Это я не сам придумал, мне это сказали по указанному линку. Может быть, ошиблись.

Date: 2016-06-20 11:03 pm (UTC)
From: [identity profile] anton.livejournal.com
Как руководитель сервиса Поиск по блогам Яндекса в тот период, могу точно сказать, что способ индексирования записей был доступен всем в равной мере (об этом позаботился ещё Брэд).

Date: 2016-06-21 12:02 am (UTC)
From: [identity profile] bbb.livejournal.com
А запрет на поиск в архиве когда появился - в то время или позже?

Date: 2016-06-21 12:22 pm (UTC)
From: [identity profile] anton.livejournal.com
Если под запретом вы понимаете ограничение на поиск только по последнему месяцу, то оно появилось в 2015 году, намного позже. Сам поиск по блогам открыт в конце 2004 года, сразу с ЖЖ.

Date: 2016-06-21 01:38 pm (UTC)
From: [identity profile] bbb.livejournal.com
Нет, я имею в виду запрет на индексирование архивов на стороне ЖЖ, прописанный в robot.txt

Я не знаю, когда этот запрет был введен. Вот и возникла гипотеза, что его введение как-то связано с сотрудничеством ЖЖ и Яндекса.

Судя по вашим комментам, гипотезу это следует отвергнуть как ошибочную.

Date: 2016-06-21 09:47 pm (UTC)
From: [identity profile] anton.livejournal.com
Если вы про страницу календаря — то конкретно эта страница была закрыта от индексации в очень древние времена ещё самим Брэдом Фицпатриком по техническим причинам, генерировать её было тяжело и дорого, и он не хотел, чтобы из-за прихода на неё какого-то робота весь ЖЖ страдал (а в те времена он часто падал и вообще технически не успевал за ростом аудитории).

Date: 2016-06-21 10:05 pm (UTC)
From: [identity profile] bbb.livejournal.com
Ага, еще раз спасибо за пояснение. И как вы думаете, эти соображения стародавних времен еще актуальны или запрет на индексирование календаря сохраняется просто по инерции?

Date: 2016-06-22 12:39 pm (UTC)
From: [identity profile] anton.livejournal.com
Подозреваю, что по инерции, т.к. интерфейсную часть ЖЖ несколько раз с тех пор переписывали, вроде. Но точно сказать не могу.

Date: 2016-06-22 03:36 pm (UTC)
From: [identity profile] bbb.livejournal.com
А вы не в курсе случайно, есть ли в здешних окрестностях кто-то, кто бы мог ответить на этот вопрос? И даже не столько на вопрос о происхождении этого запрета, сколько на вопрос о том, нет ли возможности его снимать, хотя бы "точечно", по выбору юзера, или даже за дополнительную денежку?

Date: 2016-06-21 03:03 am (UTC)
From: [identity profile] bbb.livejournal.com
Воспользуюсь случаем и вашей любезностью, задам еще вопрос лоха-дилетанта - я правильно вас понял, что у Яндекса были какие-то раздельные архивы ("системы"), один для интернета вообще, а другой для блогов? И их надо было как-то по отдельности поддерживать? И как тогда это устроено теперь, с укороченным поиском по блогам? И что вообще происходит с собранным в яндексе архивом текущих записей в блогах по истечении месяца (на который разрешен поиск) - они уничтожаются, вливаются в общий архив интернета или складываются в дальний чулан?

Date: 2016-06-21 12:21 pm (UTC)
From: [identity profile] anton.livejournal.com
Да, именно так, — поиск по блогам был отдельным. Он индексировал и индексирует именно отдельные записи и комментарии, а не страницы в интернете, как основной веб-поиск.

И нужно понимать, что ресурсов требует именно быстрый и качественный поиск, а не хранение архивов.
Сохраняются ли сейчас записи, не попадающие в окно, к сожалению, точно не знаю.
Edited Date: 2016-06-21 12:25 pm (UTC)

Date: 2016-06-21 01:45 pm (UTC)
From: [identity profile] bbb.livejournal.com
Спасибо! Я правильно понимаю, что Яндекс продолжает индексировать блоги в этом отдельном режиме, в результате чего в общее индексирование интернета (и, соответственно, общий поиск по интернету) они не попадают?

Потому что весь сыр-бор изначально вырос из желания залить архив ЖЖ (не всего ЖЖ, а ЖЖ того или иного юзера, по его желанию) в общий архив гугла и пользоваться его общим поиском. Оказалось, что сам ЖЖ блокирует индексирование архива ЖЖ, хотя и позволяет индексировать текущую ленту.

Опять же, я не то чтобы высказываю какие-либо претензии (это было бы, очевидно, просто глупо), а всего лишь сожалею, что из того факта, что быстрый и качественный поиск для компании слишком затратен, был сделан вывод о ликвидации данного поиска вообще, а не о сохранении дешевого и медленного (и, возможно, менее качественного) варианта поиска.

Потому что, как говорил гроссмейстер Тартаковер, уж лучше план плохой, чем никакого.

Date: 2016-06-23 10:17 am (UTC)
From: [identity profile] vvagr.livejournal.com
Да, приношу извинения. Что фид был публичным - я не знал, либо забыл.

Date: 2016-06-20 07:36 am (UTC)
From: [identity profile] sorotokin.livejournal.com
Я в этом деле совсем не разбираюсь, но мне не кажется, что НЕ-убивание поиска по накопленной базе, без новых обновлений этой базы, требовало бы каких-то особых дополнительных ресурсов,

Это, как правило, не так. Когда идет активная разработка системы, поддержание всех ее частей (даже тех, которые не меняются) требует заметных ресурсов (заметно больших, чем кажется со стороны). Если система в режиме поддержки и новой разработки не ведется (или она очень локализована) - тогда да.

Profile

borislvin

January 2026

S M T W T F S
    123
45 6 7 8 910
11121314151617
18192021222324
25262728293031

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 30th, 2026 05:31 am
Powered by Dreamwidth Studios