Снова про индексирование ЖЖ
Jun. 19th, 2016 03:18 pmВ продолжение предыдущего постинга (http://bbb.livejournal.com/2977358.html) - в ходе разговоров про новый поисковой движок, созданный юзером
kukutz со товарищи (за что ему большое спасибо), имевших место в комментах к записи
Вити Агроскина (http://vvagr.livejournal.com/2159472.html) всплыло возможное объяснение загадочного запрета на индексирование календарного архива в ЖЖ.
Конкретно, Витя рассказал мне, что у Яндекса был особый вход в ЖЖ, позволявший ему (Яндексу) практически мгновенно индексировать и записи, и комменты на всю глубину архива, включая новые комменты к старым записям. В результате яндекс смог создать особую базу данных ЖЖ, которой в итоге и поделился с Кукуцем.
Соответственно, у меня возникла гипотеза, что именно этим особым доступом и объясняется общий запрет на индексирование архива ЖЖ. То есть ЖЖ не просто предоставил Яндексу особый канал доступа к своему ресурсу, но и на всякий случай дополнительно перекрыл шланг всем возможным конкурентам, пожелавшим воспользоваться обычным, общим каналом доступа.
Какое-то время назад Яндекс решил прекратить использование этого особого канала для пополнения своей базы записей и комментов ЖЖ, при этом неведомо зачем убил поиск по уже имеющейся базе. Я в этом деле совсем не разбираюсь, но мне не кажется, что НЕ-убивание поиска по накопленной базе, без новых обновлений этой базы, требовало бы каких-то особых дополнительных ресурсов, экономия которых хоть как-то могла сказаться на финансах корпорации - но тут я, конечно, не копенгаген.
При этом, судя по всему, ограничение на индексирование ЖЖ, изначально введенное ради защиты монопольного статуса Яндекса, снять просто-напросто забыли.
Вот такая гипотеза.
Конкретно, Витя рассказал мне, что у Яндекса был особый вход в ЖЖ, позволявший ему (Яндексу) практически мгновенно индексировать и записи, и комменты на всю глубину архива, включая новые комменты к старым записям. В результате яндекс смог создать особую базу данных ЖЖ, которой в итоге и поделился с Кукуцем.
Соответственно, у меня возникла гипотеза, что именно этим особым доступом и объясняется общий запрет на индексирование архива ЖЖ. То есть ЖЖ не просто предоставил Яндексу особый канал доступа к своему ресурсу, но и на всякий случай дополнительно перекрыл шланг всем возможным конкурентам, пожелавшим воспользоваться обычным, общим каналом доступа.
Какое-то время назад Яндекс решил прекратить использование этого особого канала для пополнения своей базы записей и комментов ЖЖ, при этом неведомо зачем убил поиск по уже имеющейся базе. Я в этом деле совсем не разбираюсь, но мне не кажется, что НЕ-убивание поиска по накопленной базе, без новых обновлений этой базы, требовало бы каких-то особых дополнительных ресурсов, экономия которых хоть как-то могла сказаться на финансах корпорации - но тут я, конечно, не копенгаген.
При этом, судя по всему, ограничение на индексирование ЖЖ, изначально введенное ради защиты монопольного статуса Яндекса, снять просто-напросто забыли.
Вот такая гипотеза.
no subject
Date: 2016-06-19 07:35 pm (UTC)no subject
Date: 2016-06-19 07:50 pm (UTC)no subject
Date: 2016-06-19 09:02 pm (UTC)no subject
Date: 2016-06-19 09:07 pm (UTC)no subject
Date: 2016-06-19 09:12 pm (UTC)А вот убить довольно уникальный и действительно полезный сервис поиска по блогам имхо вполне себе в их духе. Т.е. я, подобно товарищу выше, тоже как-то всё был уверен, что дело в том забвении...
no subject
Date: 2016-06-20 12:03 am (UTC)no subject
Date: 2016-06-20 01:42 pm (UTC)no subject
Date: 2016-06-20 11:03 pm (UTC)no subject
Date: 2016-06-21 12:02 am (UTC)no subject
Date: 2016-06-21 12:22 pm (UTC)no subject
Date: 2016-06-21 01:38 pm (UTC)Я не знаю, когда этот запрет был введен. Вот и возникла гипотеза, что его введение как-то связано с сотрудничеством ЖЖ и Яндекса.
Судя по вашим комментам, гипотезу это следует отвергнуть как ошибочную.
no subject
Date: 2016-06-21 09:47 pm (UTC)no subject
Date: 2016-06-21 10:05 pm (UTC)no subject
Date: 2016-06-22 12:39 pm (UTC)no subject
Date: 2016-06-22 03:36 pm (UTC)no subject
Date: 2016-06-21 03:03 am (UTC)no subject
Date: 2016-06-21 12:21 pm (UTC)И нужно понимать, что ресурсов требует именно быстрый и качественный поиск, а не хранение архивов.
Сохраняются ли сейчас записи, не попадающие в окно, к сожалению, точно не знаю.
no subject
Date: 2016-06-21 01:45 pm (UTC)Потому что весь сыр-бор изначально вырос из желания залить архив ЖЖ (не всего ЖЖ, а ЖЖ того или иного юзера, по его желанию) в общий архив гугла и пользоваться его общим поиском. Оказалось, что сам ЖЖ блокирует индексирование архива ЖЖ, хотя и позволяет индексировать текущую ленту.
Опять же, я не то чтобы высказываю какие-либо претензии (это было бы, очевидно, просто глупо), а всего лишь сожалею, что из того факта, что быстрый и качественный поиск для компании слишком затратен, был сделан вывод о ликвидации данного поиска вообще, а не о сохранении дешевого и медленного (и, возможно, менее качественного) варианта поиска.
Потому что, как говорил гроссмейстер Тартаковер, уж лучше план плохой, чем никакого.
no subject
Date: 2016-06-23 10:17 am (UTC)no subject
Date: 2016-06-20 07:36 am (UTC)Это, как правило, не так. Когда идет активная разработка системы, поддержание всех ее частей (даже тех, которые не меняются) требует заметных ресурсов (заметно больших, чем кажется со стороны). Если система в режиме поддержки и новой разработки не ведется (или она очень локализована) - тогда да.