borislvin

Вот, кстати, как раз хотел спросить знающих людей. После того, как какие-то дураки убили блог-серч яндекса, остался гугль. Но мой ЖЖ в нем индексируется не полностью. Возможно, это как-то связано с тем, что формат линков в ЖЖ раньше был другой (а может, по какой-то другой причине). Отсюда вопрос - есть ли способ как-нибудь принудительно скормить свой ЖЖ гуглу на предмет полной индексации? Я нашел вот такую форму - https://www.google.com/webmasters/tools/submit-url?continue=/addurl - и поставил туда линк на свой ЖЖ, но результаты что-то не очень заметны. Или надо просто подождать? Или есть другой способ?

From:

crema-catalana.livejournal.com

Думается, для этого нужен платный аккаунт в ЖЖ, что позволит зарегистрировать bbb.livejournal.com в центре веб-мастеров Google (https://www.google.com/webmasters/), и, следовательно, скормить ему там sitemap.

From:

У меня аккаунт платный, но я не вижу, как могу зарегистрировать его по вашему линку. Там необходимо подтвердить "собственность", но все предложенные варианты, как мне кажется, требуют более значительных прав, чем права владельца платного аккаунта.

From:

Надо установить ljArchive, и скачать свой журнал с комментами. В нём поиск работает стопроцентно.

From:

Но это будет поиск только на той машине, где хранится скачанный архив. Кроме того, это скачивание надо будет все время повторять, чтобы обновлять архив. Это я в том смысле, что одно другому не мешает.

From:

Я не вижу проблемы. У Вас и журнал backed up, и поиск по нему есть. Можно настроить авто-синхронизацию при каждом запуске, так что он всегда и up to date.

From:

Я же не против. Но хотелось бы именно публичного серча, доступного любому пользователю из любого места. В том числе и мне самому, но не только из дома, а отовсюду.

From:

А, ну это ж надо чтобы кому-то пришло в голову что-то искать по твоему журналу, кроме тебя самого. С таким у меня опыта нет.

From:

Ну так весь этот тред начался именно с того, что

ygam написал о том, что гугль не помог ему найти в моем ЖЖ то, что он искал.

From:

А я и не говорю что у Вас опыта нет.

From: (Anonymous)

Да много нас таких ))

From:

Я говорю по поиске по открытым записям. Для поиска по подзамочным и полностью приватным записям, конечно, нужно скачивать весь ЖЖ, это само собой.

From:

Юрий Шанько (from livejournal.com)

Гугл не индексирует большинство старых постов просто потому, что он не подозревает об их существовании. Если на пост никто не сослался, то найти его можно или пролистывая журнал назад, или же через архив. Количество переходов по ссылкам у поискового робота ограничено его настройками (и не думаю, что оно очень большое), а путь в архив журнала прямо заблокирован в файле robots.txt (http://bbb.livejournal.com/robots.txt) (искать строку "User-Agent: GoogleBot" и ниже: "Disallow: /calendar", "Disallow: /1999/" и т.д.). О том, что навигационные страницы не индексируются поисковиками, сказано и в хелпе (http://www.livejournal.com/support/faq/50.html) (раздел Robots.txt). Так что это, увы, не случайность. Я не знаю, как это можно разумным образом исправить. Можно вручную скармливать ссылки в форму Гугл. Можно составить своеобразную "карту сайта" со ссылками на свои старые посты. Но понятно, что это не является нормальным выходом из положения.

From:

Вот оно как, получается :(

А какой же смысл в запрете на поиск в календарном архиве, если поиск в текущих постингах и комментах все равно разрешено?

И что означает строка "User-Agent: Yandex" в самом верху файла http://bbb.livejournal.com/robots.txt ? Что для яндекса эти ограничения не действуют? Или что-то другое?

Главное, ведь пока яндексовский серч по блогам работал нормально, то он индексировал ЖЖ на всю глубину. Что же, тогда robots.txt был другим, а теперь его поменяли?

From:

Юрий Шанько (from livejournal.com)

Я думаю, что они просто решили сэкономить на спичках. Да, поисковые роботы периодически обходят все страницы сайта и создают дополнительную нагрузку на серверы ЖЖ. Если им запретить заходить в календарь, то про старые посты, про которые они не знали, они и не узнают, соответственно не будут их опрашивать, и нагрузка станет меньше. Я не специалист, но мне кажется тут настолько мизерная экономия по сравнению с тем, что из-за этого теряется...

Судя по web.archive.org, robots.txt в ЖЖ поменяли где-то пять лет назад, в марте-апреле 2011. А яндексовский поиск по блогам работает по другому принципу, информацию о новых постах он берет из RSS. Остальные поисковики смотрят на ЖЖ как на обычный сайт, и поэтому используют robots.txt, чтобы понять, что им разрешено.

From:

А вот тут пару лет назад писали, будто бы эти disallow снимаются для тех, у кого есть "подписчики" и т.д. - http://waso-22.livejournal.com/37352.html

Это уже не так, что ли?

From:

Юрий Шанько (from livejournal.com)

Там речь идет о запрете индексации всего сайта через "Disallow: /". В вашем же журнале стоит запрет на календарь: "Disallow: /calendar". Для нормальных, неспамерских журналов первый запрет после появления подписчиков снимается, а второй отстается.

From:

Ага, я уже сообразил, что означает User-Agent - вопрос снимается.

Подумалось, что если бы можно было написать специальный скрипт, который бы обходил журнал на всю глубину архива и просто составлял список прямых линков на открытые постинги, то этот список уже можно было бы скормить гуглу, тем самым решив вопрос.

Правда, я никаких скриптов писать не умею :(

From:

Юрий Шанько (from livejournal.com)

Я в скриптах тоже не большой мастер, но если что-то получится сделать, я об этом напишу.

From:

А если вручную скармливать гуглу линки типа http://bbb.livejournal.com/2016 и т.д. за остальные годы - то будет ли он индексировать все, что по ним находится? Или робот.тхт это тоже будет блокировать? И если будет блокировать, то что произойдет с помесячными линками типа http://bbb.livejournal.com/2016/01 ?

Если этот способ работает, то можно обойтись и без скрипта.

From:

Юрий Шанько (from livejournal.com)

И http://bbb.livejournal.com/2016, и все, что начинается с этой подстроки, включая http://bbb.livejournal.com/2016/01, будет блокироваться. Увы.

From:

Но ведь робот.тхт размещен на корневом линке http://bbb.livejournal.com - а на линке http://bbb.livejournal.com/2016 его нет, то есть если вручную загрузить этот линк, то запрет будет обойден, разве это не сработает?

Заранее извиняюсь, если мой вопрос кажется глупым, я ведь в этом не разбираюсь.

From:

Юрий Шанько (from livejournal.com)

Файл robots.txt всегда размещают по стандартному адресу: http://имя сайта/robots.txt. Поисковый робот перед тем как индексировать какую-либо страницу сайта (как правило, конечно, не одну, а сразу несколько), ищет этот файл на стандартном месте в корне сайта, и, если этот файл существует, выполняет его инструкции. А на линке http://bbb.livejournal.com/2016 этого файла и не должно быть. Так что таким способом запрет не обойти.

From:

Ну что же, остается единственный способ со скриптом, изготавливающим полный список прямых линков. Спрошу народ - может, это и не так сложно сделать.

From:

Юрий Шанько (from livejournal.com)

Это оказалось действительно несложно, скрипт я написал, надо только немного подождать, пока он отработает.

From:

Полный список прямых линков я думаю получить можно.
Способ, который мне кажется самым простым - сначала архивировать блог через ljDump (он создаст локальный каталог с набором XML файлов, по одному файлу на каждый пост). В этих XML файлах поле url - это прямой линк к посту (ну и остальные данные тоже выделены - заголовок, теги, содержание и т.д.). Я наверное мог бы написать скрипт, который формирует рабочий sitemap, состоящий из прямых линков ко всем постам, на основе этих данных.
Но я вот не понимаю как этот sitemap можно будет скормить гуглу. Гугл же действительно требует подтверждения владения сайтом, для которого мы формируем сайтмап, и как мне кажется, ЖЖ не дает инструментов, которые можно было бы использовать для этого подтверждения.

From:

Юрий Шанько (from livejournal.com)

Готово. Список ссылок на открытые записи этого журнала: http://pastebin.com/v8B4CGpT

Теперь проблема скормить это Гуглу. Там 6469 ссылок, а та форма принимает только одну за раз.

Напишу, на всякий случай, как это получено. Все делалось в командной строке Ubuntu:

curl http://bbb.livejournal.com/[1991-2016]/[01-12]/ | grep '\.html\"' | cut -d\" -f 2 > links.txt

Результат складывается в файл links.txt, 1991-2016 — это диапазон лет из календаря, 01-12 — месяцев. Остальные команды отвечают за поиск ссылок и выкидывание мусора.

From:

Спасибо! Я думал скармливать не по одной ссылке за раз, а ссылку на список этих ссылок. Мне казалось, что робот пойдет индексировать на какую-то глубину и тем самым заглотит индивидуальные ЖЖ-постинги, залинкованные в общей ссылке.

Собственно, я прямо сейчас и проведу эксперимент. Сделаю открытый постинг (post-dated, чтобы не пачкать ленту), состоящий из первых ста линков из вашего списка. Как минимум некоторые из них (а очень может быть, что и все) гуглем не индексированы, я проверил наугад. Сейчас я скормлю гуглю линк на этот постинг и посмотрю, что будет дальше.

From:

Юрий Шанько (from livejournal.com)

Да, так, скорее всего, сработает. Собственно сам пост со ста ссылками Гугл уже находит, но ссылки он пока не проиндексировал.

From:

Все еще не проиндексировал :(((

From:

Кажется ЖЖ, как и остальные социальные сети, не только не заинтересован но и активно противодействует полноценному поиску по своим материалам.
В этих условиях возможно полноценный публично доступный, статический архив журнала мог бы помочь делу. Но это конечно дополнительные хлопоты.

Как я себе это представляю технически: можно регулярно экспортировать данные журнала ljdump'ом и затем скормливать эти данные (предварительно сконвертированные) статическому генератору веб сайтов типа hugo.

Из плюсов:

- Такой сайт (полностью статический, не требующий серверных компонентов) можно хостить бесплатно или за весьма небольшие деньги на любой платформе (например Amazon S3)
- Такой сайт максимально удобен на индексирования любыми поисковыми системами.
- На таком статическом сайте комментарии можно отображать тоже статически, так что поисковые системы одинаково хорошо бы индексировали и посты и комментарии
- Структура сайта может детально повторять исходный сайт, а также иметь ссылки на исходные посты в каждом посте, что может помочь при индексации исходного журнала (а может и не помочь конечно). Во всяком случае перейти на основной сайт с такого архива наверное было бы просто.
- Можно настроить ежедневное, допустим обновление в автоматическом режиме
- Такой сайт полностью самодостаточен - в подготовке его используются компоненты, которые могут когда то перестать работать по обычным софтовым причинам, но уже сформированный результат практически неубиваем, plain HTML.

Из минусов:
- Хлопоты с настройкой, подключение хостинга.
- Не факт что обновление будет работать вечно, ЖЖ может например поменять свой API, которым пользуется ljdump, или сильно изменить формат данных и т.д.
- Доступные темы для сайтов не сильно похожи на дизайн ЖЖ, пример сайта, который использует эту технологию: http://andreimihu.com/ Дизайн конечно можно переделывать на любой, но это нужно дизайнера привлекать. Я бы, скажем, только и из этого убрал еще кое-чего.
- Не похоже, чтобы подобная задача часто решалась, поэтому полностью готовой функционально тем похоже нет, что то нужно было бы подкрутить в одной из имеющихся тем. (Конкретно это касается отображения комментариев, обычно комментарии заводят в какую то полноценную платформу типа http://disqus.io/ , которая позволяет добавлять новые комментарии. Это наверное не было бы полезным в таком архиве, плюс все проблемы с индексацией комментариев поисковыми системами касаются всех таких платформ). Но подкрутить функционал для отображения статических комментариев не должно быть слишком сложным.

Если вас такой вариант интересует, дайте знать - я скорее всего смогу подготовить вам такой инструмент.

From:

Спасибо за предложение, но я пока надеюсь обойтись какими-нибудь более простыми способами. Хотя не исключаю, что придется упасть вам в ноги :)

Один из возможных способов - попробовать достучаться до ЖЖ-шного начальства и попросить их убрать ограничения на индексацию календаря. Хотя бы, скажем, для платных. Или сделать эти ограничения опционными.

Я, кстати, так и не понял, почему социальные сети противодействуют индексированию? Неужто это такая неподъемная нагрузка на трафик?

From:

Ну я наверное излишне уверенно об этом написал. Я на самом об этих настройках robot.txt в ЖЖ впервые в вашем диалоге с Юрием узнал, я вот именно это считаю признаком активного проводействия полоноценному поиску. По фейсбуку это просто общее ощущение, что там поиску если не активно противодействуют, то просто о нем не думают. Учитывая что ФБ на самом деле очень технологичная кампания, которая очень большие ресурсы вбухивает не только в закрытые но и в Open Source технологии, кажется что они могли бы эту проблему решить. Но ФБ успешен - может им поиск действительно не важен в бизнес отношении.
В случае ЖЖ, это отношение к поиску кажется каким то самострелом - и это кажется просто примером того как компания принимает дурацкое решение. Череда таких решений доведет таки ее до цугундера.
В этом плане совсем в другом масштабе видится решение Яндекса отказаться от блогопоиска. Доля пользователей блогопоиска среди пользователей Яндекса наверняка же невелика (и в последние годы постоянно уменьшается). А он отказался от этих затрат только сейчас. А доля пользователей ЖЖ, которым нужен нормальный поиск по ЖЖ - она же намного больше? И на этих пользователей ЖЖ активно плюнул еще в 2011 году. Безумный какой то бизнес.

Наверное действительно стоит попробовать достучаться до ЖЖшного начальства. Там наверное и людей, что в 2011 году это решение принимали уже давным давно нет, а новым людям может и легче будет понять, зачем пользователям ЖЖ поиск по ЖЖ.

From:

А вот я совершенно не знаю структуру затрат этих бизнесов - неужто поиск по блогам на глубину больше одного месяца был для Яндекса действительно настолько затратным, что он него имело смысл отказаться? Такое впечатление, что мотивы были какие-то другие. Ведь поиск по остальному интернету остается выстроен по общему формату - сравнительно ограниченный вывод при использовании базовой формы с возможностью использования настраиваемых параметров через более сложную форму, к которой обращается, думаю, ничтожное меньшинство пользователей.

From:

http://bbb.livejournal.com/796474.html

Тут на мой взгляд два момента:
Во первых совершенно необязательно, чтобы блогопоиск был очень затратным в смысле доли общих затрат Яндекса, для того, чтобы они приняли решение о закрытии этого направления. Если этот конкретный бизнес невелик сам по себе, и (самое главное) если он согращается - то этого уже и достаточно. Чтобы оправдать затраты, нужна надежда на какой то бизнес результат в будущем. Нести привычные постоянные затраты часто никто не хочет. Характерно, что Гугл, при всем своем несметном богатстве постоянно закрывает какие-то свои продукты, в том числе вроде бы очень популярные. Скажем закрытие Гугл Ридера было вполне себе событием для его пользователей - со всякими такими проклятиями.

А второе, похоже что Яндекс не стандартную технологию поиска по сайтам применял для блогопоиска, а какую то модификацию (вроде бы на основе RSS каналов). В таком случае это действительно не такие и малые затраты - дополнительный технологический стек, с его поддержкой. А это опять же возможно хотя бы частично связано с отношением самого ЖЖ к поиску. Но это я на уровне слухов и догадок.

Для меня очевидно и важно, что вроде бы вопрос максимально функционального поиска по ЖЖ должен был быть прежде всего на повестке дня у самого ЖЖ - потому что это их бизнес. А он какое то время поддерживался тольео как одно из побочных направлений деятельности Яндекса.
Я в свое время тоже привычно обругал Яндекс в связи с закрытием блогопоиска - а сейчас в другом плане на это посмотрел.

From:

Юрий Шанько (from livejournal.com)

А вот поиск Яндекса (обычный, не по блогам) проиндексировал. Как раз первую сотню ссылок (проверил я, конечно, не все 100). А вот про ссылки за номерами 101, 102 и т.д. он по-прежнему не знает.

При этом сам пост со ссылками в поиске Яндекса не выдается. И, что самое печальное, в поиске Гугла теперь тоже. Хотя пару дней назад он мне этот пост показывал.

From:

david-2.livejournal.com

From: