[personal profile] borislvin
Недавно в комментах к одному постингу (совершенно постороннего содержания) спонтанно возникло обсуждение одного практического вопроса об индексировании ЖЖ гуглем, яндексом и т.д. - http://bbb.livejournal.com/2973962.html?thread=17828362

По какой-то необъяснимой причине и фейсбук, и ЖЖ очень не любят, чтобы их индексировали. В частности, в ЖЖ индексация возможна только на глубину непосредственно доступной ленты, а поиск по линкам из календарного архива прямо запрещен. При этом юзерам предоставляется специальная возможность вообще запретить индексирование своих журналов, а возможность разрешить полное их индексирование на всю глубину исключена.

С помощью юзера Юрия Шанько попробовал провести эксперимент по принудительному скармливанию гуглу списка из прямых линков на индивидуальные ЖЖ-постинги. Эксперимент в целом закончился неудачей.

Может быть, имеются какие-то другие решения?

Или можно как-то выйти на начальство ЖЖ и уговорить их отменить запрет на индексирование календарного архива - точнее, дать юзерам возможность отказаться от этого запрета в индивидуальном порядке?

Date: 2016-05-10 04:59 am (UTC)
From: [identity profile] juan-gandhi.livejournal.com
А экспортировать куда-нибудь если? В тот же dw?

Date: 2016-05-10 05:05 am (UTC)
From: [identity profile] bbb.livejournal.com
Хочется именно что иметь возможность искать в ЖЖ по-человечески, гуглом. Главное, гугл ведь все равно ЖЖ индексирует, то есть вся проблема только в старых записях.

Date: 2016-05-10 06:34 am (UTC)
From: [identity profile] taki-net.livejournal.com
Так ведь

1. В Дримвид можно экспортировать и весь старый журнал, с начала его сущестования и по сей день.

2. Дальнейший экспорт можно наладить автоматом.

Date: 2016-05-10 05:27 am (UTC)
From: [identity profile] toshick.livejournal.com
Дело в том, что все подобные сайты считают, что пользовательский контент - это ценность, и те, кто сканирует сайт автоматически, нечто у них "воруют".
Тут есть некая сермяга, одно время было популярно создавать копии журналов популярных пользователей и нарезать постинги для раскрутки ботов.
Особенно отличается фэйсбук, он принимает не только организационные, но и судебные меры для того, чтобы не давать его "скрапить". (я специально изучал, могу дать ссылку на кейс) При этом сами они не могут организовать даже нормальный поиск, но считают, что будут наживаться за счет профилирования и таргетирования, поэтому гугль они не пустят.
Зачем ЖЖ нужно не пускать поисковые машины, менее понятно, у них более открытая модель.
Возможно, из-за паранойи части пользователей, в свое время были очень громкие скандалы из-за того, что Яндекс игнорировал запрет на индексацию. Думаю, ты это помнишь.

Date: 2016-05-10 02:13 pm (UTC)
From: [identity profile] bbb.livejournal.com
Так я же не возражаю. Пусть отказ от индексирования будет даже дефолтной опцией. Но что мешает дать юзерам возможность открыть ЖЖ для индексирования, если им этого хочется?

Более того, даже и не об этом речь. В ЖЖ эта опция ("открыть для индексирования") существует и я ее использую, поэтому мой ЖЖ индексируется. Вся проблема в том, что запрещена возможность индексирования на всю глубину, с использованием календарного архива.

Думаю, что в этом нет никакой специальной логики, просто какой-то недосмотр. Если бы только понять, кто может его подправить.

Date: 2016-05-10 02:52 pm (UTC)
From: [identity profile] toshick.livejournal.com
Так они считают твой контент на их сайтах своим asset'ом !
Поэтому и делают все, чтобы максимально затруднить скрейпинг.
Причем ЖЖ, разумеется, только потому, что все так делают, а вот фэйсбух хитроумнее - там, например, постинги в публичных группах вообще нельзя увидеть, не залогинившись.

Date: 2016-05-10 03:03 pm (UTC)
From: [identity profile] bbb.livejournal.com
Думаю, ты несколько усложняешь в том, что касается ЖЖ (фейсбук я не затрагиваю). Иначе они бы не разрешили индексирование вообще. Скажем, мой ЖЖ вполне себе проиндексирован как минимум на несколько лет назад. Проблема в том, чтобы проиндексировать старые записи, сделанные до того, как гугль начал индексацию ЖЖ. Или, возможно, до того, как ЖЖ перешел на новый формат линков.

И даже если бы ЖЖ считал контент "своим ассетом", то это было бы всего лишь дополнительным аргументом в пользу усиленной индексации. Ведь индексация поисковиками - чуть ли не единственный способ привлечь внимание к этому "ассету", особенно старому, и каким-то образом монетизировать его (скажем, баннерами).

Date: 2016-05-10 03:13 pm (UTC)
From: [identity profile] toshick.livejournal.com
Лучше всего, конечно, получить ответ от самого ЖЖ, скорее всего, там будет написано "такова наша политика", а почему она такова, они внятно объяснить не смогут.

Я же говорю, я недавно разбирался с этим вопросом. Сайты с пользовательским контентом руководствуются иной логикой - "все наше, никому не отдадим, TOS напишем, который все запрещает". Они считают, что иначе все скопируют и ассет потеряет ценность. Причем да, это распространяется даже на поисковые машины.

Date: 2016-05-10 03:04 pm (UTC)
From: [identity profile] rednyrg721.livejournal.com
Я думаю, тут проблема в том, что ссылки из календаря ведут на страницы специального вида (http://bbb.livejournal.com/2016/03/16/), в которых дублируется содержимое постов, а это гугл страшно не любит (поэтому суповцам и пришлось запретить индексацию). Им нужно бы сделать нормальное оглавление, в котором только заголовки постов, являющиеся ссылками на них.

Я в другой подобной дискуссии уже советовал вариант решения: сделать пост со ссылками на старые посты (это вы уже попробовали вроде бы?), а на него сделать ссылку из профиля жж (куда паук гугла точно заходит из свежих комментов хотя бы, в них есть ссылка на профиль). Можно потом туда добавлять комменты со ссылками на новые посты, паук при следующем заходе их увидит тоже.

Date: 2016-05-10 03:09 pm (UTC)
From: [identity profile] bbb.livejournal.com
Что означает "гугл не любит"? И почему суповцы должны переживать по этому поводу? Или если снять запрет на индексирование календарного архива, то гугл вообще прекратить индексировать ЖЖ?

Насчет вашего предложения - я такой постинг сделал, вручную скормил его гуглу, гугл его видел и проиндексировал, но конечный результат все равно нулевой.

Date: 2016-05-10 03:29 pm (UTC)
From: [identity profile] rednyrg721.livejournal.com
>Что означает "гугл не любит"?
>Или если снять запрет на индексирование календарного архива, то гугл вообще прекратить индексировать ЖЖ?

Если разрешить индексацию, то гугл выбросит из индекса какой-то из дублей, либо пост, либо вот эту страницу /yyyy/mm/dd/, причём предсказать, какой он сделает выбор, сложно.

>И почему суповцы должны переживать по этому поводу?

Это я просто пытался реконструировать изначальную их логику.

Но вообще, я скорее согласен с "какой-то недосмотр", некому у них этим заниматься, по-видимому.

Вот ещё другой косяк с индексацией, который уже сложнее объяснить: если посмотреть page source для http://bbb.livejournal.com/?skip=50, то там есть теги meta name="robots" content="noindex, nofollow, noarchive" и meta name="googlebot" content="noindex, nofollow, noarchive, nosnippet", которые, как я понимаю, тоже запрещают индексацию, вдобавок к robots.txt (я не настоящий сварщик, пусть настоящие меня поправят, если что). И зачем вот это вот, совсем непонятно.
Edited Date: 2016-05-10 03:34 pm (UTC)

Date: 2016-05-10 05:28 am (UTC)
From: [identity profile] pro100-petrov.livejournal.com
А зачем?

Date: 2016-05-10 05:34 am (UTC)
From: [identity profile] cheerfulthinker.livejournal.com
Лучший способ — покинуть умирающий ЖЖ, который до сих пор не озаботился представлением таких функций.
Решение о запрете индексации было намеренным, вероятность его изменения — невысокая.

Date: 2016-05-10 03:06 pm (UTC)
From: [identity profile] bbb.livejournal.com
Запрета индексации в ЖЖ нет.

Date: 2016-05-10 04:40 pm (UTC)
From: [identity profile] cheerfulthinker.livejournal.com
Ну, раз нет запрета, кто ж вам тогда мешает всю историю проиндексировать? Вот об этом и речь.

Date: 2016-05-10 04:45 pm (UTC)
From: [identity profile] bbb.livejournal.com
Вопрос в другом - что вам мешает покинуть ЖЖ, который вы считаете умирающим?

Date: 2016-05-10 05:47 pm (UTC)
From: [identity profile] cheerfulthinker.livejournal.com
Потому что ещё не окончательно умер и здесь осталось несколько блогеров, на которых я подписан.

Date: 2016-05-10 06:13 am (UTC)
From: [identity profile] crema-catalana.livejournal.com
В реальности не все так грустно. Ваш домен неплохо проиндексирован гуглем:
Image
Что подтверждает и сам поисковик (пруф (https://www.google.com.ua/search?q=site:bbb.livejournal.com&gws_rd=cr&ei=NXsxV5fnIuOV6ATBnqDQBw)).
Проблема с полной индексацией в том, что нет полноправного доступа к управлению доменом bbb, и, как результат, — возможности работать в кабинете вебмастера с картой сайта и отдельными его страницами.

Date: 2016-05-10 02:15 pm (UTC)
From: [identity profile] bbb.livejournal.com
Проблема в том, что в файле robots.txt не получается отключить опцию "Disallow: /calendar" (и далее такие же по индивидуальным годам).

Date: 2016-05-20 05:27 am (UTC)
From: [identity profile] crema-catalana.livejournal.com
Это как раз и является следствием того, что нет полноправного доступа к управлению доменом bbb
P.S. Я не нашел, за какие коврижки таковой можно получить в ЖЖ, но, несомненно, это возможно.

Date: 2016-05-26 11:04 am (UTC)
From: [identity profile] crema-catalana.livejournal.com
Я посмотрел у топовых блогеров: ситуация та же -- у всех
Disallow: /calendar
Это вызывает плохие предчувствия :)

Date: 2016-05-26 05:43 pm (UTC)
From: [identity profile] bbb.livejournal.com
Конечно, у всех. Уверен, что не у "топовых", а просто у всех. Очевидно, это стандартный сеттинг. Смысл его мне до сих пор не понятен, предложенные объяснения меня не убедили. Выглядит как недосмотр, недоработка. Если бы знать, кому указать на это внимание - сделал бы.

Date: 2016-05-26 09:31 pm (UTC)
From: [identity profile] crema-catalana.livejournal.com
Вы знаете, у меня не так (бесплатный простенький аккаунт):
http://crema-catalana.livejournal.com/robots.txt
=========== начало
User-Agent: Mediapartners-Google*
Disallow:

User-Agent: TwitterBot
Disallow:
User-Agent: spbot
Disallow: /
User-Agent: *
Disallow: /
=========== конец
Edited Date: 2016-05-26 09:33 pm (UTC)

Date: 2016-05-26 10:16 pm (UTC)
From: [identity profile] bbb.livejournal.com
Ну так у вас вообще все запрещено.

Чтобы снять это общий запрет, надо пойти в сеттинги, по линку http://www.livejournal.com/manage/settings/?cat=privacy и снять галочку в строках "Search Inclusion" и "Comment Search Inclusion".

Тогда поиск будет разрешен, но только в текущей ленте, а не в календарном архиве.

Во всяком случае, я так думаю. Правда, может быть, эта опция возможна только для платных, хотя я сомневаюсь в этом. Попробуйте сами и проверьте.

Date: 2016-05-28 06:26 am (UTC)
From: [identity profile] crema-catalana.livejournal.com
Совершенно верно, если снять галку, то файл роботс.тхт становится похожим на Ваш. Понятно, что календарный архив ни в коем случае не индексируется.

Date: 2016-05-10 02:59 pm (UTC)
From: [identity profile] 1master.livejournal.com
У ЖЖ все поисковые настройки здесь: http://www.livejournal.com/manage/settings/?cat=privacy

Date: 2016-05-10 03:05 pm (UTC)
From: [identity profile] bbb.livejournal.com
В том-то и дело, что НЕ все. Там нет настройки, позволяющей отключить запрет на индексирование календарного архива записей (в отличие от текущей ленты). Именно об этом и речь.

Date: 2016-05-11 12:34 am (UTC)
fizzik: (дельфин)
From: [personal profile] fizzik
Индексирование календарных страниц действительно запрещено, а вот индексирование страницы тэгов - разрешено.
Поэтому записи, которые оказываются на не очень дальней странице записей, выбранных по какому-либо тэгу, благополучно индексируются.
Я это проверял практически: если я беру свою древнюю открытую запись, скажем 10-летней давности, на которой стоит какой-нибудь не очень частый у меня тэг, то она благополучно находится и гуглом, и яндексом. А если на записи той же древности тэгов нет, или стоит такой тэг, что у меня записей с ним сотни, то такая запись не индексируется (т.к. чтобы до нее добраться, надо отлистать десяток страниц в списке моих записей по этому тэгу, а глубина хождения по ссылкам у поисковиков, видимо, ограничена).

Отсюда вытекает совет, который я на практике не пробовал, но подозреваю, что он может работать: надо пометить каждую запись своим собственным уникальным тэгом.

Date: 2016-05-11 01:30 am (UTC)
From: [identity profile] bbb.livejournal.com
Вы уверены? Я вот прямо сейчас посмотрел http://bbb.livejournal.com/robots.txt и вижу строку "Disallow: /tag/"

Date: 2016-05-11 04:52 am (UTC)
fizzik: (дельфин)
From: [personal profile] fizzik
Действительно...
Мне кажется, что месяц назад этого не было. Но может быть и ошибаюсь.

Date: 2016-05-11 01:32 am (UTC)
From: [identity profile] bbb.livejournal.com
Это, конечно, не говоря о том, что число различных тэгов у каждого юзера, скорее всего, программно ограничено, хотя бы и достаточно большим числом - условно, сто или двести.

Date: 2016-05-11 04:53 am (UTC)
fizzik: (дельфин)
From: [personal profile] fizzik
У меня их 103. Но не исключено, что ограничение существует.

Date: 2016-05-12 07:48 pm (UTC)
From: [identity profile] valshooter.livejournal.com
Борис, а можно поэкспериментировать с вашим ЖЖ? Я хочу попробовать скормить ссылки на ваши посты гуглу, опубликовав их на каком-нибудь совершенно не связанном с ЖЖ сайте - грубо говоря, перепостить "содержание" вашего ЖЖ в виде заголовков и ссылок (по датам). Естественно, без текстов самих постов и/или комментариев.

В успехе я не уверен, но хочется попробовать. Можно?

Date: 2016-05-12 08:32 pm (UTC)
From: [identity profile] bbb.livejournal.com
Какие могут быть возражения? Ведь эти линки - публичная информация, доступная всем желающим, у меня нет на нее никаких особых прав. Наоборот, я буду только благодарен, даже если результат эксперимента будет отрицательным. Ведь это же полезно знать многим, не мне одному.

Список линков выложен здесь - http://pastebin.com/v8B4CGpT

Вы можете им распоряжаться по своему усмотрению, но я бы предложил выбрать линки после номера 101. Допустим, со сто первого до сто двадцатого или, скажем, двухсотого. Тем самым будет обеспечена дополнительная чистота эксперимента, потому что я уже пытался скормить гуглу первые сто линков, поместив их в отдельний постинг ЖЖ.

В списке, правда, нет заголовков - но они не всегда и выставлялись; в ЖЖ можно постить и без заголовка. Мне думается, что собственно линков должно быть достаточно.

Date: 2016-05-19 01:09 pm (UTC)
From: [identity profile] bbb.livejournal.com
И как, имеются результаты?

Date: 2016-05-19 02:26 pm (UTC)
From: [identity profile] valshooter.livejournal.com
У меня только вчера дошли руки начать эксперимент.

Взял дважды по 20 ссылок (131-150 и 151-170) и запостил на двух сайтах.

На одном сайте гугл пока не побывал (снапшот от позавчера), на втором сайте был.

Из первой двадцатки 5 постов в индексе есть.
Но выводы делать рано - я, дурак, не проверил, были ли они в индексе раньше. Как минимум один был раньше, но четыре других датированы в кеше гугла вчерашним днём (после моих постов).

В общем, выводы пока делать рано, но, видимо, шанс скормить гуглу весь архив есть.

Date: 2016-05-19 02:31 pm (UTC)
From: [identity profile] bbb.livejournal.com
Спасибо, интересно. И даже в чем-то обнадеживающе :)

Date: 2016-05-19 02:38 pm (UTC)
From: [identity profile] valshooter.livejournal.com
Проверил вторую двадцатку - там сейчас в индексе 3 поста, но гугл не даёт посмотреть кешированную версию (чтобы узнать дату).

В общем, наблюдаем.

Я сооружу автоматическую проверялку индексированности отдельно взятого урла, а то что-то руками долго.

Date: 2016-05-20 06:18 pm (UTC)
From: [identity profile] valshooter.livejournal.com
Появился пост, которого 100% не было в индексе - можно проверить поиском "вот это мелет тот самый Миша Леонтьев" (в кавычках).

Пост появился после моих постодвижений, так что можно начинать думать, как правильно организовывать массовую кормёжку гугла.

Date: 2016-05-20 10:28 pm (UTC)
From: [identity profile] bbb.livejournal.com
Спасибо!

Profile

borislvin

January 2026

S M T W T F S
    123
45 6 7 8 910
11121314151617
18192021222324
25262728293031

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 31st, 2026 08:39 am
Powered by Dreamwidth Studios