Индексирование ЖЖ
May. 10th, 2016 12:38 amНедавно в комментах к одному постингу (совершенно постороннего содержания) спонтанно возникло обсуждение одного практического вопроса об индексировании ЖЖ гуглем, яндексом и т.д. - http://bbb.livejournal.com/2973962.html?thread=17828362
По какой-то необъяснимой причине и фейсбук, и ЖЖ очень не любят, чтобы их индексировали. В частности, в ЖЖ индексация возможна только на глубину непосредственно доступной ленты, а поиск по линкам из календарного архива прямо запрещен. При этом юзерам предоставляется специальная возможность вообще запретить индексирование своих журналов, а возможность разрешить полное их индексирование на всю глубину исключена.
С помощью юзера Юрия Шанько попробовал провести эксперимент по принудительному скармливанию гуглу списка из прямых линков на индивидуальные ЖЖ-постинги. Эксперимент в целом закончился неудачей.
Может быть, имеются какие-то другие решения?
Или можно как-то выйти на начальство ЖЖ и уговорить их отменить запрет на индексирование календарного архива - точнее, дать юзерам возможность отказаться от этого запрета в индивидуальном порядке?
По какой-то необъяснимой причине и фейсбук, и ЖЖ очень не любят, чтобы их индексировали. В частности, в ЖЖ индексация возможна только на глубину непосредственно доступной ленты, а поиск по линкам из календарного архива прямо запрещен. При этом юзерам предоставляется специальная возможность вообще запретить индексирование своих журналов, а возможность разрешить полное их индексирование на всю глубину исключена.
С помощью юзера Юрия Шанько попробовал провести эксперимент по принудительному скармливанию гуглу списка из прямых линков на индивидуальные ЖЖ-постинги. Эксперимент в целом закончился неудачей.
Может быть, имеются какие-то другие решения?
Или можно как-то выйти на начальство ЖЖ и уговорить их отменить запрет на индексирование календарного архива - точнее, дать юзерам возможность отказаться от этого запрета в индивидуальном порядке?
no subject
Date: 2016-05-10 04:59 am (UTC)no subject
Date: 2016-05-10 05:05 am (UTC)no subject
Date: 2016-05-10 05:27 am (UTC)Тут есть некая сермяга, одно время было популярно создавать копии журналов популярных пользователей и нарезать постинги для раскрутки ботов.
Особенно отличается фэйсбук, он принимает не только организационные, но и судебные меры для того, чтобы не давать его "скрапить". (я специально изучал, могу дать ссылку на кейс) При этом сами они не могут организовать даже нормальный поиск, но считают, что будут наживаться за счет профилирования и таргетирования, поэтому гугль они не пустят.
Зачем ЖЖ нужно не пускать поисковые машины, менее понятно, у них более открытая модель.
Возможно, из-за паранойи части пользователей, в свое время были очень громкие скандалы из-за того, что Яндекс игнорировал запрет на индексацию. Думаю, ты это помнишь.
no subject
Date: 2016-05-10 05:28 am (UTC)no subject
Date: 2016-05-10 05:34 am (UTC)Решение о запрете индексации было намеренным, вероятность его изменения — невысокая.
no subject
Date: 2016-05-10 06:13 am (UTC)Что подтверждает и сам поисковик (пруф (https://www.google.com.ua/search?q=site:bbb.livejournal.com&gws_rd=cr&ei=NXsxV5fnIuOV6ATBnqDQBw)).
Проблема с полной индексацией в том, что нет полноправного доступа к управлению доменом bbb, и, как результат, — возможности работать в кабинете вебмастера с картой сайта и отдельными его страницами.
no subject
Date: 2016-05-10 06:34 am (UTC)1. В Дримвид можно экспортировать и весь старый журнал, с начала его сущестования и по сей день.
2. Дальнейший экспорт можно наладить автоматом.
no subject
Date: 2016-05-10 02:13 pm (UTC)Более того, даже и не об этом речь. В ЖЖ эта опция ("открыть для индексирования") существует и я ее использую, поэтому мой ЖЖ индексируется. Вся проблема в том, что запрещена возможность индексирования на всю глубину, с использованием календарного архива.
Думаю, что в этом нет никакой специальной логики, просто какой-то недосмотр. Если бы только понять, кто может его подправить.
no subject
Date: 2016-05-10 02:15 pm (UTC)no subject
Date: 2016-05-10 02:52 pm (UTC)Поэтому и делают все, чтобы максимально затруднить скрейпинг.
Причем ЖЖ, разумеется, только потому, что все так делают, а вот фэйсбух хитроумнее - там, например, постинги в публичных группах вообще нельзя увидеть, не залогинившись.
no subject
Date: 2016-05-10 02:59 pm (UTC)no subject
Date: 2016-05-10 03:03 pm (UTC)И даже если бы ЖЖ считал контент "своим ассетом", то это было бы всего лишь дополнительным аргументом в пользу усиленной индексации. Ведь индексация поисковиками - чуть ли не единственный способ привлечь внимание к этому "ассету", особенно старому, и каким-то образом монетизировать его (скажем, баннерами).
no subject
Date: 2016-05-10 03:04 pm (UTC)Я в другой подобной дискуссии уже советовал вариант решения: сделать пост со ссылками на старые посты (это вы уже попробовали вроде бы?), а на него сделать ссылку из профиля жж (куда паук гугла точно заходит из свежих комментов хотя бы, в них есть ссылка на профиль). Можно потом туда добавлять комменты со ссылками на новые посты, паук при следующем заходе их увидит тоже.
no subject
Date: 2016-05-10 03:05 pm (UTC)no subject
Date: 2016-05-10 03:06 pm (UTC)no subject
Date: 2016-05-10 03:09 pm (UTC)Насчет вашего предложения - я такой постинг сделал, вручную скормил его гуглу, гугл его видел и проиндексировал, но конечный результат все равно нулевой.
no subject
Date: 2016-05-10 03:13 pm (UTC)Я же говорю, я недавно разбирался с этим вопросом. Сайты с пользовательским контентом руководствуются иной логикой - "все наше, никому не отдадим, TOS напишем, который все запрещает". Они считают, что иначе все скопируют и ассет потеряет ценность. Причем да, это распространяется даже на поисковые машины.
no subject
Date: 2016-05-10 03:29 pm (UTC)>Или если снять запрет на индексирование календарного архива, то гугл вообще прекратить индексировать ЖЖ?
Если разрешить индексацию, то гугл выбросит из индекса какой-то из дублей, либо пост, либо вот эту страницу /yyyy/mm/dd/, причём предсказать, какой он сделает выбор, сложно.
>И почему суповцы должны переживать по этому поводу?
Это я просто пытался реконструировать изначальную их логику.
Но вообще, я скорее согласен с "какой-то недосмотр", некому у них этим заниматься, по-видимому.
Вот ещё другой косяк с индексацией, который уже сложнее объяснить: если посмотреть page source для http://bbb.livejournal.com/?skip=50, то там есть теги meta name="robots" content="noindex, nofollow, noarchive" и meta name="googlebot" content="noindex, nofollow, noarchive, nosnippet", которые, как я понимаю, тоже запрещают индексацию, вдобавок к robots.txt (я не настоящий сварщик, пусть настоящие меня поправят, если что). И зачем вот это вот, совсем непонятно.
no subject
Date: 2016-05-10 04:40 pm (UTC)no subject
Date: 2016-05-10 04:45 pm (UTC)no subject
Date: 2016-05-10 05:47 pm (UTC)no subject
Date: 2016-05-11 12:34 am (UTC)Поэтому записи, которые оказываются на не очень дальней странице записей, выбранных по какому-либо тэгу, благополучно индексируются.
Я это проверял практически: если я беру свою древнюю открытую запись, скажем 10-летней давности, на которой стоит какой-нибудь не очень частый у меня тэг, то она благополучно находится и гуглом, и яндексом. А если на записи той же древности тэгов нет, или стоит такой тэг, что у меня записей с ним сотни, то такая запись не индексируется (т.к. чтобы до нее добраться, надо отлистать десяток страниц в списке моих записей по этому тэгу, а глубина хождения по ссылкам у поисковиков, видимо, ограничена).
Отсюда вытекает совет, который я на практике не пробовал, но подозреваю, что он может работать: надо пометить каждую запись своим собственным уникальным тэгом.
no subject
Date: 2016-05-11 01:30 am (UTC)no subject
Date: 2016-05-11 01:32 am (UTC)no subject
Date: 2016-05-11 04:52 am (UTC)Мне кажется, что месяц назад этого не было. Но может быть и ошибаюсь.
no subject
Date: 2016-05-11 04:53 am (UTC)no subject
Date: 2016-05-12 07:48 pm (UTC)В успехе я не уверен, но хочется попробовать. Можно?
no subject
Date: 2016-05-12 08:32 pm (UTC)Список линков выложен здесь - http://pastebin.com/v8B4CGpT
Вы можете им распоряжаться по своему усмотрению, но я бы предложил выбрать линки после номера 101. Допустим, со сто первого до сто двадцатого или, скажем, двухсотого. Тем самым будет обеспечена дополнительная чистота эксперимента, потому что я уже пытался скормить гуглу первые сто линков, поместив их в отдельний постинг ЖЖ.
В списке, правда, нет заголовков - но они не всегда и выставлялись; в ЖЖ можно постить и без заголовка. Мне думается, что собственно линков должно быть достаточно.
no subject
Date: 2016-05-19 01:09 pm (UTC)no subject
Date: 2016-05-19 02:26 pm (UTC)Взял дважды по 20 ссылок (131-150 и 151-170) и запостил на двух сайтах.
На одном сайте гугл пока не побывал (снапшот от позавчера), на втором сайте был.
Из первой двадцатки 5 постов в индексе есть.
Но выводы делать рано - я, дурак, не проверил, были ли они в индексе раньше. Как минимум один был раньше, но четыре других датированы в кеше гугла вчерашним днём (после моих постов).
В общем, выводы пока делать рано, но, видимо, шанс скормить гуглу весь архив есть.
no subject
Date: 2016-05-19 02:31 pm (UTC)no subject
Date: 2016-05-19 02:38 pm (UTC)В общем, наблюдаем.
Я сооружу автоматическую проверялку индексированности отдельно взятого урла, а то что-то руками долго.
no subject
Date: 2016-05-20 05:27 am (UTC)P.S. Я не нашел, за какие коврижки таковой можно получить в ЖЖ, но, несомненно, это возможно.
no subject
Date: 2016-05-20 06:18 pm (UTC)Пост появился после моих постодвижений, так что можно начинать думать, как правильно организовывать массовую кормёжку гугла.
no subject
Date: 2016-05-20 10:28 pm (UTC)no subject
Date: 2016-05-26 11:04 am (UTC)Disallow: /calendar
Это вызывает плохие предчувствия :)
no subject
Date: 2016-05-26 05:43 pm (UTC)no subject
Date: 2016-05-26 09:31 pm (UTC)http://crema-catalana.livejournal.com/robots.txt
=========== начало
User-Agent: Mediapartners-Google*
Disallow:
User-Agent: TwitterBot
Disallow:
User-Agent: spbot
Disallow: /
User-Agent: *
Disallow: /
=========== конец
no subject
Date: 2016-05-26 10:16 pm (UTC)Чтобы снять это общий запрет, надо пойти в сеттинги, по линку http://www.livejournal.com/manage/settings/?cat=privacy и снять галочку в строках "Search Inclusion" и "Comment Search Inclusion".
Тогда поиск будет разрешен, но только в текущей ленте, а не в календарном архиве.
Во всяком случае, я так думаю. Правда, может быть, эта опция возможна только для платных, хотя я сомневаюсь в этом. Попробуйте сами и проверьте.
no subject
Date: 2016-05-28 06:26 am (UTC)