Конституции
Apr. 27th, 2016 11:25 pmИз конституции Либерии:
In order to preserve, foster and maintain the positive Liberian culture, values and character, only persons who are Negroes or of Negro descent shall qualify by birth or by naturalization to be citizens of Liberia.
http://onliberia.org/con_1984_2.htm
Из конституции Мальдив:
a non-Muslim may not become a citizen of the Maldives
http://www.presidencymaldives.gov.mv/Documents/ConstitutionOfMaldives.pdf
In order to preserve, foster and maintain the positive Liberian culture, values and character, only persons who are Negroes or of Negro descent shall qualify by birth or by naturalization to be citizens of Liberia.
http://onliberia.org/con_1984_2.htm
Из конституции Мальдив:
a non-Muslim may not become a citizen of the Maldives
http://www.presidencymaldives.gov.mv/Documents/ConstitutionOfMaldives.pdf
no subject
Date: 2016-04-28 03:31 am (UTC)no subject
Date: 2016-04-28 04:19 am (UTC)no subject
Date: 2016-04-28 04:55 am (UTC)no subject
Date: 2016-04-28 05:08 am (UTC)no subject
Date: 2016-04-28 04:55 am (UTC)no subject
Date: 2016-04-28 05:05 am (UTC)no subject
Date: 2016-04-28 05:33 am (UTC)no subject
Date: 2016-04-28 06:14 am (UTC)no subject
Date: 2016-04-28 06:23 am (UTC)no subject
Date: 2016-04-28 06:41 am (UTC)no subject
Date: 2016-04-28 06:43 am (UTC)no subject
Date: 2016-04-28 08:54 am (UTC)no subject
Date: 2016-04-28 06:15 am (UTC)no subject
Date: 2016-04-28 05:03 pm (UTC)no subject
Date: 2016-04-28 10:39 pm (UTC)А какой же смысл в запрете на поиск в календарном архиве, если поиск в текущих постингах и комментах все равно разрешено?
И что означает строка "User-Agent: Yandex" в самом верху файла http://bbb.livejournal.com/robots.txt ? Что для яндекса эти ограничения не действуют? Или что-то другое?
Главное, ведь пока яндексовский серч по блогам работал нормально, то он индексировал ЖЖ на всю глубину. Что же, тогда robots.txt был другим, а теперь его поменяли?
no subject
Date: 2016-04-29 04:23 pm (UTC)Судя по web.archive.org, robots.txt в ЖЖ поменяли где-то пять лет назад, в марте-апреле 2011. А яндексовский поиск по блогам работает по другому принципу, информацию о новых постах он берет из RSS. Остальные поисковики смотрят на ЖЖ как на обычный сайт, и поэтому используют robots.txt, чтобы понять, что им разрешено.
no subject
Date: 2016-04-28 10:47 pm (UTC)Это уже не так, что ли?
no subject
Date: 2016-04-29 04:32 pm (UTC)no subject
Date: 2016-04-28 10:53 pm (UTC)Подумалось, что если бы можно было написать специальный скрипт, который бы обходил журнал на всю глубину архива и просто составлял список прямых линков на открытые постинги, то этот список уже можно было бы скормить гуглу, тем самым решив вопрос.
Правда, я никаких скриптов писать не умею :(
no subject
Date: 2016-04-29 04:35 pm (UTC)no subject
Date: 2016-04-29 04:46 pm (UTC)Если этот способ работает, то можно обойтись и без скрипта.
no subject
Date: 2016-04-29 05:01 pm (UTC)no subject
Date: 2016-04-29 05:23 pm (UTC)Заранее извиняюсь, если мой вопрос кажется глупым, я ведь в этом не разбираюсь.
no subject
Date: 2016-04-29 06:08 pm (UTC)no subject
Date: 2016-04-29 06:21 pm (UTC)no subject
Date: 2016-04-29 07:02 pm (UTC)no subject
Date: 2016-04-30 06:01 am (UTC)Способ, который мне кажется самым простым - сначала архивировать блог через ljDump (он создаст локальный каталог с набором XML файлов, по одному файлу на каждый пост). В этих XML файлах поле url - это прямой линк к посту (ну и остальные данные тоже выделены - заголовок, теги, содержание и т.д.). Я наверное мог бы написать скрипт, который формирует рабочий sitemap, состоящий из прямых линков ко всем постам, на основе этих данных.
Но я вот не понимаю как этот sitemap можно будет скормить гуглу. Гугл же действительно требует подтверждения владения сайтом, для которого мы формируем сайтмап, и как мне кажется, ЖЖ не дает инструментов, которые можно было бы использовать для этого подтверждения.
no subject
Date: 2016-04-29 07:34 pm (UTC)Теперь проблема скормить это Гуглу. Там 6469 ссылок, а та форма принимает только одну за раз.
Напишу, на всякий случай, как это получено. Все делалось в командной строке Ubuntu:
curl http://bbb.livejournal.com/[1991-2016]/[01-12]/ | grep '\.html\"' | cut -d\" -f 2 > links.txt
Результат складывается в файл links.txt, 1991-2016 — это диапазон лет из календаря, 01-12 — месяцев. Остальные команды отвечают за поиск ссылок и выкидывание мусора.
no subject
Date: 2016-05-02 01:03 am (UTC)Собственно, я прямо сейчас и проведу эксперимент. Сделаю открытый постинг (post-dated, чтобы не пачкать ленту), состоящий из первых ста линков из вашего списка. Как минимум некоторые из них (а очень может быть, что и все) гуглем не индексированы, я проверил наугад. Сейчас я скормлю гуглю линк на этот постинг и посмотрю, что будет дальше.
no subject
Date: 2016-05-02 06:00 am (UTC)no subject
Date: 2016-05-03 01:44 am (UTC)no subject
Date: 2016-05-03 11:48 am (UTC)В этих условиях возможно полноценный публично доступный, статический архив журнала мог бы помочь делу. Но это конечно дополнительные хлопоты.
Как я себе это представляю технически: можно регулярно экспортировать данные журнала ljdump'ом и затем скормливать эти данные (предварительно сконвертированные) статическому генератору веб сайтов типа hugo.
Из плюсов:
- Такой сайт (полностью статический, не требующий серверных компонентов) можно хостить бесплатно или за весьма небольшие деньги на любой платформе (например Amazon S3)
- Такой сайт максимально удобен на индексирования любыми поисковыми системами.
- На таком статическом сайте комментарии можно отображать тоже статически, так что поисковые системы одинаково хорошо бы индексировали и посты и комментарии
- Структура сайта может детально повторять исходный сайт, а также иметь ссылки на исходные посты в каждом посте, что может помочь при индексации исходного журнала (а может и не помочь конечно). Во всяком случае перейти на основной сайт с такого архива наверное было бы просто.
- Можно настроить ежедневное, допустим обновление в автоматическом режиме
- Такой сайт полностью самодостаточен - в подготовке его используются компоненты, которые могут когда то перестать работать по обычным софтовым причинам, но уже сформированный результат практически неубиваем, plain HTML.
Из минусов:
- Хлопоты с настройкой, подключение хостинга.
- Не факт что обновление будет работать вечно, ЖЖ может например поменять свой API, которым пользуется ljdump, или сильно изменить формат данных и т.д.
- Доступные темы для сайтов не сильно похожи на дизайн ЖЖ, пример сайта, который использует эту технологию: http://andreimihu.com/ Дизайн конечно можно переделывать на любой, но это нужно дизайнера привлекать. Я бы, скажем, только и из этого убрал еще кое-чего.
- Не похоже, чтобы подобная задача часто решалась, поэтому полностью готовой функционально тем похоже нет, что то нужно было бы подкрутить в одной из имеющихся тем. (Конкретно это касается отображения комментариев, обычно комментарии заводят в какую то полноценную платформу типа http://disqus.io/ , которая позволяет добавлять новые комментарии. Это наверное не было бы полезным в таком архиве, плюс все проблемы с индексацией комментариев поисковыми системами касаются всех таких платформ). Но подкрутить функционал для отображения статических комментариев не должно быть слишком сложным.
Если вас такой вариант интересует, дайте знать - я скорее всего смогу подготовить вам такой инструмент.
no subject
Date: 2016-05-03 03:22 pm (UTC)Один из возможных способов - попробовать достучаться до ЖЖ-шного начальства и попросить их убрать ограничения на индексацию календаря. Хотя бы, скажем, для платных. Или сделать эти ограничения опционными.
Я, кстати, так и не понял, почему социальные сети противодействуют индексированию? Неужто это такая неподъемная нагрузка на трафик?
no subject
Date: 2016-05-03 03:52 pm (UTC)В случае ЖЖ, это отношение к поиску кажется каким то самострелом - и это кажется просто примером того как компания принимает дурацкое решение. Череда таких решений доведет таки ее до цугундера.
В этом плане совсем в другом масштабе видится решение Яндекса отказаться от блогопоиска. Доля пользователей блогопоиска среди пользователей Яндекса наверняка же невелика (и в последние годы постоянно уменьшается). А он отказался от этих затрат только сейчас. А доля пользователей ЖЖ, которым нужен нормальный поиск по ЖЖ - она же намного больше? И на этих пользователей ЖЖ активно плюнул еще в 2011 году. Безумный какой то бизнес.
Наверное действительно стоит попробовать достучаться до ЖЖшного начальства. Там наверное и людей, что в 2011 году это решение принимали уже давным давно нет, а новым людям может и легче будет понять, зачем пользователям ЖЖ поиск по ЖЖ.
no subject
Date: 2016-05-03 04:15 pm (UTC)no subject
Date: 2016-05-03 04:36 pm (UTC)Во первых совершенно необязательно, чтобы блогопоиск был очень затратным в смысле доли общих затрат Яндекса, для того, чтобы они приняли решение о закрытии этого направления. Если этот конкретный бизнес невелик сам по себе, и (самое главное) если он согращается - то этого уже и достаточно. Чтобы оправдать затраты, нужна надежда на какой то бизнес результат в будущем. Нести привычные постоянные затраты часто никто не хочет. Характерно, что Гугл, при всем своем несметном богатстве постоянно закрывает какие-то свои продукты, в том числе вроде бы очень популярные. Скажем закрытие Гугл Ридера было вполне себе событием для его пользователей - со всякими такими проклятиями.
А второе, похоже что Яндекс не стандартную технологию поиска по сайтам применял для блогопоиска, а какую то модификацию (вроде бы на основе RSS каналов). В таком случае это действительно не такие и малые затраты - дополнительный технологический стек, с его поддержкой. А это опять же возможно хотя бы частично связано с отношением самого ЖЖ к поиску. Но это я на уровне слухов и догадок.
Для меня очевидно и важно, что вроде бы вопрос максимально функционального поиска по ЖЖ должен был быть прежде всего на повестке дня у самого ЖЖ - потому что это их бизнес. А он какое то время поддерживался тольео как одно из побочных направлений деятельности Яндекса.
Я в свое время тоже привычно обругал Яндекс в связи с закрытием блогопоиска - а сейчас в другом плане на это посмотрел.
no subject
Date: 2016-05-04 07:00 pm (UTC)При этом сам пост со ссылками в поиске Яндекса не выдается. И, что самое печальное, в поиске Гугла теперь тоже. Хотя пару дней назад он мне этот пост показывал.
no subject
Date: 2016-04-28 12:07 pm (UTC)no subject
Date: 2016-04-28 10:53 pm (UTC)no subject
Date: 2016-04-29 08:58 am (UTC)Короче, левой рукой через правое колено. :)
no subject
Date: 2016-04-28 08:57 pm (UTC)no subject
Date: 2016-05-01 11:17 am (UTC)no subject
Date: 2016-04-29 10:23 am (UTC)