[personal profile] borislvin
МИД сделал очень-очень большое дело - оцифровал и выложил в сеть огромный массив рассекреченных документов по международным отношениям СССР во время второй мировой войны. По их подсчетам, это "3900 архивных дел общим объемом более 370 тысяч листов".

Лежит это здесь - http://agk.mid.ru

Отсканированы и выложены архивные дела целиком, включая учетные листы, в которых отмечено, кому и когда они выдавались.

Одна проблема - сделано это не очень удобно. Посмотреть дело целиком не получается, можно только постранично.

Допустим, мы идем в раздел "Секретариат Молотова" (http://agk.mid.ru/fonds/sekretariat-v-m-molotova/sekretariat-v-m-molotova), видим список описей (с указанием, сколько дел в каждой описи), открываем опись 5 (http://agk.mid.ru/fonds/sekretariat-v-m-molotova/sekretariat-v-m-molotova/5) и видим список из первых десяти дел описи. Всего дел в этой описи 312, то есть чтобы ознакомиться со всем списком, необходимо пролистать 32 экрана. Допустим, нас интересует дело 34, то есть 6-й том записей бесед Молотова с иностранными представителями. Линк на него выводится на третьем экране (http://agk.mid.ru/fonds/sekretariat-v-m-molotova/sekretariat-v-m-molotova/5/?PAGEN_1=3). Кликнув на него, мы получаем всплывающую картинку первой страницы дела с возможностью навигации по другим страницам.

Мне кажется, было бы еще удобнее, если бы каждое из дел, помимо нынешнего формата, было сведено в отдельный pdf-файл с возможностью нормального просмотра.

Сделать это на самом деле не так уж и сложно, потому что имется прямые линки на картинки.

Скажем, линк на первую страницу нашего дела - http://agk.mid.ru/DATA/6_5_34/00000000.jpg

Соответственно, линк на последнюю страницу этого дела - http://agk.mid.ru/DATA/6_5_34/00000129.jpg

То есть в деле всего 129 страниц.

Имея список картинок, пронумерованных по порядку, сделать из них pdf-файлы очень просто. Но для этого надо, наверно, сперва скачать все эти картинки. Это, думаю, тоже не сложно с учетом прозрачной структуры сайта. Наверно, знающие люди могут сделать для этого соответствующий скрипт. Полученные файлы можно уже будет сортировать, разглядывать и читать в более удобном виде, несмотря на их значительное число.

Более того, полученные сборные файлы дел я бы с удовольствием передал архивистам МИДа, чтобы они их выложили на свой сайт.

Что думают знающие люди, сложно это или нет?

На всякий случай ставлю это под замок, чтобы не спровоцировать админов сайта на усложнение доступа.

Date: 2016-06-23 08:02 am (UTC)
From: [identity profile] toshick.livejournal.com
с ходу я могу это сделать не-промышленным способом - открыть все файлы одного дела в Corel Photo Paint (скриптом, разумеется) и сохранить в pdf
если нужен один файл, то это - разумный вариант, т.к. позволяет на ходу управлять сжатием, например

или надо писать скрипт, который скачает файлы (это тоже несложно), и какой-нибудь программой соединять их в pdf пакетном режиме (и такое есть)

но тут есть тонкость - pdf получится очень большой, для первого же дела - 20-30 МБ, причем пережимать эти изображения не имеет смысла, они уже нормально сжаты
просматривать через сеть pdf такого размера, по-моему, не очень удобно

общий объем обработки по нынешним временам не критичен <100GB

если лучших специалистов не найдется - напиши мне в FB-мессенджере, попробую помочь ;-)

Date: 2016-06-23 03:04 pm (UTC)
From: [identity profile] bbb.livejournal.com
Соединять картиночные файлы данной директории в один pdf может самый простой акробат-про; наверно, можно сделать и скрипт, обходящий директории одну за другой.

Скачивать, собственно, тоже несложно с помощью программ загрузки. Я пользуюсь обычно DownThemAll для Мозиллы (привык к нему), надо будет попробовать Download Master. Там проблема в том, что имена файлов в разных директориях повторяются, то есть тут нужна программа загрузки, способная повторить структуру директорий. Надо будет посмотреть, умеет ли это Download Master.

Date: 2016-06-23 04:40 pm (UTC)
From: [identity profile] toshick.livejournal.com
Да, я сообразил уже потом, я этой программой редко пользуюсь.
Написать скрипт, если не будет другого выхода, тоже не сложно.

Date: 2016-06-23 03:05 pm (UTC)
From: [identity profile] bbb.livejournal.com
Размер же не страшен - 20-30 мегабайт сейчас вполне нормальный вес для оцифрованной книги и не замедляет просмотр.

Date: 2016-06-23 04:43 pm (UTC)
From: [identity profile] toshick.livejournal.com
Если скачать на локальный диск - да.
А вот если оно открывается с интернета, и акробат открывается в окне браузера ...

Date: 2016-06-23 05:20 pm (UTC)
From: [identity profile] bbb.livejournal.com
Ну да, именно это и имеется в виду. Ты смотришь список дел (их заголовки достаточно детальны), находишь то, что тебе интересно, скачиваешь и уже спокойно читаешь, как нормальную книгу.

Кстати, хорошо бы еще сделать сквозной список всех дел, по крайней мере по каждой из описей. Описей там немного, но некоторые из них содержат по несколько сот дел, а пролистывать его можно только экранами по десять штук.

Date: 2016-06-23 05:24 pm (UTC)
From: [identity profile] toshick.livejournal.com
Не знаю, по-моему, такая штука начинает тормозить в самый неожиданный момент.

Ну ты прямо викифицировать это предлагаешь! (и вот, кстати, да, положить в вики- было бы отличным вариантом, с комментариями сообщества)

Date: 2016-06-23 06:33 pm (UTC)
From: [identity profile] bbb.livejournal.com
Нет, викифицировать здесь как раз ничего не надо, это же не авторский текст, а только документы. Каждый может их обсуждать где угодно по своему разумению. Если МИД выложит их на своем сайте в виде полных архивных дел, каждое своим файлом - это будет прекрасно. Плюс все желающие смогут сделать бэкапные копии у себя или где-нибудь на файлохранилище; мое любимое - архив.орг

Date: 2016-06-23 06:42 pm (UTC)
From: [identity profile] toshick.livejournal.com
Не буду спорить.
Понятно, что распознать было бы лучше, но качество, по-моему, низковато, а подписи и штампы никакое распознавание не возьмет. Каждое текстовое обсуждение с упоминаниями имен и событий было бы полезно для поиска, даже если бы в нем участвовали совсем трагические сталинисты ;-)

Profile

borislvin

June 2025

S M T W T F S
1234567
891011121314
15161718192021
22232425262728
2930     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 9th, 2025 07:23 am
Powered by Dreamwidth Studios