borislvin | Архив советской дипломатии времен второй мировой войны

МИД сделал очень-очень большое дело - оцифровал и выложил в сеть огромный массив рассекреченных документов по международным отношениям СССР во время второй мировой войны. По их подсчетам, это "3900 архивных дел общим объемом более 370 тысяч листов".

Лежит это здесь - http://agk.mid.ru

Отсканированы и выложены архивные дела целиком, включая учетные листы, в которых отмечено, кому и когда они выдавались.

Одна проблема - сделано это не очень удобно. Посмотреть дело целиком не получается, можно только постранично.

Допустим, мы идем в раздел "Секретариат Молотова" (http://agk.mid.ru/fonds/sekretariat-v-m-molotova/sekretariat-v-m-molotova), видим список описей (с указанием, сколько дел в каждой описи), открываем опись 5 (http://agk.mid.ru/fonds/sekretariat-v-m-molotova/sekretariat-v-m-molotova/5) и видим список из первых десяти дел описи. Всего дел в этой описи 312, то есть чтобы ознакомиться со всем списком, необходимо пролистать 32 экрана. Допустим, нас интересует дело 34, то есть 6-й том записей бесед Молотова с иностранными представителями. Линк на него выводится на третьем экране (http://agk.mid.ru/fonds/sekretariat-v-m-molotova/sekretariat-v-m-molotova/5/?PAGEN_1=3). Кликнув на него, мы получаем всплывающую картинку первой страницы дела с возможностью навигации по другим страницам.

Мне кажется, было бы еще удобнее, если бы каждое из дел, помимо нынешнего формата, было сведено в отдельный pdf-файл с возможностью нормального просмотра.

Сделать это на самом деле не так уж и сложно, потому что имется прямые линки на картинки.

Скажем, линк на первую страницу нашего дела - http://agk.mid.ru/DATA/6_5_34/00000000.jpg

Соответственно, линк на последнюю страницу этого дела - http://agk.mid.ru/DATA/6_5_34/00000129.jpg

То есть в деле всего 129 страниц.

Имея список картинок, пронумерованных по порядку, сделать из них pdf-файлы очень просто. Но для этого надо, наверно, сперва скачать все эти картинки. Это, думаю, тоже не сложно с учетом прозрачной структуры сайта. Наверно, знающие люди могут сделать для этого соответствующий скрипт. Полученные файлы можно уже будет сортировать, разглядывать и читать в более удобном виде, несмотря на их значительное число.

Более того, полученные сборные файлы дел я бы с удовольствием передал архивистам МИДа, чтобы они их выложили на свой сайт.

Что думают знающие люди, сложно это или нет?

На всякий случай ставлю это под замок, чтобы не спровоцировать админов сайта на усложнение доступа.

Flat | Top-Level Comments Only

From:

rudnev.livejournal.com

я написал скрипт, но объяснять вам как установить питон и запускать командную строку наверно слишком сложно. если вы напишите номера желаемых папок и количество страниц, то я могу запустить и выложить готовые пдфы.
т.е. для вышеприведенного примера это выглядело бы

6_5_34 129 output_file_name

имя файла необязательно, я могу использовать номер папки, например

упомянутый файл лежит здесь, гляньте, все ли так.
хттп//bit. ly/ 28RHSmx без пробелов

Edited Date: 2016-06-25 03:53 am (UTC)

From:

bbb.livejournal.com

Отлично! Именно то, что надо. Можно пользоваться по-человечески. Вот я, скажем, прямо сейчас пролистал и сходу увидел несколько любопытных моментов, которые не увидишь в стандартной книжной публикации документов.

Но, наверно, стоит пояснить мою мысль. Идея состоит в том, что переделать в подобные файлы каждое из выложенных на сайте дел, то есть почти четыре тысячи дел. Названия директорий можно, видимо, сгенерировать на основании списков дел, в которых указаны их архивные параметры (номер описи, номер дела). А вот сколько страниц в деле - можно установить только вручную, заходя на страницу каждого дела по очереди, с помощью линка на последнюю страницу дела. Вот я и подумал, что, может быть, можно придумать скрипт, который бы просто устанавливал номер последней страницы заведомо большим.

Не знаю, возможно ли такое.

From:

rudnev.livejournal.com

я сделал обработку на последнюю страницу. но диапазоны фондов, описей и дел не очень получается угадывать, они трехзначные и с разрывами, т.е. это под миллиард комбинаций и еще там литеры добавляются. я поставил пока скачиваться 192 и 129 фонды, оно ползет медленно правда, но кое-что уже склеилось. я буду извещать как пойдет. если будет точный список фонд-опись-номер дела то оно конечно легче

From:

rudnev.livejournal.com

в общем, полуавтоматическим способом выгрузилось 2300 документов, остальное, видимо, распылено по мелким описям и надо доводить вручную. я в фоновом режиме попробую в течение недели дособирать остальное.

From:

bbb.livejournal.com

Мне кажется, что идея скрипта по скачиванию могла бы выглядеть примерно так. Скрипт автоматически генерирует закачки файлов форматов от http://agk.mid.ru/DATA/a_b_c/00000000.jpg до http://agk.mid.ru/DATA/a_b_c/00000300.jpg

300 - это условное максимальное число листов в папке. Думаю, в реальности их меньше, потому что папки физически не очень толстые.

"a", "b", "c" - это переменные.

"a" - это фонд. Всего там имеется десять фондов, их номера не порядковые.

Конкретно, главный фонд в этом архиве - это фонд 6, то есть секретариат Молотова, в котором имеется 7 описей.

На мой взгляд - это самый интересный фонд, и для начала можно ограничиться им, потому что в сталинское время настоящая внешняя политика велась в Москве, а роль посольств была сведена до функций почтового ящика (плюс всякая протокольная и мелкая консульская дребедень).

"b" - это опись. В каждом фонде имеется несколько описей. Их список тоже очень несложно собрать вручную, я это могу сделать без труда.

"c" - это дело. Количество дел в описи может быть очень разным, от нескольких штук до многих сотен.

Думаю, здесь можно вручную просто посмотреть на номера первых и последних дел в каждой описи, чтобы задать формат перебора. Особенно если мы говорим о семи описях молотовского фонда.

После этого скрипт будет делать закачки, перебирая номера дел от первого до последнего, и файлы в каждом деле от первого до трехсотого. Каждая закачка будет формировать директорию с именем a_b_c. Многие директории будут пустыми, но зато ничего не будет пропущено.

Что-то в этом роде.

From:

bbb.livejournal.com

Я немножко наврал. В молотовском фонде номер 6 - не семь описей, а шестнадцать. Это, думаю, не сильно усложняет дело. Правда, надо учесть, что в номере описи, представляющем собой часть линка, могут иметься кириллические буквы.

From:

rudnev.livejournal.com

я разобрался в структуре, да, и примерно так и делал.

шестой фонд почти полностью выгружен уже в ту же папку, нумерация файлов совпадает, т.е. это все файлы начинающиеся с 6_.

единственное, - русские буквы кодируются - так же как на сайте, т.е. попадаются файлы типа 6_6%B0D1_5.pdf

порядка трех тысяч документов сейчас. (но поскольку нумерация вразброс, глазами не видно, не пропущено ли чего.) я еще пробегу по числам.