borislvin ([personal profile] borislvin) wrote2016-06-22 06:51 pm

Архив советской дипломатии времен второй мировой войны

МИД сделал очень-очень большое дело - оцифровал и выложил в сеть огромный массив рассекреченных документов по международным отношениям СССР во время второй мировой войны. По их подсчетам, это "3900 архивных дел общим объемом более 370 тысяч листов".

Лежит это здесь - http://agk.mid.ru

Отсканированы и выложены архивные дела целиком, включая учетные листы, в которых отмечено, кому и когда они выдавались.

Одна проблема - сделано это не очень удобно. Посмотреть дело целиком не получается, можно только постранично.

Допустим, мы идем в раздел "Секретариат Молотова" (http://agk.mid.ru/fonds/sekretariat-v-m-molotova/sekretariat-v-m-molotova), видим список описей (с указанием, сколько дел в каждой описи), открываем опись 5 (http://agk.mid.ru/fonds/sekretariat-v-m-molotova/sekretariat-v-m-molotova/5) и видим список из первых десяти дел описи. Всего дел в этой описи 312, то есть чтобы ознакомиться со всем списком, необходимо пролистать 32 экрана. Допустим, нас интересует дело 34, то есть 6-й том записей бесед Молотова с иностранными представителями. Линк на него выводится на третьем экране (http://agk.mid.ru/fonds/sekretariat-v-m-molotova/sekretariat-v-m-molotova/5/?PAGEN_1=3). Кликнув на него, мы получаем всплывающую картинку первой страницы дела с возможностью навигации по другим страницам.

Мне кажется, было бы еще удобнее, если бы каждое из дел, помимо нынешнего формата, было сведено в отдельный pdf-файл с возможностью нормального просмотра.

Сделать это на самом деле не так уж и сложно, потому что имется прямые линки на картинки.

Скажем, линк на первую страницу нашего дела - http://agk.mid.ru/DATA/6_5_34/00000000.jpg

Соответственно, линк на последнюю страницу этого дела - http://agk.mid.ru/DATA/6_5_34/00000129.jpg

То есть в деле всего 129 страниц.

Имея список картинок, пронумерованных по порядку, сделать из них pdf-файлы очень просто. Но для этого надо, наверно, сперва скачать все эти картинки. Это, думаю, тоже не сложно с учетом прозрачной структуры сайта. Наверно, знающие люди могут сделать для этого соответствующий скрипт. Полученные файлы можно уже будет сортировать, разглядывать и читать в более удобном виде, несмотря на их значительное число.

Более того, полученные сборные файлы дел я бы с удовольствием передал архивистам МИДа, чтобы они их выложили на свой сайт.

Что думают знающие люди, сложно это или нет?

На всякий случай ставлю это под замок, чтобы не спровоцировать админов сайта на усложнение доступа.

[identity profile] khebeb.livejournal.com 2016-06-23 01:27 am (UTC)(link)
есть такой скрипт (или утилитка), им раньше БАН выпотрашивали, пока те не начали усиленно предохраняться
там задают первый и последний файл по именам, остальное высасывается само
Увы, названия не вспомню, хотя он у меня есть (и на руборде есть)

[identity profile] bbb.livejournal.com 2016-06-23 01:46 am (UTC)(link)
В данном случае есть такая проблема, что имя последнего файла неизвестно, потому что нет возможности заранее узнать, сколько в каком деле листов. Ну, или не очень понятно, как это сделать. Возможно, надо задавать скачивание файлов с номерами от 00000000.jpg до, допустим, 00000300.jpg или что-нибудь в этом роде, чтобы было заведомо больше числа листов в самом толстом деле.

[identity profile] khebeb.livejournal.com 2016-06-23 02:43 am (UTC)(link)
вспомнил - Download Master (westbyte.com/dm/). Для наших целей используется портабельная версия, не мусорящая в броузерах (она и официально поставляется, и адаптированная народными умельцами есть; лучшие лекарства - производства PCL, ака ManHunter)
Все есть на руборде
Проблема с именем последнего файла так и решается, методом тыка (см., напр.: bestoloch.com/post60.html); здесь главное - правильно шаблон заполнить, обычно для этого достаточно двух файлов, первого и второго (даже если они запрятаны, то, как правило, видны через "средства разработчика")

[identity profile] bbb.livejournal.com 2016-06-23 03:05 pm (UTC)(link)
А этот Download Master - он умеет сохранять структуру директорий?

[identity profile] khebeb.livejournal.com 2016-06-24 07:42 am (UTC)(link)
Вот не знаю, не сталкивался с такой задачей. Обычно намечали книгу-добычу и все ее картинки скачивали в папку, назначенную у себя на харде для удобства (дальше понятно - файнридером, сохранение в пдф и т.д.)
Теоретически в ДМ много всяких фич, может и такая быть - надо РТФМ внимательно
если нужен пролеченный комплект, могу залить куда-нибудь

[identity profile] toshick.livejournal.com 2016-06-23 08:02 am (UTC)(link)
с ходу я могу это сделать не-промышленным способом - открыть все файлы одного дела в Corel Photo Paint (скриптом, разумеется) и сохранить в pdf
если нужен один файл, то это - разумный вариант, т.к. позволяет на ходу управлять сжатием, например

или надо писать скрипт, который скачает файлы (это тоже несложно), и какой-нибудь программой соединять их в pdf пакетном режиме (и такое есть)

но тут есть тонкость - pdf получится очень большой, для первого же дела - 20-30 МБ, причем пережимать эти изображения не имеет смысла, они уже нормально сжаты
просматривать через сеть pdf такого размера, по-моему, не очень удобно

общий объем обработки по нынешним временам не критичен <100GB

если лучших специалистов не найдется - напиши мне в FB-мессенджере, попробую помочь ;-)

[identity profile] bbb.livejournal.com 2016-06-23 03:04 pm (UTC)(link)
Соединять картиночные файлы данной директории в один pdf может самый простой акробат-про; наверно, можно сделать и скрипт, обходящий директории одну за другой.

Скачивать, собственно, тоже несложно с помощью программ загрузки. Я пользуюсь обычно DownThemAll для Мозиллы (привык к нему), надо будет попробовать Download Master. Там проблема в том, что имена файлов в разных директориях повторяются, то есть тут нужна программа загрузки, способная повторить структуру директорий. Надо будет посмотреть, умеет ли это Download Master.

[identity profile] toshick.livejournal.com 2016-06-23 04:40 pm (UTC)(link)
Да, я сообразил уже потом, я этой программой редко пользуюсь.
Написать скрипт, если не будет другого выхода, тоже не сложно.

[identity profile] bbb.livejournal.com 2016-06-23 03:05 pm (UTC)(link)
Размер же не страшен - 20-30 мегабайт сейчас вполне нормальный вес для оцифрованной книги и не замедляет просмотр.

[identity profile] toshick.livejournal.com 2016-06-23 04:43 pm (UTC)(link)
Если скачать на локальный диск - да.
А вот если оно открывается с интернета, и акробат открывается в окне браузера ...

[identity profile] bbb.livejournal.com 2016-06-23 05:20 pm (UTC)(link)
Ну да, именно это и имеется в виду. Ты смотришь список дел (их заголовки достаточно детальны), находишь то, что тебе интересно, скачиваешь и уже спокойно читаешь, как нормальную книгу.

Кстати, хорошо бы еще сделать сквозной список всех дел, по крайней мере по каждой из описей. Описей там немного, но некоторые из них содержат по несколько сот дел, а пролистывать его можно только экранами по десять штук.

[identity profile] toshick.livejournal.com 2016-06-23 05:24 pm (UTC)(link)
Не знаю, по-моему, такая штука начинает тормозить в самый неожиданный момент.

Ну ты прямо викифицировать это предлагаешь! (и вот, кстати, да, положить в вики- было бы отличным вариантом, с комментариями сообщества)

[identity profile] bbb.livejournal.com 2016-06-23 06:33 pm (UTC)(link)
Нет, викифицировать здесь как раз ничего не надо, это же не авторский текст, а только документы. Каждый может их обсуждать где угодно по своему разумению. Если МИД выложит их на своем сайте в виде полных архивных дел, каждое своим файлом - это будет прекрасно. Плюс все желающие смогут сделать бэкапные копии у себя или где-нибудь на файлохранилище; мое любимое - архив.орг

[identity profile] toshick.livejournal.com 2016-06-23 06:42 pm (UTC)(link)
Не буду спорить.
Понятно, что распознать было бы лучше, но качество, по-моему, низковато, а подписи и штампы никакое распознавание не возьмет. Каждое текстовое обсуждение с упоминаниями имен и событий было бы полезно для поиска, даже если бы в нем участвовали совсем трагические сталинисты ;-)

[identity profile] rudnev.livejournal.com 2016-06-25 03:33 am (UTC)(link)
я написал скрипт, но объяснять вам как установить питон и запускать командную строку наверно слишком сложно. если вы напишите номера желаемых папок и количество страниц, то я могу запустить и выложить готовые пдфы.
т.е. для вышеприведенного примера это выглядело бы

6_5_34 129 output_file_name

имя файла необязательно, я могу использовать номер папки, например

упомянутый файл лежит здесь, гляньте, все ли так.
хттп//bit. ly/ 28RHSmx без пробелов
Edited 2016-06-25 03:53 (UTC)

[identity profile] bbb.livejournal.com 2016-06-25 04:44 am (UTC)(link)
Отлично! Именно то, что надо. Можно пользоваться по-человечески. Вот я, скажем, прямо сейчас пролистал и сходу увидел несколько любопытных моментов, которые не увидишь в стандартной книжной публикации документов.

Но, наверно, стоит пояснить мою мысль. Идея состоит в том, что переделать в подобные файлы каждое из выложенных на сайте дел, то есть почти четыре тысячи дел. Названия директорий можно, видимо, сгенерировать на основании списков дел, в которых указаны их архивные параметры (номер описи, номер дела). А вот сколько страниц в деле - можно установить только вручную, заходя на страницу каждого дела по очереди, с помощью линка на последнюю страницу дела. Вот я и подумал, что, может быть, можно придумать скрипт, который бы просто устанавливал номер последней страницы заведомо большим.

Не знаю, возможно ли такое.

[identity profile] rudnev.livejournal.com 2016-06-26 12:52 am (UTC)(link)
я сделал обработку на последнюю страницу. но диапазоны фондов, описей и дел не очень получается угадывать, они трехзначные и с разрывами, т.е. это под миллиард комбинаций и еще там литеры добавляются. я поставил пока скачиваться 192 и 129 фонды, оно ползет медленно правда, но кое-что уже склеилось. я буду извещать как пойдет. если будет точный список фонд-опись-номер дела то оно конечно легче

[identity profile] rudnev.livejournal.com 2016-06-27 03:23 am (UTC)(link)
в общем, полуавтоматическим способом выгрузилось 2300 документов, остальное, видимо, распылено по мелким описям и надо доводить вручную. я в фоновом режиме попробую в течение недели дособирать остальное.

[identity profile] bbb.livejournal.com 2016-06-27 02:57 pm (UTC)(link)
Мне кажется, что идея скрипта по скачиванию могла бы выглядеть примерно так. Скрипт автоматически генерирует закачки файлов форматов от http://agk.mid.ru/DATA/a_b_c/00000000.jpg до http://agk.mid.ru/DATA/a_b_c/00000300.jpg

300 - это условное максимальное число листов в папке. Думаю, в реальности их меньше, потому что папки физически не очень толстые.

"a", "b", "c" - это переменные.

"a" - это фонд. Всего там имеется десять фондов, их номера не порядковые.

Конкретно, главный фонд в этом архиве - это фонд 6, то есть секретариат Молотова, в котором имеется 7 описей.

На мой взгляд - это самый интересный фонд, и для начала можно ограничиться им, потому что в сталинское время настоящая внешняя политика велась в Москве, а роль посольств была сведена до функций почтового ящика (плюс всякая протокольная и мелкая консульская дребедень).

"b" - это опись. В каждом фонде имеется несколько описей. Их список тоже очень несложно собрать вручную, я это могу сделать без труда.

"c" - это дело. Количество дел в описи может быть очень разным, от нескольких штук до многих сотен.

Думаю, здесь можно вручную просто посмотреть на номера первых и последних дел в каждой описи, чтобы задать формат перебора. Особенно если мы говорим о семи описях молотовского фонда.

После этого скрипт будет делать закачки, перебирая номера дел от первого до последнего, и файлы в каждом деле от первого до трехсотого. Каждая закачка будет формировать директорию с именем a_b_c. Многие директории будут пустыми, но зато ничего не будет пропущено.

Что-то в этом роде.

[identity profile] bbb.livejournal.com 2016-06-27 03:00 pm (UTC)(link)
Я немножко наврал. В молотовском фонде номер 6 - не семь описей, а шестнадцать. Это, думаю, не сильно усложняет дело. Правда, надо учесть, что в номере описи, представляющем собой часть линка, могут иметься кириллические буквы.

[identity profile] rudnev.livejournal.com 2016-06-27 04:20 pm (UTC)(link)
я разобрался в структуре, да, и примерно так и делал.

шестой фонд почти полностью выгружен уже в ту же папку, нумерация файлов совпадает, т.е. это все файлы начинающиеся с 6_.

единственное, - русские буквы кодируются - так же как на сайте, т.е. попадаются файлы типа 6_6%B0D1_5.pdf

порядка трех тысяч документов сейчас. (но поскольку нумерация вразброс, глазами не видно, не пропущено ли чего.) я еще пробегу по числам.

[identity profile] tash-v.livejournal.com 2017-08-12 08:14 am (UTC)(link)
Когда вы работали над этими архивами, вы обратили внимание, что из-за неправильной адресации данных некоторые дела недоступны?
Для примера:
дело "Информация о США." (Фонд 129 Опись 25 Дело 12 Папка 35 01.06.1941 — 31.08.1941) и
дело "Приезд в СССР англо-американской делегации на Московскую конференцию 1. Маршрут, обслуживание, мероприятия по линии ВОКС и Интуриста, списки переводчиков, встреча. 2. Распоряжение СМ СССР № 10710-рс от 21.09.41г. об установке радиоприемников для членов делегаций" (Фонд 129 Опись 25 Дело 12 Папка 140 15.09.1941 — 04.10.1941)
имеют одинаковую адресацию, в связи с чем документы из первого упомянутого дела просто не отображаются.

Если да, то смогли ли вы получить эти документы каким-то "обходным путем" и при положительном ответе - каким именно?

[identity profile] bbb.livejournal.com 2017-08-12 09:32 pm (UTC)(link)
Нет, не обратил. Я этот раздел вообще не проглядывал - как мне показалось, самое интересное сосредоточено в фонде секретариата Молотова. Кроме того, там все вообще неудобно, именно поэтому я и предложил скомпоновать все дела в отдельные pdf-файлы.

Но вот вы братили мое внимание - и я увидел, что там, действительно, какая-то лажа. Похоже, директории сформированы по логике трехуровневой глубины (типа http://agk.mid.ru/DATA/NN_NN_NN), а то, что глубина может доходить до четырех уровней - не предусмотрели.

Можно ли выудить эти сканы с сайта - не знаю, и не уверен, что они вообще были отсканированы и выложены.

Теперь я вижу следы этой лажи и в фонде Молотова.

Например, в директории http://agk.mid.ru/DATA/6_6_17 лежат сканы страниц дела, обозначенного так:

ЗАПИСИ БЕСЕД В.М.МОЛОТОВА С ИНОСТРАННЫМИ ПРЕДСТАВИТЕЛЯМИ. т. 3-й.
Фонд 06 Опись 6 Дело 17 Папка 1
03.06.1944 — 31.07.1944


А в директории http://agk.mid.ru/DATA/6_6_18 лежат сканы страниц дела, обозначенного так:

ЗАПИСИ БЕСЕД В.М.МОЛОТОВА С иностранными представителями т. 4-й.
Фонд 06 Опись 6 Дело 18 Папка 2
02.08.1944 — 31.08.1944


По идее, они охватывают весь период за июнь-август - так сказать, встык. Но остается непонятным, что содержит некая папка 1 дела 18, да и существует ли она вообще?






[identity profile] tash-v.livejournal.com 2017-08-14 02:21 am (UTC)(link)
>По идее, они охватывают весь период за июнь-август - так сказать, встык. Но остается непонятным, что содержит некая папка 1 дела 18, да и существует ли она вообще?

Здесь несколько другая система. Сами дела разделены по принципу Фонд.Опись.Дело., но как отдельные элементы они же объединены в папки. Связано это, по-видимому, с тем, что самих дел много, но они содержат разное количество страниц, от нескольких страниц до пары сотен страниц. В результате, для более-мене компактного хранения пришлось дела поместить в общие папки. Поэтому нет папки 1 дела 18, но есть папка 1 с делами от 9 по 17, папка 2 с делами от 18 до 23, папка 3 с делами от 24 по 31, и т.д.

Почему же возникла такая система? ИМХО, дело в том, что перед нами не те единицы хранения, которые реально находятся в архиве МИД, а дела, которые были скомплектованы для последующего опубликования в печати или просто для открытого доступа. Этим, кстати, хорошо объясняется и факт наличия номера "первичного" дела, находящемся на большинстве аннотаций, помещенным на первую страницу обложки того или иного дела.

[identity profile] bbb.livejournal.com 2017-08-14 02:31 am (UTC)(link)
Спасибо, теперь понял. Я не задумывался над этим, потому что, признаюсь, вообще не обращал внимания на нумерацию папок, а только на фонд, опись и дело.

В этом смысле нумерацию по папкам в данном представлении можно вообще считать излишний.

В любом случае логика требовала бы, чтобы все это перечислялось в другом порядке - фонд, опись, папка, дело. То есть чтобы каждый последующий элемент рубрикации был частью более общего предыдущего.