[personal profile] borislvin
Обнаружил, что в глобальном, всеобщем стремлении к унификации и стандартизации имеется дырка. Конкретно, речь идет о названиях файлов в электронных библиотеках книг и статей.

Когда я решил каталогизировать свою бумажную библиотеку, то при выборе формата записей исходил из традиционных стандартных библиографических форматов. Единого библиографического стандарта, конечно, не существует, но зато есть несколько доминирующих, которые я адаптировал под свои предпочтения. То, что получилось, вполне меня удовлетворяет.

Существенно позже, где-то пару лет назад, я понял, что мне необходимо привести в порядок и архив электронных публикаций, включая и скачанные из интернета, и полученные по личным каналам, и изготовленные мной самостоятельно. Интернет - штука живая, не очень предсказуемая, и хотя общее правило "что попало в интернет, то уже не пропадет", как правило, действует (хотя и не всегда), конкретный адрес искомого может измениться до неузнаваемости. Особенно это касается pdf- и dlvu-файлов, прежде всего крупных, факсимильных. Соответственно, практически все, что мне интересно, я стараюсь сохранить локально, и прежде всего это относится к полнотекстовым книжным и журнальным публикациям.

И вот тут главной засадой оказывается полнейший разнобой в наименовании соответствующих файлов. Ни малейшего намека на какой-нибудь стандарт - нет. В лучшем случае более или менее сохраняется определенная однородность и логика наименования файлов в пределах одного сайта. Понятно, что хранить это все в общей куче с использованием "родных" названий файлов значит воспроизводить тот же хаос в локальных масштабах. В этом хаосе невозможно ничего найти, при этом один и тот же файл может оказаться сохраненным множество раз, но под разными именами.

В итоге, конечно, пришлось методом проб и ошибок выработать собственную систему наименования таких файлов.

Но вот интересно - неужели никто не предложит если не единого стандарта, то хотя бы несколько общих принципов для этого дела?

Date: 2013-11-30 06:18 am (UTC)
From: [identity profile] yms.livejournal.com
Теоретически, самое правильное решение - отделить именование файлов от библиографической и прочей информации и вести базу данных с табличкой соответствия имён и библиографии, с поиском. Но нужен соответствующий софт.
Не то чтобы это была дырка, имя файла - скорее его технический атрибут, и если пытаться нагружать его прикладным смыслом, всегда столкнешься с ограничениями и недостатками.

Date: 2013-11-30 07:01 am (UTC)
From: [identity profile] birdwatcher.livejournal.com
Да, и примеры тому - как работают itunes с музыкальными альбомами или киндл с книгами. Видимых имен файлов нет, и находить требуемое можно только через поиск по тому или иному критерию.

Date: 2013-11-30 07:41 pm (UTC)
From: [identity profile] bbb.livejournal.com
Почему это теоретически самое правильное? Я не понимаю.

Вот, например, в обычных бумажных библиотеках - существует механизм библиографической и прочей информации, но при этом никто же не отменяет общепринятых стандартов, согласно которым на обложке книги на видном месте указывается автор и заголовок, а внизу обычно указывается издатель, и т.д. Хотя можно на обложке ставить просто случайный номер, а искать книгу по каталогу.

То есть одно другого никак не отменяет.

Более того - даже в области программирования видно, что программисты сплошь и рядом дают своим файлам и директориям "значащие" названия. Скажем, главный исполняемый файл, которым запускается программа, чаще всего называют или просто именем программного продукта, или какой-то аббревиатурой. Хотя, казалось бы, совсем уж "технический атрибут".

Насчет "ограничений и недостатков" - ну так в этом и состоит смысл стандарта как общепринятого самоограничения. Скажем, когда-то была традиция заголовки книг делать очень длинными ("Жизнь и удивительные приключения Робинзона Крузо, моряка из Йорка, прожившего двадцать восемь лет в полном одиночестве на необитаемом острове у берегов Америки близ устьев реки Ориноко, куда он был выброшен кораблекрушением, во время которого весь экипаж корабля кроме него погиб; с изложением его неожиданного освобождения пиратами, написанные им самим"), и в этом тоже был свой смысл - читатель сразу мог понять, о чем примерно книга. Но так как подобные заголовки были совершенно неудобоваримы в переписке, цитировании, составлении списков, каталогов и т.д., то стандартом стал заголовок короткий, в несколько слов, не заменяющий собой аннотацию. Или, например, неудобство перечисления многочисленных авторов привело появлению стандарта, при котором на титульной странице авторы указываются только в том случае, если их число не превышает некоего порогового значения - скажем, трех или четырех.

Так что я бы не сводил вопрос о стандартизации нейминга к вопросу об организации файловой системы и каталогизации. Это разные вещи, обе полезные и друг другу только помогающие.

Можно поставить вопрос - почему стандартизации нейминга до сих пор нет.

У меня есть два предположения.

Первое - что по-настоящему массовый обмен содержательными не-программными файлами (то есть картинками, текстами, видеофайлами) сложился совсем недавно, особенно в том, что касается больших файлов заранее стандартизированного содержания. Под последним я имею в виду то, что от книжного файла ожидается его максимальное совпадение с бумажной книгой или, по крайней мере, с неким базовым файловым документом, желательно постраничное и факсимильное. Пока число таких файлов измерялось сотнями - можно было хранить их просто навалом, случайным образом. Сейчас их, благодаря оцифровке и т.д. - миллионы.

Второе - что оборот таких файлов оказался под сильнейшим колпаком копирастии. Соответственно, файлообменная деятельность проходит на грани нелегальности, в ней высоко ценится анонимность и т.д., поэтому спокойное согласование стандартов оказывается искусственно загнанным в угол. Хотя и при этом виден прогресс: так, на рутрекере выработали и стараются соблюдать некие рудиментарные стандарты нейминга.

Date: 2013-11-30 06:25 am (UTC)
From: [identity profile] yan.livejournal.com
Принцип-то есть, но он, как обычно, решает эту проблему, выставляя ей статус Closed: Not An Issue; задача есть, но другая. Гугль, например, как мы знаем, предлагает не выбирать имена, а искать. С монолитными документами при этом есть понятная трудность выбора термина, слов-то нету, и вот эту задачу решать более или менее интересно (и решение существует, в конце концов).

Date: 2013-11-30 06:34 am (UTC)
stas: (Default)
From: [personal profile] stas
Это будет довольно сложно - такой стандарт сделать, чтобы всех устроил. Кому имя надо (да ещё на разных языках), кому библиотечный код, кому - локальный, кому - ISBN...

Date: 2013-11-30 07:07 am (UTC)
From: [identity profile] lev-usyskin.livejournal.com
хороший повод для госфинансирования

Date: 2013-11-30 07:12 am (UTC)
stas: (Default)
From: [personal profile] stas
Было бы финансирование, повод всегда найдётся.

Date: 2013-11-30 07:31 am (UTC)
From: [identity profile] lev-usyskin.livejournal.com
вы как не в россии

вовсе - наоборот

Date: 2013-11-30 06:51 am (UTC)
From: [identity profile] cass1an.livejournal.com
Многократное сохранение не такая уж большая проблема, существуют утилитки, ищущие дубликаты. Но вот поиск действительно становится очень сложным.

Date: 2013-11-30 06:55 am (UTC)
From: [identity profile] ixl-ru.livejournal.com
Для хозяев сайтов с публикациями это вечная проблема. С одной стороны, полные имена лучше ищутся поисковыми системами и понятнее для человека. С другой, не все ftp-серверы понимают кириллицу или пробелы в именах файлов, так что с файлом "Ivanov.pdf" заведомо будет меньше проблем, чем с файлом "Иванов. В.В. Название книги. 2012.pdf"

Кроме того, если уже разместил файлы на сайте, переименовывать их нежелательно, так как сдохнут внешние ссылки на старые адреса файлов.

Date: 2013-11-30 07:46 am (UTC)
From: (Anonymous)
Делайте ссылку на поисковый запрос, а не на файл.
А поисковая система пусть понимает транслит.

Date: 2013-11-30 07:03 am (UTC)
From: [identity profile] lev-usyskin.livejournal.com
и этот человек считает себя либералом!

Date: 2013-11-30 03:10 pm (UTC)
From: [identity profile] bbb.livejournal.com
Может быть, вы понимаете слово "стандарт" - исключительно как "введенный государством и принудительно объявленный обязательным"?

Date: 2013-11-30 07:44 am (UTC)
From: (Anonymous)
Это проблема СУБД, а не пользователя.
Пользователь вообще не должен знать, что такое "файл", хотя формат (любой) всё равно должен быть по возможности человекочитаемым.

Возьмите для библиографической СУБД fbreader.

Если есть необходимость всё же переименовать что-то (не только каталогизация, но и распространение файлов в торрентах или dc+ каком-нибудь напимер), то возьмите за основу например т.н. "vancouver system" стиль оформления цитат.

формат примерно таков: Имена и инициалы авторов через запятую без точек. Точка. Название без спецсимволов. Точка. Издатель. Точка. Дата издания. Точка с запятой. Страницы, на которые идёт ссылка.

Собственно даже страницы можно не отрезать от правил. Мало ли книга не полная.

Date: 2013-11-30 08:10 am (UTC)
From: (Anonymous)
Object store + metadata. Файловая система как база данных - это пережитки мрачного прошлого.

Date: 2013-11-30 08:23 am (UTC)
wizzard: (photo24)
From: [personal profile] wizzard
1. есть DOI

2. универсальной системы нэйминга нету.

Date: 2013-11-30 08:45 am (UTC)
From: [identity profile] conceptualist.livejournal.com
А не расскажете, какая у вас в итоге система именования файлов? Не исключено, что глобальная стандартизация начнется как раз с заимствования этой системы некоторыми вашими френдами.

Date: 2013-11-30 10:21 am (UTC)
From: [identity profile] alex-k.livejournal.com
я даже больше скажу... но чуть позже :) (чуть позже = несколько месяцев)

Date: 2013-11-30 08:06 pm (UTC)
From: [identity profile] bbb.livejournal.com
Я пришел к ней не сразу, а постепенно. Задача была в том, чтобы сделать систему максимально интуитивной, простой и унифицированной. То есть чтобы соответствие между книгой и названием файла было единым (иначе говоря, если я по забывчивости захочу поместить в свою электронную библиотеку ту же самую книгу, я увижу, что файл с соответствующим именем уже имеется).

Получилось примерно следующее.

Из не-буквенных символов, включая знаки препинания, используется только дефис, то есть короткая черточка "-", и знак апострофа. Запятые убираются без следа. Точки, двоеточия, точки с запятой, скобки - все заменяются дефисом в окружении пробелов.

Используются только базовые буквы английского и русского алфавитов (без буквы ё). В других алфавитах диакритические знаки убираются. Специфические буквы, похожие на базовые латинские, но с ними не совпадающие (прежде всего разные варианты буквы "i" в украинском, турецком и т.д.) заменяются на стандартные латинские.

В английских названиях выбрасываются артикли.

Если имеется автор, то имя файла начинается с его фамилии или фамилий всех авторов (в том случае, если их число не превышает четырех). Фамилии идут подряд через пробел. После фамилий идут два дефиса подряд, после чего идет заголовок. В заголовках английских книг капиталиризируются все слова, кроме предлогов.

После заголовка могут идти служебные отметки, число которых очень невелико. Они всегда идут заглавными буквами. Например - DOUBLE (если книга отсканирована "в разворот", по две странице на одном экране; как правило, я такие файлы разрезаю пополам и перевожу в нормальный вид). Или - NNN (так я помечаю pdf-файлы, не являющиеся факсимильной копией книги). Или - NO TITLE (бывают такие книжные файлы, где заглавная страница и выходные данные отсутствуют). И т.д.

Да, еще - если книга выходила несколькими изданиями, отличающимися друг от друга, то после заголовка, через дефис, идет соответствующее указание.

Вроде все. Может быть, на первый взгляд кажется чрезмерно сложным, но на самом деле это очень интуитивно и не требует никаких усилий. Вот, например, что получается в итоге:

Agarossi Zaslavsky -- Stalin and Togliatti - Italy and Origins of Cold War.pdf
Behind Bamboo Curtain - China Vietnam and World beyond Asia.pdf
Germany and Second World War - volume IV - Attack on Soviet Union.pdf
Hawtrey -- Gold Standard in Theory and Practice.pdf
Друян -- Очерки по истории денежного обрадения России в XIX веке.pdf
Международные отношения в эпоху империализма - серия III - том 1.pdf


Date: 2013-12-01 08:47 am (UTC)
From: [identity profile] conceptualist.livejournal.com
Спасибо! Действительно, выглядит неплохо. Так и буду делать :)

Date: 2013-12-01 01:27 pm (UTC)
From: [identity profile] alex-k.livejournal.com
на мой вкус, не хватает года издания (который я ставлю после фамилии авторов, ну и плюс "экономлю" на пробелах вокруг дефисов и после стандартных сокращений: vI ; т1 ; chI-VII) [это пока эпизодически (при скачивании и изготовлении), так как массовая стандартизация заголовков файлов книг и статей еще не началась, но планируется в ближайшие месяцы.]

и еще есть ли какая-то метка: книга или статья? Или это считается неважным?

А как вы поступаете в случае однофамильцев: FriedmanM ; FriedmanD ; ИвановА ; ИвановБ -- это пока фантазия, поскольку у вас запятых нет как класса.

P.S. Артикли в английском жалко :) Беспокоюсь об артиклях в немецком и французском. Если серьезно -- они тоже убираются?

Date: 2013-12-01 04:30 pm (UTC)
From: [identity profile] bbb.livejournal.com
Ну так я же не предлагаю свою систему как обязательный стандарт :)

Что касается года издания, то он, естественно, отражен у меня в бумажном каталоге (то есть в огромном вордовском файле), наряду с другими базовыми выходными данными - издательством, городом (за исключением английских книг), иногда именами редакторов и составителей. В имени файла я год указываю в тех редких случаях, когда у меня появляются два книжных файла с одинаковыми названиями, но разными годами издания, причем индикатор типа "издание второе, исправленное и дополненное" отсутствует.

Однофамильцы у меня идут подряд. Пока вроде бы не попадались книги однофамильцев с идентичными названиями :)

Пробелы вокруг дефисов - это сознательный выбор. Сперва я их не ставил, но обнаружил, что очень замедляется прочтение имени и проглядывание директорий. Так сказать, глазу неудобно.

Книги и статьи у меня хранятся в совершенно различных директориях, поэтому пока не возникло необходимости размечать их по-разному. Хотя проблема есть и, возможно, придется как-то ее решать. Как именно - еще не придумал. В принципе, можно ставить особую отметку в начале или в конце. Если ставить в начале - поломается алфавитность просмотра. Если в конце - плохо видно.

Кстати, отметку в начале я ставлю в особом каталоге сохраненных диссертаций; выглядит примерно так:

DISS - Пупкин -- Некоторые проблемы шестого места как места находящегося между пятым и седьмым.pdf

Date: 2013-12-01 07:00 pm (UTC)
From: [identity profile] alex-k.livejournal.com
==Ну так я же не предлагаю свою систему как обязательный стандарт :)

А я, наоборот, пытаюсь, посмотреть, как мог бы выглядеть гипотетический стандарт. И заглавие постинга к тому подталкивает, и реакция ваших читателей, и, самое главное, мои собственные планы. Я собираюсь делать некий онлайн-каталог, где будут в том числе и ссылки на имеющиеся файлы в сети, причем, возможно, будет иметь смысл их централизовать и перевыложить на каком-то одном внешнем ресурсе (соответственно сменив название файла, чтобы (заодно) у всех скачивающих было удобное единое название). Если же перевыкладку не делать, то есть другое решение: каталог будет иметь функцию экспорта библиографических списков, так что можно будет настроить генерирование рекомендуемого названия файла: скопипейстил и заменил у скачанного файла.

Сайт-каталог будет делаться, скорее всего, на базе программы zotero, поскольку всё уже написано, а у них открытый код. Правда с программистами предметно еще не разговаривал, насколько это возможно. (В отличие от конкурента, программы Mendeley, у Zotero открытый код и возможность автономного ведения каталога на своем компьютере (Zotero Standalone)).

==Что касается года издания [в названии файла]...

Тут, с одной стороны, действительно, вопрос вкуса (может казаться лишней информацией). С другой -- принятый способ цитирования [Пупкин 2013] (когда, например, встретил где-то цитату и решил либо ее проверить, либо посмотреть контекст), подталкивает указывать год в названии файла (ну и некоторые другие соображения -- вырабатывается привычка мыслить таким образом об источниках). Здесь возникает дилемма: если указывать год после названия, то его зачастую просто не будет видно в "проводнике", а если после фамилий авторов, то нарушается упорядочивание по алфавиту, что с книгами не столь критично (поскольку книг у большинства авторов немного и они все видны, а в случае статей может быть по-разному). Меня, например, интересует всё написанное Мизесом, Хайеком и Ротбадом (у последнего -- экономтеоретическое) -- у всех десятки статей.

==Однофамильцы у меня идут подряд.

Тогда их работы идут вперемешку, например как было бы в случае Джеймса Милля и Джона Стюарта Милля, или братьев Мизесов, или братьев Поланьи (которые по-русски "удачно" разделены на "Поланьи" и "Полани" :)

==Книги и статьи...

Возможно, имеет смысл ставить метку после фамилии автора -- тогда сохранится и алфавитное упорядочивание по авторам, и внутри автора возникнет две группы [автор--название], упорядоченные по алфавиту, -- книги и статьи. Метку из одного символа можно поставить между двумя дефисами, отделяющих автора от названия: -1- ; -2- )

* * *

И в заключение: когда дело дойдет до практической реализации, я планирую обратиться к коллективному разуму френдов.

Date: 2013-12-01 10:58 pm (UTC)
From: [identity profile] bbb.livejournal.com
Насчет года выхода.

Сам я таким образом никогда не цитирую (Пупкин 2013) и считаю этот способ очень неудобным, потому что он требует двойных усилий: первая отсылка ведет от текста к "Пупкин 2013", после чего необходимо второй раз лезть в другое место и искать, что на самом деле это означает. Фамилия + название гораздо удобнее. В смысле, конечно - гораздо удобнее ДЛЯ МЕНЯ. Да еще сплошь и рядом возникают "Пупкин 2013а", "Пупкин 2013б" и т.д., что создает совсем уж неудобную путаницу.

Кроме того, я пока не могу придумать, куда именно в имя файла вставлять год, причем так, чтобы он не смешивался с заголовком, в котором номер года тоже может содержаться. Особенно с учетом того, что вовсе не все названия начинаются с имени автора.

Насчет однофамильцев.

Ну да, файлы с авторами-однофамильцами в директории могут идти вперемешку. Опять же, меня это пока не беспокоит, потому что их не так уж много. Это означает, что список всех книг авторства "Смита" или "Кузнецова" охватывается одним взглядом на экран и не требует перелистывания - то есть я сразу вижу, что именно мне надо.

Возможно, что для электронных библиотек индустриальных масштабов, с десятками и сотнями тысяч файлов, это станет серьезным фактором, требующим введения специальных отметок и методов. Тут надо иметь в виду, что авторы легко могут быть не просто однофамильцами, но даже полными тезками.

Книги и статьи.

Вариант с дополнительным символом возможен, но, опять же, надо учитывать, что книги (а в наше время и статьи) могут вообще записываться только по названию, без имени автора.

В настоящее время я еще не завершил обработку журнальных статей своего архива. Когда завершу, то, видимо, или совмещу с архивом книг, или буду хранить их в двух соседних директориях. Это позволяет делать быстрый поиск в директории более высокого уровня, который (поиск) выдаст результаты сразу из двух директорий. Собственно, я уже и сейчас так делаю, потому что по историческим и прочим соображениям храню отдельно книги, скачанные откуда-то, от книг, отсканированных мною самолично...

Date: 2013-11-30 09:03 am (UTC)
From: [identity profile] g-sht.livejournal.com
А Вы не пробовали программу "Papers"?
http://www.papersapp.com/
Это, конечно, больше под статьи заточено, но думаю и под ентгт может подойти.
С тех пор, как я её завёл, файлы переименовывать "под единую систему" перестал.

Date: 2013-11-30 10:39 am (UTC)
From: [identity profile] allocco.livejournal.com
Присоединюсь к мнению в комментах выше, что имя файла — лишь техническая деталь. Чаще всего вы всё же ищете какой-то файл по некоторым критериям, и имя файла не всегда может это отразить.

Скажем, я пользуюсь расширением org-mode для текстового редактора emacs как раз для того, чтобы иметь каталог файлов на жёстком диске. В основном это книги и статьи по физике/математике. Каталог устроен в виде текстового файла, каждая запись в котором залинкована с соответствующим файлом pdf/djvu. К каждой записи есть несколько полей: имя автора (авторов), название, год выхода и т.д. Можно приделать сколько угодно ключевых слов и искать по ним. Более того, если вы хотите сделать какие-то выписки из файла или поставить закладки на какую-нибудь страницу, это можно сделать прямо там. Получается такой каталог со всем необходимым. Имя файла в такой конструкции никакой роли вообще не играет.

Date: 2013-11-30 07:42 pm (UTC)
From: [identity profile] bbb.livejournal.com
Так как много юзеров высказали примерно одну и ту же мысль, то я постарался ответить на нее в развернутом виде выше, в комменте к самому первому комменты подобного содержания.

Date: 2013-11-30 11:14 am (UTC)
From: [identity profile] best-virtual.livejournal.com
bbb001.txt
bbb002.txt

Date: 2013-12-01 03:49 pm (UTC)
From: [identity profile] di09en.livejournal.com
Ну, в порядке то ли оффтопика, то ли метода А.Ф.Македонского по развязыванию узлов.
То есть, не про то, но тоже интересно.
Исходя из намерения не скапливать великий контент на харде, а выкладывать его во всеобщий доступ.
То есть, ища не форму имени файла, а форму юзер-френдли УРЛа (и шире - УРИ)
Вот один из вариантов, американский: http://cts-demo.appspot.com/demo/examples
"Шекспир. Сонет 35. Строки 1-4" шифруется как urn:cts:demo:shakespeare.sonnets:35.1-35.4
А вот мой вариант: http://istnet.org
http://pushkin.some-library.ru/4/#32
http://vedomosti.sssr.su/1991/52/#1531
http://tolstoj.su/1/#01-2

Profile

borislvin

January 2026

S M T W T F S
    123
45 6 7 8 910
11121314151617
18192021222324
25262728293031

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 17th, 2026 05:14 am
Powered by Dreamwidth Studios