[personal profile] borislvin
Все-таки революция совершается прямо на наших глазах. Например, ютуб уже, наверно, назад в кувшин не затолкать - то есть создана универсальная система бесплатного и мгновенного доступа к музыкальным клипам. Конечно, их качество остается намного меньше полноценного сидишного, но это ничего: те, кто не готов потратить деньги ради продукта максимально высокого качества, не отсекаются от доступа к музыке вообще.

То же и с книгами. pdf и djvu - замена настоящей книги для того, у кого нет времени, денег, места в доме и т.д. для приобретения профессионально напечатанного и переплетенного издания.

В рамках этой общей революции произошел совершенно неожиданный переворот в смысле доступности старых книг. Если еще вчера-позавчера книга, изданная в последние, скажем, сорок лет была еще более или менее доступна широкому читателю (магазин, массовая библиотека), то с изданиями столетней давности было намного сложнее - они хранились только в крупнейших библиотеках, часто с ограниченным доступом читателей. Теперь, в результате гигантского проекта гугля, буквально миллионы изданий до 1922 года выложены онлайн, в том числе многие тысячи книг и журналов на русском языке. Вот год назад я случайно обнаружил сборники РИО, а это только малая часть выложенного.

Параллельно идет массовый и децентрализованный процесс оцифровывания книг индивидуальными энтузиастами, многие из которых размещаются на крайне неудобных коммерческих сайтах типа rapidshare.com или распространяются по файлообменным системам типа torrents.ru

И там, и там имеются проблемы. Доступ к оцифрованным книгам гугля, похоже, сильно ограничен территориально - вне США он оказывается намного меньшим, чем в США. Хранение книг на коммерческих файлохранилищах, как я понимаю, ограничено по срокам и трудностью рубрикации и поиска.

Поэтому мне кажется особо перспективным проект Text Archive - http://www.archive.org/details/texts

Там любой может зарегистрировать аккаунт и выкладывать тексты изданий. Можно это делать целыми коллекциями. Например, кто-то выложил т.н. "André Savine Collection" - коллекцию белогвардейских и власовских изданий, хранящуюся в библиотеке университета Северной Каролины в Чепел Хилл (http://www.archive.org/search.php?query=collection%3A%22savmil%22). А какой-то юзер tpb подряд копирует туда все (все ли?) книги, выложенные в рамках проекта гугля. Не имею представления, что это за юзер такой - живой человек, группа людей или просто робот. В частности, благодаря этому не то человеку, не то учреждению, не то роботу туда попали все те же тома РИО.

Среди выложенных книг имеются и изданные относительно недавно - скажем, имеются академические издания 60-х и 70-х годов.

Я в виде эксперимента зарегистрировал там аккаунт и выложил несколько публикаций. Похоже, делается это очень легко. Если выкладывать djvu-файлы, то они так и остаются, больше ничего к ним не добавляется, а если выкладывать pdf-файлы, то они, помимо того, что оказываются доступными для читателя, попадают и в какие-то внутренние шестеренки проекта, в результате чего параллельно с ними генерируются - 1) djvu-версии той же публикации, 2) текстовая расшифровка и 3) "Flip Book", то есть опция чтения книги с экрана с виртуальным перелистыванием страниц по одной или сразу по многу. Опять же, не уловил, кто это делает - робот ли или какие-нибудь живые энтузиасты. Эксперимент показал, что расшифровка английского текста там достаточно эффективна, русский текст превращается в абракадабру и пользоваться им бессмысленно, а флип-книги из моих файлов почему-то не получились - линки есть, а книгу не видно.

Система не дает возможности полнотекстового поиска, имеющегося в гугле, а ограничивает его названием, автором и ключевыми словами. Ключевые слова проставляет владелец аккаунта, поэтому надо не жалеть и расставлять их побольше и поаккуратнее.

Заметил еще, что система плохо распознает языки. Русские тексты она атрибутирует то как чешские, то как словенские, так что через некоторое время приходится исправлять этот параметр вручную.

Как мне показалось, в среде русских пользователей этот ресурс используется совершенно недостаточно. Думаю, что тем, кто самолично занимаются полезным делом оцифровки книг и журналов, следует как минимум дублировать свои выкладывания на этот ресурс (если, конечно, они не озабочены генерированием трафика на свои собственные сайты) - для надежности, удобства и т.д. В первую очередь это относится к тем, кто оцифровывает издания относительно редкие - старинные, специализированные, выпущенные некоммерческими, немассовыми, академическими и т.д. издательствами, отсутствующие в текущей продаже, адресованные сравнительно узкому кругу читателей. Выкладывание таких изданий связано, судя по всему, с меньшими шансами конфликта по поводу т.н. "копирайта".

Date: 2009-05-18 10:48 pm (UTC)
From: [identity profile] bbb.livejournal.com
Вообще-то "tbp" - это распространенная аббревиатура знаменитого The Pirate Bay. Есть ли между ними связь - не знаю. Вот тут пишут, что, де, все это делается с согласия архив.орг и участвующих библиотек - http://www.haloscan.com/comments/onthemainline/5363048587234159691/

Profile

borislvin

January 2026

S M T W T F S
    123
45 6 7 8 910
11121314151617
18192021222324
25262728293031

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 10th, 2026 12:49 am
Powered by Dreamwidth Studios