borislvin

You're viewing

borislvin's journal
Create a Dreamwidth Account Learn More

Reload page in style: site light

borislvin

Бесплатная программа для редактирования pdf-файлов таки обнаружена - http://www.pdfill.com/pdf_tools_free.html

Flat | Top-Level Comments Only

From:

bbb.livejournal.com

А что вы понимаете под "разобрать книгу на части"? У меня просто за некое количество лет накопилось некое количество отксеренных постранично книг, и я взялся их для собственного архива оцифровать максимально простым и незатейливым способом.

From:

vvalex.livejournal.com

Тогда мои инструкции - самый что ни на есть незатейливый простой и практически автоматизированный вариант.

Разобрать книгу на части - это создание "снимков" (screenshot) страницы - аналога скана.
В процессе этого Вы получите набор графических файлов, с которыми потом продолжите работать.
Tiff - для максимального качества.
В любом случае, создание книги в формате djvu приведет к ухудшению качества (но к уменьшению объема в десятки раз), поэтому всегда нужно иметь исходники.
Для OCR крайне важно высокое разрешение и качество исходников.

From:

bbb.livejournal.com

Большое спасибо, и я, возможно, воспользуюсь вашими советами, но мои задачи все-таки намного скромнее. Я не стремлюсь к OCR, мне достаточно, чтобы была просто факсимильная pdf-картинка, которую можно смотреть с экрана или распечатывать. Для этого мне хватает большого ксерокса с функцией сканирования и Акробата. До некоторого момента самым узким местом было разрезание "горизонтальных" двойных страниц пополам, но нашлась специальная программа для этой цели.

Изредка я выкладываю эти книги на archive.org - и если это правильно нарезанный pdf, то там автоматически из него изготовляется, помимо прочего, еще и djvu, pdf с текстом и просто текст. При этом английский текст распознается более или менее эффективно, русский превращается в галиматью, но в любом случае pdf-картинка доступна.

From:

vvalex.livejournal.com

Про OCR я ничего еще не говорила, будет нужно воспользуетесь.
Всё, о чем здесь идет речь - это создание электронной книги, максимально быстро, автоматизированно и легко. Главное, что Scan Tailor центрирует и обрезает поля в пакетном режиме.
Суть Вы уловили - будет факсимильная копия, но pdf при этом получится очень тяжеловесный, djvu намного легче (особенно в двуцветном варианте).

Проблему кодировки (когда русский превращается в галиматью) я уже как-то решала, будет нужно, вспомню.

From:

vvalex.livejournal.com

Приведу несколько полезных, на мой взгляд, ссылок по теории и практике:

http://www.djvu-soft.narod.ru/scan/
http://djvu-reader.ru/format.html

А это уже электронные книги для ридеров (у меня есть девайс LBook с технологией электронных чернил):
http://www.the-ebook.org/?page_id=122