Re: графический вариант-1

Date: 2010-06-08 08:57 pm (UTC)
From: [identity profile] bbb.livejournal.com
А что вы понимаете под "разобрать книгу на части"? У меня просто за некое количество лет накопилось некое количество отксеренных постранично книг, и я взялся их для собственного архива оцифровать максимально простым и незатейливым способом.

Re: графический вариант-1

Date: 2010-06-08 09:13 pm (UTC)
From: [identity profile] vvalex.livejournal.com
Тогда мои инструкции - самый что ни на есть незатейливый простой и практически автоматизированный вариант.

Разобрать книгу на части - это создание "снимков" (screenshot) страницы - аналога скана.
В процессе этого Вы получите набор графических файлов, с которыми потом продолжите работать.
Tiff - для максимального качества.
В любом случае, создание книги в формате djvu приведет к ухудшению качества (но к уменьшению объема в десятки раз), поэтому всегда нужно иметь исходники.
Для OCR крайне важно высокое разрешение и качество исходников.

Re: графический вариант-1

Date: 2010-06-08 09:22 pm (UTC)
From: [identity profile] bbb.livejournal.com
Большое спасибо, и я, возможно, воспользуюсь вашими советами, но мои задачи все-таки намного скромнее. Я не стремлюсь к OCR, мне достаточно, чтобы была просто факсимильная pdf-картинка, которую можно смотреть с экрана или распечатывать. Для этого мне хватает большого ксерокса с функцией сканирования и Акробата. До некоторого момента самым узким местом было разрезание "горизонтальных" двойных страниц пополам, но нашлась специальная программа для этой цели.

Изредка я выкладываю эти книги на archive.org - и если это правильно нарезанный pdf, то там автоматически из него изготовляется, помимо прочего, еще и djvu, pdf с текстом и просто текст. При этом английский текст распознается более или менее эффективно, русский превращается в галиматью, но в любом случае pdf-картинка доступна.

Re: графический вариант-1

Date: 2010-06-08 09:31 pm (UTC)
From: [identity profile] vvalex.livejournal.com
Про OCR я ничего еще не говорила, будет нужно воспользуетесь.
Всё, о чем здесь идет речь - это создание электронной книги, максимально быстро, автоматизированно и легко. Главное, что Scan Tailor центрирует и обрезает поля в пакетном режиме.
Суть Вы уловили - будет факсимильная копия, но pdf при этом получится очень тяжеловесный, djvu намного легче (особенно в двуцветном варианте).

Проблему кодировки (когда русский превращается в галиматью) я уже как-то решала, будет нужно, вспомню.

ссылка на теорию

Date: 2010-06-08 09:52 pm (UTC)
From: [identity profile] vvalex.livejournal.com
Приведу несколько полезных, на мой взгляд, ссылок по теории и практике:

http://www.djvu-soft.narod.ru/scan/
http://djvu-reader.ru/format.html

А это уже электронные книги для ридеров (у меня есть девайс LBook с технологией электронных чернил):
http://www.the-ebook.org/?page_id=122

Profile

borislvin

January 2026

S M T W T F S
    123
45 6 7 8 910
11121314151617
18192021222324
25262728293031

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 17th, 2026 09:54 am
Powered by Dreamwidth Studios