А что вы понимаете под "разобрать книгу на части"? У меня просто за некое количество лет накопилось некое количество отксеренных постранично книг, и я взялся их для собственного архива оцифровать максимально простым и незатейливым способом.
Тогда мои инструкции - самый что ни на есть незатейливый простой и практически автоматизированный вариант.
Разобрать книгу на части - это создание "снимков" (screenshot) страницы - аналога скана. В процессе этого Вы получите набор графических файлов, с которыми потом продолжите работать. Tiff - для максимального качества. В любом случае, создание книги в формате djvu приведет к ухудшению качества (но к уменьшению объема в десятки раз), поэтому всегда нужно иметь исходники. Для OCR крайне важно высокое разрешение и качество исходников.
Большое спасибо, и я, возможно, воспользуюсь вашими советами, но мои задачи все-таки намного скромнее. Я не стремлюсь к OCR, мне достаточно, чтобы была просто факсимильная pdf-картинка, которую можно смотреть с экрана или распечатывать. Для этого мне хватает большого ксерокса с функцией сканирования и Акробата. До некоторого момента самым узким местом было разрезание "горизонтальных" двойных страниц пополам, но нашлась специальная программа для этой цели.
Изредка я выкладываю эти книги на archive.org - и если это правильно нарезанный pdf, то там автоматически из него изготовляется, помимо прочего, еще и djvu, pdf с текстом и просто текст. При этом английский текст распознается более или менее эффективно, русский превращается в галиматью, но в любом случае pdf-картинка доступна.
Про OCR я ничего еще не говорила, будет нужно воспользуетесь. Всё, о чем здесь идет речь - это создание электронной книги, максимально быстро, автоматизированно и легко. Главное, что Scan Tailor центрирует и обрезает поля в пакетном режиме. Суть Вы уловили - будет факсимильная копия, но pdf при этом получится очень тяжеловесный, djvu намного легче (особенно в двуцветном варианте).
Проблему кодировки (когда русский превращается в галиматью) я уже как-то решала, будет нужно, вспомню.
Re: графический вариант-1
Date: 2010-06-08 08:57 pm (UTC)Re: графический вариант-1
Date: 2010-06-08 09:13 pm (UTC)Разобрать книгу на части - это создание "снимков" (screenshot) страницы - аналога скана.
В процессе этого Вы получите набор графических файлов, с которыми потом продолжите работать.
Tiff - для максимального качества.
В любом случае, создание книги в формате djvu приведет к ухудшению качества (но к уменьшению объема в десятки раз), поэтому всегда нужно иметь исходники.
Для OCR крайне важно высокое разрешение и качество исходников.
Re: графический вариант-1
Date: 2010-06-08 09:22 pm (UTC)Изредка я выкладываю эти книги на archive.org - и если это правильно нарезанный pdf, то там автоматически из него изготовляется, помимо прочего, еще и djvu, pdf с текстом и просто текст. При этом английский текст распознается более или менее эффективно, русский превращается в галиматью, но в любом случае pdf-картинка доступна.
Re: графический вариант-1
Date: 2010-06-08 09:31 pm (UTC)Всё, о чем здесь идет речь - это создание электронной книги, максимально быстро, автоматизированно и легко. Главное, что Scan Tailor центрирует и обрезает поля в пакетном режиме.
Суть Вы уловили - будет факсимильная копия, но pdf при этом получится очень тяжеловесный, djvu намного легче (особенно в двуцветном варианте).
Проблему кодировки (когда русский превращается в галиматью) я уже как-то решала, будет нужно, вспомню.
ссылка на теорию
Date: 2010-06-08 09:52 pm (UTC)http://www.djvu-soft.narod.ru/scan/
http://djvu-reader.ru/format.html
А это уже электронные книги для ридеров (у меня есть девайс LBook с технологией электронных чернил):
http://www.the-ebook.org/?page_id=122