djvu с текстом - это двуслойный документ: графическая информация, скан поверх которого накладывается текстовый слой. Сам процесс называется OCR (Optical Character Recognition - оптическое распознавание символов). У меня есть наработки по созданию электронных книг. Завтра напишу подробный ответ (и по pdf и djvu).
Также с постранично разобранными книгами: http://www.noliturbare.com/pdf-tools/pdf-cropper http://67.205.70.12/forums/showpost.php?s=35d2a07a63010efceb777967c5dee182&p=375895&postcount=63 (GUI) http://67.205.70.12/forums/showpost.php?p=290146&postcount=1 (Commande line - CMD.exe)
1. Разобрать книгу на части - конвертирование всех страниц в tiff. Средства любые. Я использую InfanView для djvu, pdf и PDF-XChange Viewer для pdf. К InfanView прошу особого внимания - "нарисовался" очень мощный проект, с хорошим функционалом и производительностью. 2. Для обработки (ротация, обрезка, резка пополам, изменение разрешения, яркости/контрастности, цветности и прочее) и создания книги использую Scan Tailor (http://scantailor.sourceforge.net). Преимущество данной программы - узкая специализация и автоматизация практически всех операций по созданию электронной книги (описывать не буду, сами убедитесь). 3. Сборка разрезанных страниц в pdf - Swift PDF (http://www.derring.com/swiftpdf/index.htm) или i2pdf (http://web.newsguy.com/lmgava/i2pdf/). В djvu - DjVu Small v0.3.1 (http://djvu-soft0001.nxt.ru/djvu_small_v0_3_1.rar).
А что вы понимаете под "разобрать книгу на части"? У меня просто за некое количество лет накопилось некое количество отксеренных постранично книг, и я взялся их для собственного архива оцифровать максимально простым и незатейливым способом.
Тогда мои инструкции - самый что ни на есть незатейливый простой и практически автоматизированный вариант.
Разобрать книгу на части - это создание "снимков" (screenshot) страницы - аналога скана. В процессе этого Вы получите набор графических файлов, с которыми потом продолжите работать. Tiff - для максимального качества. В любом случае, создание книги в формате djvu приведет к ухудшению качества (но к уменьшению объема в десятки раз), поэтому всегда нужно иметь исходники. Для OCR крайне важно высокое разрешение и качество исходников.
Большое спасибо, и я, возможно, воспользуюсь вашими советами, но мои задачи все-таки намного скромнее. Я не стремлюсь к OCR, мне достаточно, чтобы была просто факсимильная pdf-картинка, которую можно смотреть с экрана или распечатывать. Для этого мне хватает большого ксерокса с функцией сканирования и Акробата. До некоторого момента самым узким местом было разрезание "горизонтальных" двойных страниц пополам, но нашлась специальная программа для этой цели.
Изредка я выкладываю эти книги на archive.org - и если это правильно нарезанный pdf, то там автоматически из него изготовляется, помимо прочего, еще и djvu, pdf с текстом и просто текст. При этом английский текст распознается более или менее эффективно, русский превращается в галиматью, но в любом случае pdf-картинка доступна.
Про OCR я ничего еще не говорила, будет нужно воспользуетесь. Всё, о чем здесь идет речь - это создание электронной книги, максимально быстро, автоматизированно и легко. Главное, что Scan Tailor центрирует и обрезает поля в пакетном режиме. Суть Вы уловили - будет факсимильная копия, но pdf при этом получится очень тяжеловесный, djvu намного легче (особенно в двуцветном варианте).
Проблему кодировки (когда русский превращается в галиматью) я уже как-то решала, будет нужно, вспомню.
Re: спасибо
Date: 2010-06-07 08:58 pm (UTC)Re: спасибо
Date: 2010-06-07 09:09 pm (UTC)У меня есть наработки по созданию электронных книг.
Завтра напишу подробный ответ (и по pdf и djvu).
графический вариант-2
Date: 2010-06-08 09:00 pm (UTC)http://www.noliturbare.com/pdf-tools/pdf-cropper
http://67.205.70.12/forums/showpost.php?s=35d2a07a63010efceb777967c5dee182&p=375895&postcount=63 (GUI)
http://67.205.70.12/forums/showpost.php?p=290146&postcount=1 (Commande line - CMD.exe)
Re: графический вариант-1
Date: 2010-06-08 08:28 pm (UTC)Средства любые. Я использую InfanView для djvu, pdf и PDF-XChange Viewer для pdf.
К InfanView прошу особого внимания - "нарисовался" очень мощный проект, с хорошим функционалом и производительностью.
2. Для обработки (ротация, обрезка, резка пополам, изменение разрешения, яркости/контрастности, цветности и прочее) и создания книги использую Scan Tailor (http://scantailor.sourceforge.net).
Преимущество данной программы - узкая специализация и автоматизация практически всех операций по созданию электронной книги (описывать не буду, сами убедитесь).
3. Сборка разрезанных страниц в pdf - Swift PDF (http://www.derring.com/swiftpdf/index.htm) или i2pdf (http://web.newsguy.com/lmgava/i2pdf/).
В djvu - DjVu Small v0.3.1 (http://djvu-soft0001.nxt.ru/djvu_small_v0_3_1.rar).
Все это freeware.
Re: графический вариант-1
Date: 2010-06-08 08:57 pm (UTC)Re: графический вариант-1
Date: 2010-06-08 09:13 pm (UTC)Разобрать книгу на части - это создание "снимков" (screenshot) страницы - аналога скана.
В процессе этого Вы получите набор графических файлов, с которыми потом продолжите работать.
Tiff - для максимального качества.
В любом случае, создание книги в формате djvu приведет к ухудшению качества (но к уменьшению объема в десятки раз), поэтому всегда нужно иметь исходники.
Для OCR крайне важно высокое разрешение и качество исходников.
Re: графический вариант-1
Date: 2010-06-08 09:22 pm (UTC)Изредка я выкладываю эти книги на archive.org - и если это правильно нарезанный pdf, то там автоматически из него изготовляется, помимо прочего, еще и djvu, pdf с текстом и просто текст. При этом английский текст распознается более или менее эффективно, русский превращается в галиматью, но в любом случае pdf-картинка доступна.
Re: графический вариант-1
Date: 2010-06-08 09:31 pm (UTC)Всё, о чем здесь идет речь - это создание электронной книги, максимально быстро, автоматизированно и легко. Главное, что Scan Tailor центрирует и обрезает поля в пакетном режиме.
Суть Вы уловили - будет факсимильная копия, но pdf при этом получится очень тяжеловесный, djvu намного легче (особенно в двуцветном варианте).
Проблему кодировки (когда русский превращается в галиматью) я уже как-то решала, будет нужно, вспомню.
ссылка на теорию
Date: 2010-06-08 09:52 pm (UTC)http://www.djvu-soft.narod.ru/scan/
http://djvu-reader.ru/format.html
А это уже электронные книги для ридеров (у меня есть девайс LBook с технологией электронных чернил):
http://www.the-ebook.org/?page_id=122