- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - "TWDragon"


- Жанр: Компьютеры и Интернет / Программирование
- Название: Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро
- Автор: "TWDragon"
- Возрастные ограничения: (18+) Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних просмотр данного контента СТРОГО ЗАПРЕЩЕН! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту для удаления материала.
Шрифт:
Интервал:
Закладка:
TWDragon, 4u4undr
Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро
Предисловие автора
Итак: перед вами взятая у приятеля, из библиотеки, или просто хорошая, интересная книга, которую хотелось бы иметь на компьютере. И не просто иметь, а иметь в таком виде, который позволил бы выполнять поиск по тексту, удобно читать книгу на экране монитора или на устройствах еВоок, а если это не научно-техническая или справочная литература – еще и читать на любимом сотовом телефоне, iPhon'e или PDA. В этом пошаговом руководстве, основанном на собственном опыте, я постараюсь рассказать о том, как «выжать» максимум результатов из проделанной простой, но иногда весьма утомительной работы по сканированию книги.
Пусть вас не испугает длина этого руководства и кажущаяся сложность сканирования и обработки книги. Процесс действительно довольно сложен и многоступенчат, но поверьте мне, описать все эти операции было гораздо труднее, чем выполнить их шаг за шагом.
Итак, ПОЕХАЛИ!
Шаг 1. Сканирование
1.1 Подготовка к процессу
Сканирование, с которого начинается, зачастую, долгий путь «в Сеть» любой изданной когда-либо книги (рынок легальных электронных книг, размещаемых издателями непосредственно после электронной верстки, у нас совершенно неразвит) – это самая монотонная часть всей предстоящей работы, поэтому к ней стоит тщательно подготовиться заранее – протереть стекло сканера, проверить наличие свободного места на диске – несжатый скан одной средней по размеру книги может занимать до 1 Гбайт. Потом начинается собственно сканирование.
Я намеренно не привожу здесь сравнительных характеристик разных моделей сканеров, поскольку каждый из нас в подавляющем большинстве случаев располагает только одним сканером, характеристики которого более или менее хорошо известны.
Phistek OpticBook: преимущества и недостатки
Из всех сканеров, имеющихся на рынке, для сканирования книг в больших количествах нет ничего лучше серии Plustek OpticBook. Эти планшетные сканеры отличаются высоким корпусом и прозрачным основанием, выполненным "в край" – так, чтобы на него можно было уложить книгу, не ломая и не деформируя корешок. Такой сканер – идеален для перевода в электронный вид десятков томов, например из библиотеки университетской кафедры. Однако, для домашнего повседневного применения он практически непригоден. Причина этого – в сугубой спецbализированности устройства под книгосканирование и OCR. В конструкции PlusTek OpticBook в жертву быстродействию и разрешению принесено все, что только можно, включая четкость, избирательность и цветопередачу.
Сканирование всех своих книг я проводил и провожу на достаточно старом (2003 года выпуска) полупрофессиональном планшетном сканере для документсистем Hewlett-Packard ScanJet 6390с. Эта машина отличается высоким быстродействием (15-25 сек на страницу формата А4 в режиме градаций серого). Кроме того, в ее комплект поставки входит удобное программное обеспечение HP Precision Scan Pro. Именно на этой программе сделаны все скрины с примерами сканирования.
1.2 Сканирование
Заранее хочу предостеречь от использования в качестве основного инструмента сканирования программы FineReader. Оставим эту программу до стадии OCR. Пока она может лишь максимально усложнить нам задачу пакетной обработки, применив (причем, без нашего ведома) – свои не слишком хорошие алгоритмы чистки и сжатия сканов. А главное – она практически лишит нас шансов применить важнейший прием – оверсемплинг до разрешения 600 dpi.
Собственно сканирование состоит из трех этапов: сканирования обложки, основной части книги, цветных вклеек и иллюстрации. Последовательно описывать эти этапы нет смысла – они переплетаются друг с другом в зависимости от верстки книги. Стоит привести лишь параметры сканирования, оптимальные для разных типов книжных страниц.
Здесь приведу еще одно важнейшее предупреждение(!):
На некоторых очень старых моделях сканеров есть возможность вручную включать внутренний оверсемплинг, тo есть фактически сканировать с меньшим разрешением, чем имеет выходной файл. Обозначается такая установка разрешения обычно словом Software или Resampled. Эту установку использовать нельзя! Ее включение приведет в полную негодность полученные файлы, и их дальнейшая обработка окончательно потеряет смысл. Также нельзя использовать установку сканирования в режиме Linearеt или Black amp;White (одноцветный)
Общие рекомендации такие: для текстовых страниц используйте:
• Режим Grayscale (оттенки серого), для цветных иллюстраций и обложек – True Color (полноцветный).
• Разрешение сканирования – 300 dpi (только оптическое, повторимся еще раз!).
• Остальные установки можно оставить по умолчанию.
Таблица 1. Оптимальные параметры сканирования
Эти параметры не являются догмой. Они определены опытным путем на нескольких моделях неспециализированных сканеров, и служат ориентировочным целям. Собственный набор оптимальных параметров книгосканирования всегда стоит определить экспериментально, отсканировав любимую книгу со всеми иллюстрациями и обложкой. Приводя эти параметры, я стремился обобщить их для применения на максимальном количестве моделей сканеров.
Тип страницы: Страница с черно-белым текстом без иллюстраций
Режим: Grayscale
Разрешение: 300 dpi
Резкость: Low или Medium
Яркость и контраст: Любые, специальные параметры не использовать
Тип страницы: Страница с черно-белым текстом и черно-белыми штриховыми (одноцветными) иллюстрациями
Режим: Grayscale
Разрешение: 300 dpi
Резкость: Medium. High
Яркость и контраст: Любые, можно применить пресет B amp;W Photo
Тип страницы: Страница с черно-белым текстом и черно-белыми фотографическими иллюстрациями
Режим: Grayscale
Разрешение: 300 dpi
Резкость: High можно применить пресет B amp;W Photo
Яркость и контраст: Определяются по предварительному сканированию
Тип страницы: Страница с черно-белым текстом и цветными иллюстрациями
Режим: True Color
Разрешение: 300 dpi
Резкость: Low, можно применить пресет Photo
Яркость и контраст: Определяются по предварительному сканированию
Тип страницы: Цветная обложка или иллюстрация страничного формата
Режим: True Color
Разрешение: 300 dpi
Резкость: Low, можно применить пресет Photo
Яркость и контраст: Определяются по предварительному сканированию
Формат выходного файла: Uncompressed (Несжатый) TIFF(!)
Почему не JPEG?
Формат JPEG для сохранения сканов книжных страниц использовать можно, но не нужно.
Во-первых: потому, что этот формат даже при включенном сжатии без потерь (Quality = 100) оставляет артефакты в виде «квадратиков».
Во-вторых и самых главных: многократное пережатие при сохранении обработанного файла JPEG вновь в «свой» формат за 2-3 цикла обработки приводит изображение в негодность.
Отдельно коснемся использования сжатого (Compressed) TIFF: при сохранении сжатого изображения в TIFF можно использовать алгоритмы сжатия: ZIP. LZW (без потерь). JPEG (с потерями). Без хлопот программы распознавания вроде FineReader понимают только JPEG.
Со всеми остальными форматами проблемы могут возникать непредсказуемо (например, у меня FineReader 7.0 испытывает устойчивую «идиосинкразию» конкретно к формату сжатия LZW). Поэтому если нет особых проблем с наличием места на диске, лучше всегда использовать несжатый файл.

