- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Интернет-журнал 'Домашняя лаборатория', 2008 №3 - Журнал «Домашняя лаборатория»
Шрифт:
Интервал:
Закладка:
2) черно-белый tif Fax4 при 600dpi подходит для большинства печатной продукции, даже с относительно мелким шрифтом:
— в плюсах резкое снижение вероятности ошибок при кодировании в djvu;
— в минусах та же самая невозможность коррекции, мусор, резкое увеличение размера файлов, что не так важно при дальнейшем кодировании в djvu;
3) серый tif LZW при 300 dpi является основным режимом сканирования, как для черно-белых, так и для серых бумажных оригиналов:
— в плюсах возможность самых различных коррекций изображения, искусственное повышение разрешения (ресэмплинг, о нем пойдет речь далее), скорость сканирования не ниже, чем для черно-белого;
— в минусах разве что увеличение размеров файлов при сканировании, что не так критично, и необходимость обработки, если нужно получить черно-белое;
4) серый tif LZW при 600 dpi лучше применять только для самых плохих оригиналов:
— в минусах низкая скорость сканирования и последующей обработки, а также катастрофическое увеличение размеров файлов. Этот режим стоит использовать только в исключительных случаях, когда со сканами предполагается серьезная работа в графических редакторах или конвертерах;
— в плюсах очень высокое качество, практически это разумный предел;
5) цветной tif LZW при 300 и 600 dpi подходит для текстовых страниц с цветными иллюстрациями, вкладок, обложек, когда качество, как текста, так и цвета, достаточно критично. В чистом виде используется сравнительно редко, поскольку скорость сканирования низкая, размеры файлов огромные, обработка требует значительного времени, смысл есть только при последующем кодировании в djvu;
6) серый и цветной jpg может использоваться исключительно для тех случаев, когда текста мало, сам текст крупный, а фотографий много.
Категорически не рекомендуется использовать jpg для текстовых оригиналов!
Это самый верный способ безвозвратно испортить скан, поскольку сжатый jpg по своей сути является форматом lossy, то есть, с потерями и со стопроцентным появлением, так называемых, артефактов. Что это такое? Смотрите сами:
Это слово было отправлено на печать в виртуальный принтер FinePrint и сохранено в формате tif LZW. Никаких отличий с оригиналом нет, если не считать того, что фонт вместо вектора стал графикой и при увеличении появились неровные края букв, поскольку это растр, а не масштабируемый фонт. А теперь то же самое, но в формате jpg:
Вокруг каждой буквы и на них самих, появились пикселы других цветов, что-то утрачено, что-то добавлено, и оригинал уже не восстановишь в точности. Потери в jpg незаметны на фотографиях, где присутствует смешение цветов, полос, линий и т. д., но когда речь идет о тексте или одноцветных линиях, то артефакты становятся очень заметны. Удалить их без ухудшения изображения не так просто или вообще невозможно, особенно когда jpg изначально имеет низкое разрешение. Очевидно, что jpg с наибольшим сжатием дает наименьший размер, поэтому при сканировании стараются получить приемлемые размеры конечных файлов и даже достигают этого. Но только ценой катастрофического падения качества, вдобавок, артефакты, которые не несут никакой информации, начинают бесполезно увеличивать размер файла. Получается парадоксальный результат — обмен полезной информации на вредный шум. Для черно-белых текстов ситуация будет еще хуже. Поэтому, если информация на бумаге заключена именно в тексте и графике, а не в серой/цветной фотографии, то jpg и аналогичные форматы с потерями при кодировании являются наихудшим вариантом. Уйдет время на сканирование, а результат окажется плачевным для будущих читателей.
Ничуть не лучше дело обстоит при использовании программы FineReader, когда делается попытка заменить трудный и нудный процесс проверки текста после OCR на представление изображения страницы в формате pdf с наложенным текстовым слоем. Такой метод существует и успешно используется, как для pdf, так для djvu, но с небольшими отличиями. Со сканера невозможно получить векторную графику и векторный текст, поскольку все сканеры имеют такой параметр, как dpi. Следовательно, изображение всегда состоит из точек, и при упаковке его в оболочку pdf, а это легко делается, оно не становится от этого векторным, продолжая сохранять все недостатки растрового оригинала. Всего лишь меняется расширение файла на pdf.
Мне могут возразить, что есть сканеры, у которых нет промежуточного формата, а после сканирования сразу получается pdf файл. Все так, просто процесс упаковки растра в pdf контейнер скрыт в используемом софте, но это не значит, что такие сканеры действительно могут сканировать в вектор.
Итак, что происходит во время и после сканирования в FineReader, если конечной целью выбрать формат pdf? Пока идет сканирование, независимо от установленных опций, будет происходить автоматическое выравнивание перекошенных страниц, причем реализация этого процесса оставляет желать лучшего. По наблюдениям, опубликованным на одном из форумов, автоматическое исправление наклона приводит к ошибкам в распознавании типа фонта, обычный фонт превращается в наклонный, поскольку в буквах несимметрично сдвигаются пиксели и верхняя часть буквы сдвинется вправо, а нижняя останется на месте. Помимо своего желания можно получить курсив там, где его не было.
Черными точками отмечены искажения после загрузки изображения в FineReader:
После выравнивания в FR:
Это не самое страшное, а вот когда сканирование и распознавание страниц закончено, а исходные параметры сканирования (яркость и контрастность) не были правильно установлены, то на выходе получается серое изображение с нечеткими черными буквами. Затем выбираются параметры сохранения в pdf, вот скриншот этого меню:
Главная "мина" заложена в опции "Формат": если будет стоять "Авто" или любой из jpg вариантов, то одним нажатием кнопки "ОК" получается "ни рыба, ни мясо". Этот "продукт" будет некачественным, распухшим и неприятного серого цвета. Логику такого выбора понять нетрудно — потрачено время на сканирование нужной и интересной книги, текст вроде бы распознан, а изображение…, да ладно, что-то будет видно в любом случае. Действует сомнительный принцип: если хочешь файл поменьше — жми в jpg, а чтобы все могли прочитать и текст скопировать, тогда пакуй в pdf и будет замечательно! Увы, но получается далеко не так замечательно, как может показаться на первый взгляд. Под "ни рыба, ни мясо" подразумевается отсутствие проверки ошибок в тексте и плохое качество изображения. Достоверность копируемого текста ниже всякой критики, а с изображением в jpg уже ничего не сделаешь, в FineReader нет опции выбора степени компрессии jpg, насколько сожмутся изображения, известно только Богу и разработчикам.
А жмутся jpg файлы при упаковке в pdf контейнер весьма

