- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Интернет-журнал 'Домашняя лаборатория', 2008 №3 - Журнал «Домашняя лаборатория»
Шрифт:
Интервал:
Закладка:
Вам такое нравится? Мне не очень! Если это "черно-белое" то, что же такое "серое"?
Разумнее было бы выбрать в "Формате сохранения" пункт "Только текст и картинки", как это показано на скриншоте выше. Тогда результат будет несравненно лучше предыдущего, но на глаза сразу полезут ошибки распознавания, которые нужно исправлять, а ведь не хочется, лень-матушка прежде нас родилась. Зачем стараться, когда есть хитрая опция, которая то появляется, то исчезает в FineReader? Речь идет о замене неуверенно распознанных слов их графическими изображениями:
Исходные предпосылки разработчиков были, разумеется, благими. Действительно, в распознаваемом тексте могут встретиться самые различные слова и знаки, для которых нет аналогов ни в одном фонте, а могут оказаться слова на таком языке, какого нет даже в богатом наборе самого FineReader. В таких случаях эта опция будет полезна, но при распознавании обычных текстов FineReader старательно спихивает на нее все свои косяки. При малейшем сомнении в слове, оно сохраняется в виде графической вставки. Интересно другое, на этой вставке есть слой текста и обычно слово распознано совершенно правильно. Какой хитрый алгоритм обработки! Слово распознается правильно, но, тем не менее, вставляется его графическое изображение, причем в том же неподходящем jpg.
Такие вставки совершенно напрасно увеличивают размер файла и портят весь его вид. Когда этих графических вставок многие десятки, сотни и даже тысячи на всю книгу, а исходный скан был грязно-серого цвета, уже не скажешь "Приятно глазу!". Что хорошего, когда среди нормального текста то там, то тут, наляпаны грязные пятна с отдельными словами, зачастую с другим фонтом. Простых способов исправить положение просто не существует. Вот не самый худший пример:
Обратите внимание на серую полосу перед буквой "И" в слове "Информация", по идее, ее вообще не должно было быть. Как наглядно показано, применен формат jpg, со всеми вытекающими последствиями и неизменными артефактами.
Но не все так мрачно, как может показаться на первый взгляд. По поводу установок сканера читайте в начале статьи и еще раз повторите правило: черные буквы должны остаться черными, белый фон должен быть белым, а не грязносерым, серые фотографии должны быть серыми. Про цвет речи вообще нет, хотя бы по той причине, что сканирование альбомов с художественными фотографиями в круг задач сканировщиков обычно не входит. Это достаточно редкое и нетривиальное дело, а малоцветные изображения не представляют проблемы, обычно 256 цветов хватает за глаза.
Если в книге очень мало графики, в основном представленной скриншотами или небольшими фотографиями, как это часто бывает в книгах на компьютерные темы, то выбор должен быть один: черно-белые сканы с максимально возможным разрешением, на которое у вас хватит времени и терпения или серые, с последующей обработкой и приведением к черно-белому. При выборе конечного формата pdf с текстовым слоем с помощью FineReader и нежелании исправлять ошибки после OCR (опция "Сохранять только текст и картинки" в этом случае не используется), пожалуйста, выбирайте в опциях pdf формат CCITT4, черно-белый или LZW серый (без потерь), не обращая внимания на размер конечного файла. Почему не обращая? Если нет желания сохранить скан в djvu по каким-то причинам, то, по крайней мере, оставьте шанс тем, кто может это сделать, и не портите графические файлы, о тексте речи вообще нет, тот же FineReader, только не на вашем компе, сделает OCR достаточно быстро. Все равно ваш файл будет изрядного размера, но лучше скачать 100 мегов качественных сканов, чем 50 мегов размазанной грязи. В последнем случае разочарование обходится дороже, чем лишний трафик.
Если сканы были серые, то еще и еще раз прочитайте правило, приведенное чуть выше насчет того, что чем должно остаться и подберите яркость и контраст до того, как начнете сканировать все страницы на автомате. Может статься, что вам будет лень обрабатывать несколько сот сканов, доводя их вид до ума, поэтому "лучше день потерять, потом за пять минут долететь". Повторяю просьбу: в FineReader не выбирайте jpg перед отправкой сканов с OCR в контейнер pdf, причины, на мой взгляд, достаточно убедительные, приведены выше.
Когда-то слышал хорошее правило: если ты сделаешь медленно, но хорошо, то все забудут про "медленно", но будут помнить про "хорошо". А если сделаешь быстро, но плохо, то все забудут про "быстро", но будут помнить про "плохо".
Возвратимся туда, где рассматривались режимы сканирования, и была упомянута такая вещь, как ресэмплинг. Что это и чем может помочь при сканировании? Ресэмплинг, в данном контексте, это изменение разрешения растрового изображения. Различают два вида ресэмплинга: даунсэмплинг с понижением разрешения и апсэмплинг с повышением разрешения. С даунсэмплингом вы сталкивались, когда делали из большого изображения иконку или аватару. Несмотря на сравнительно большие размеры оригинала, все равно получали хоть и маленькое, но похожее на исходное, изображение. Апсэмплинг может быть очень полезен при сканировании, он экономит время за счет искусственного повышения разрешения, следовательно, улучшается четкость изображения.
Исходные данные: одна и та же буква, полученная из pdf файла сохранением в tif, слева 300 dpi, справа 600 dpi, только обе буквы сделаны одинакового размера, на самом деле, левое изображение меньше правого. Действует обычное правило: если увеличить высоту и ширину в два раза, то площадь возрастет в четыре раза. На каждый пиксель в 300 dpi приходится четыре пикселя при 600 dpi. Отличие сразу заметно на глаз, низкое разрешение дает более изломанную границу у кривых линий.
А теперь оба изображения в 600 dpi, но правое было ресэмплировано из 300 dpi, для этого черно-белый файл открыт в Ирфане, через меню "Изображение" — "Изменить размер изображения", выбрано "Увеличить в два раза",

