Электронные издания - Владимир Вуль
Шрифт:
Интервал:
Закладка:
✓ распространение в электронном виде точной копии печатного издания с возможностью ее последующей распечатки в случае необходимости в произвольном количестве экземпляров;
✓ появление принципиально новых типов изданий с использованием чисто компьютерных технологий, таких как гипертекст, мультимедиа, электронное аналоговое моделирование, анимационные эффекты;
✓ подключение практически всех средних и крупных издательств к Всемирной сети Интернет, что открывает совершенно новые возможности как в части доступа к информации, распространяемой данным издательством.
В состав цифрового мультимедиа-наряду с традиционными текстовыми и графическими файлами в самых различных форматах, входит также цифровые аудиофайлы, анимационные графические файлы и видеофайлы в цифровом формате. Основной информационных носитель цифрового мультимедиа ⎯ это компакт-диск, а в последние годы еще и DVD-диск. Кроме того, мультимедиа-информация может непосредственно передаваться по сетям связи, храниться в виде соответствующих файлов на жестких магнитных дисках персональных компьютеров, накапливаться в виде специальных баз данных, к которым возможно в том числе и дистанционное обращение для занесения новой или извлечения имеющейся информации.
Все известные традиционные промышленные технологии имеют ограниченную сферу применения, что обычно следует из самого их названия. В то же время трудно привести пример области науки или техники, которая хотя бы потенциально не была связана с технологиями мультимедиа. Цифровое мультимедиа объединяет все известные формы представления информации – текст, графику и фотографические изображения, цифровое видео и аудио, цифровые модели объектов и интерактивные данные, такие как Java-апплеты. Главная задача мультимедиа-технологий состоит в интеграции процессов создания, управления и распространения информации любого вида.
Современное издательство постепенно превращается в систему для переработки и хранения цифровой медиа-информации. В функции издательской системы будет входить оцифровка, индексация, длительное хранение, извлечение и защита от несанкционированного доступа цифровой медиа-информации в распределенной сетевой среде. Можно перечислить основные подсистемы издательской информационной системы, представленные на рис. 7.1 [7, 10]:
✓ централизованное хранилище цифровой информации всех типов и форматов;
✓ совокупность цифровых технологий для загрузки изданий в хранилище и их каталогизации;
✓ система поиска и просмотра первичной информации;
✓ доставка единиц хранения информации работнику издательства для редактирования. Такая издательская система обязана обладать определенным набором свойств. Она должна обеспечить:
✓ хранение всех типов данных в едином информационном пространстве;
✓ минимизацию ручного труда по каталогизации и индексации информации;
✓ доступность информации с любого клиентского компьютера;
✓ возможность нахождения издания по его информационным характеристикам;
✓ беспроблемную стыковку клиентского программного обеспечения со средствами обработки и создания содержания изданий;
✓ доступность издания только для лиц с соответствующими правами доступа.
Рис. 7.1. Информационная система современного издательства
Рассмотрим составные элементы информационной структуры издательства (рис. 7.1). Основные компоненты системы локализуются на сервере или нескольких серверах. В частности, отдельный сервер обычно используют для ведения издательской базы данных. Иногда может быть выделен специальный сервер доставки информации клиенту, реже – сервер для поиска нужных электронных изданий. Для интеграции сервера (серверов) с клиентскими компьютерами используется специальная интрасеть. Роль и характеристики таких интрасетей рассмотрены в разд. 7.2. Наконец, посредством экстрасети и сети Интернет могут быть подключены территориально удаленные отделения и сотрудники издательства и некоторые контрагенты, с которыми поддерживается регулярная информационная связь. В качестве таких бизнес-партнеров могут быть оптовые и мелкооптовые книготорговые предприятия, крупные книжные магазины и полиграфические предприятия, которые регулярно выполняют заказы издательства на изготовление тиража книг или журналов. Крупные издательства нередко поддерживают постоянные связи с поставщиками бумаги и других полиграфических материалов.
Ядром любой издательской информационной системы является хранилище изданий. Естественно, издания хранятся в электронной форме, т. е. хранилище электронных изданий – основной компонент информационной системы издательства. Поэтому требования к этому компоненту и особенности организации хранения электронных изданий будут рассмотрены в специальном разделе. Здесь следует лишь отметить, что для организации эффективного поиска изданий, наряду с содержанием самих изданий необходимо хранить атрибутивную информацию или метаданные. В состав метаинформации обычно включают: имя автора или авторов, название издания, время первой публикации издания, название издательства, принадлежность авторских прав, характер представления данных (тип файла) и пр.
Загрузчик является той частью издательской системы, которая должна сделать ввод изданий и документов настолько эффективным, насколько это возможно. Поскольку количество вводимой информации велико, становится понятно требование минимизации ручного труда в этом процессе. При вводе электронных изданий одновременно должны генерироваться метаданные для каталогизации и индексирования, на основе которых документы могут затем извлекаться пользователями. Известно несколько способов автоматизации, соответствующих разным методам доступа к данным. Наиболее известен и хорошо отработан метод автоматической индексации полного текста.
Самые прогрессивные средства индексации текста базируются на технологии семантических сетей, в которой значения слов определяются по контексту, а не просто подбором унифицированных терминов для отдельных слов, однако пока работу программных средств нельзя назвать безупречной. Представляется оправданным включение в метаданные ключевых слов, отобранных автором и редактором, так как лучше них никто не сможет подобрать набор ключевых слов, оптимально характеризующих как тематическую область издания, так и его отличия от близких по тематике. В издательской деятельности возможна автоматическая генерация связей для отношений "содержится" и "используется в" путем разбора языка компоновки страниц и выделения элементарных объектов из составных документов. Чем более структурирован язык описания страниц, тем легче выделять информацию: форматы с высоким уровнем структуризации, подобные Adobe FrameMaker и SGML, гораздо эффективнее, чем форматы со специальной структурой типа QuarkXPress и Word. Хуже всего интерпретируются форматы, не имеющие четко выраженной структуры, такие как PostScript и, в меньшей степени, PDF.
До сих пор не существует общих средств автоматического выделения нетривиальной информации из изображений, аудио и видео, но некоторые разработчики (Kodak, LivePicture, Virage, Excalibur) занимаются исследованиями в этой области. Иногда атрибутивные метаданные могут генерироваться просто путем извлечения информации из определенных форматов данных. Лучший пример этого – форматы файлов графического редактора Adobe Photoshop, которые содержат массу полезной информации.
При загрузке добавляются не только метаданные, но и вспомогательные представления документов, в частности, миниатюры, отражающие внешний вид издания. Генерация миниатюр также может быть автоматизирована. Например, большинство графических форматов содержат свои собственные миниатюры, для других, например для изображений с высоким разрешением, можно сгенерировать их "на лету". Аналогично можно спроектировать загрузчик таким образом, чтобы он, получая цифровые аудиообъекты, создавал клипы первых нескольких секунд звучания в одном из стандартных простых форматов (например, в формате WAV 10 кГц). Таким же образом видеоинформация в формате MPEG-2 может преобразовываться в клипы QuickTime длительностью в 5 или 10 с.
Существует два базовых способа доставки цифровых документов пользователю: передача файлов – ее можно использовать для текстов, изображений, аудио и видео с низким качеством, и поточная передача – для высококачественного "движущегося" медиа, т. е. аудио, видео и анимации. Этот последний способ предъявляет очень серьезные требования к возможностям сервера, осуществляющего такую потоковую доставку информации.
При хранении мультимедиа-данных требования к вычислительным ресурсам, необходимым для передачи документов, качественно отличаются от требований к подсистеме хранения. Поэтому, во многих случаях, выделяется отдельный сервер доставки данных. В первую очередь этот сервер должен иметь высокую пропускную способность для передачи мультимедийных объектов из хранилища на клиентские компьютеры. В идеале хранилище изданий должно включать в себя возможность многосерверного доступа так, чтобы гарантировать параллельную работу сервера хранилища изданий и сервера доставки данных. Сервер доставки обязан обеспечивать гарантированную полосу пропускания для потока данных, поэтому в архитектуре сервера должны быть сбалансированы ресурсы процессора, периферии ввода/вывода и сетевых интерфейсов. Программное обеспечение сервера доставки, во-первых, должно включать средства низкого уровня для работы с файлами, обеспечивающие различные режимы проигрывания медиа. Во-вторых, необходимо, чтобы оно же определяло стандартные интерфейсы для разработки приложений – "плееров" на клиентской стороне и реализовывало серверную часть этих интерфейсов.