- Любовные романы
- Фантастика и фэнтези
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Электронные издания - Владимир Вуль
Шрифт:
Интервал:
Закладка:
30.Какой вариант динамического связывания Web-страниц с внешними источниками представляется вам более предпочтительным? По каким причинам? Приходилось ли вам работать со скриптами? Пытались ли вы использовать в них язык Perl?
Глава 8 Метаинформация и автоматизация извлечения атрибутов и ключевых слов
В главе рассмотрены теоретические вопросы, связанные с ролью метаинформации в поисковых стратегиях, а также методах семантического анализа любых документов и их программной реализации. Описываются также методы автоматического занесения информации, извлекаемой из сети Интернет, в специальные модули атрибутивной базы данных издательства.
8.1. Роль метаинформации в поисковых стратегиях
Повсеместное распространение информационной среды Интернет привело к определенному забвению традиционных методов поиска изданий и документов и заметному перекосу в направлении использования однонаправленных ссылок, служащих для организации переходов от одного документа к другому в гипертекстовой БД. Такие ссылки не имеют атрибутов, не обеспечивают структурирования и классификации документов. Эти ссылки представляют собой лишь механизм структурирования содержимого Webузлов, но и в этом случае не могут обеспечить организацию такой иерархической структуры, в которой документы были бы классифицированы хотя бы по одному параметру.
В настоящее время объем информации, циркулирующей в среде Интернет, приближается или уже даже превысил некий критический предел, в результате чего значительная ее часть остается невостребованной, препятствуя, по существу, эффективному использованию этой среды. Все более актуальной становится задача создания гибкой информационной среды для хранения документов, включая статьи, доклады, книжные издания. Желательно обеспечить возможность сборки таких документов в группы (коллекции) с последующей возможностью включения этих первичных коллекций в состав других групп, стремясь получить в результате иерархическую структуру, упорядочивающую информационное пространство в целом. Наличие такой структуры дозволило бы пользователям по своему усмотрению подбирать содержание искомых документов и форму их отображения. Все перечисленное способствовало бы также и решению проблемы персонификации информации.
8.1.1. Общая характеристика метаданных и их применение
Для большинства Web-приложений принятой практикой является хранение документов без соответствующей метаинформации, которая указывает автора произведения, время его создания, срок хранения, права доступа и пр. В этих условиях затрудняется поиск специфической информации. С одной стороны это связано с тем, что контекстный поиск ведет к необходимости анализа большого числа документов, которые даже по тематике никак не могут быть отнесены к требуемому их множеству. С другой стороны, в сети Интернет циркулирует огромное количество устаревших документов, доступ к которым нельзя прекратить из-за отсутствия у них самого понятия "срок хранения".
Однонаправленные ссылки, используемые в сети в настоящее время, по существу, препятствуют использованию метаинформации, которая должна обеспечивать описание не только отдельных документов, но и их объединений различного уровня. Поэтому однонаправленные ссылки должны заменяться двунаправленными, снабженными такими атрибутами как имя автора (авторов), время создания, срок хранения и, вероятно, даже тематическое направление. Интересно отметить, что такие атрибуты рекомендовано хранить не вместе с документами, которые они характеризуют, а в отдельной базе данных, что позволит существенно упростить и ускорить поиск таких документов.
Для описания метаданных консорциумом W3C подготовлен стандартный формат их представления – Resource Description Framework (RDF), который определяет основные принципы обработки метаданных и обеспечивает функциональную совместимость Web-приложений, обменивающихся такой информацией. В RDF использованы принципы объектно-ориентированного программирования и моделирования и элементы языков HTML, SGML и XML. Следует заметить, что с одной стороны язык XML описывает в RDF синтаксис метаданных, а RDF, в свою очередь, позволяет описывать семантическую структуру XML-документов и передавать смысл данных, заключенных между XML-тегами. Видимо, именно с помощью метаданных и стандарта RDF постепенно может начаться процесс постепенного превращения Всемирной паутины в упорядоченную систему хранения и модификации разнообразной информации, полностью пригодную для выполнения эффективного поиска и извлечения данных. С другой стороны с помощью метаданных возможно удастся сделать из WWW информационное хранилище, обеспечивающее не только быстрый поиск и удобный доступ к документам, но и эффективное управление огромными объемами данных.
В настоящее время достигнута тесная интеграция различных издательских сетевых технологий: издательская корпоративная интрасеть посредством экстрасети обеспечивает защищенный обмен информацией через региональные сети и глобальную сеть Интернет. Такие связи используются не только для распространения информации об изданиях, издательской рекламы и для решения дистрибьюторских задач, но и для извлечения из сети Интернет информации об изданиях в определенной тематической области и определенных авторов, в частности, работающих с данным издательством. Именно это определяет необходимость соответствия между структурой издательских баз данных и представлением информации в информационных хранилищах, а также в глобальной сети и на поисковых серверах.
Элементы метаинформации позволяют осуществить детерминированный поиск одного или группы изданий. В некоторых случаях наряду с детерминированным поиском требуется обеспечить поиск по другим признакам, в частности, по тематике изданий. Для этого необходимо каждому изданию поставить в жесткое соответствие набор ключевых слов, на основе которого возможна организация почти детерминированного поиска этого изданий. Известно, что в настоящее время основным источником для быстрого получения исчерпывающей информации по самым различным вопросам стала Всемирная сеть Интернет. Именно оттуда следует пытаться с наименьшими затратами, включая рабочее время работников издательства, извлечь нужные данные. Заполнение модулей издательской БД, рассмотренных в главе 7, может производиться вручную, силами специально выделенных сотрудников издательства, но гораздо лучше разработать механизмы для автоматического поиска и извлечения нужной информации из сети Интернет и последующего занесения этой информации в БД.
Как уже говорилось ранее (см. главу 2), функция описания поискового образа документа была возложена на тэг <META>. До этого в качестве поискового образа документа использовался либо весь документ, либо слова первого абзаца. Тэг <META> имеет 2 параметра: NAME, с помощью которого задается имя атрибута и CONTENT, который определяет значение или содержимое этого атрибута. Например:
<META NAME="author" CONTENT="В. А. Вуль">.
<META NAME="description" CONTENT="Учебное пособие АВТОМАТИЗИРОВАННЫЕ ИЗДАТЕЛЬСКИЕ СИСТЕМЫ И ТЕХНОЛОГИИ"> или
<META NAME="description" CONTENT = "документ посвящен проблемам применения тэга 'МЕТА' для описания атрибутов и ключевых слов, используемых в гипертекстовом документе">.
<META NAME="keywords" CONTENT="метаинформация, поиск по ключевым словам, учебное пособие, HTML-документ, атрибутивный поиск>.Здесь с помощью параметра NAME="description" тэга <META> можно задать как название документа, так и его описание или реферат, который сохраняется в качестве пояснения в ссылке на документ в базе данных поискового сервера и выдается на экран монитора в ответе на запрос к серверу. С помощью параметров тэга <META> можно также задать: имя автора, название издательства, время выхода документа в свет, срок хранения документа в сети, и даже список ключевых слов, используемых в нем.
Наиболее последовательно использование этого тэга в поисковых стратегиях реализовано на поисковом сервере Webcrawler. При индексировании документа поисковым роботом значения параметра CONTENT тэгов <META> после фильтрации попадет в индекс поисковой машины и может быть использовано для составления запросов. Процесс фильтрации отбракует в них стоп-слова. В составе атрибутов будут учтены автор, название и т. п.
Многие роботы, индексирующие документы HTML, пользуются описанием, которые они находят в параметре "description" при выводе информации о найденных документах. Если этой инструкции в документе не окажется, то в результатах поиска будет содержаться описание документов в виде 256 или 512 первых их символов, разумеется, за вычетом команд языка HTML. Возможность контролировать то, какое описание страницы получит пользователь, позволяет повысить шансы на извлечение этой Web-страницы посетителем, интересующимся именно этой темой. Наличие мета-описания позволяет пользователю поисковой машины даже при беглом просмотре списка обнаружить нужные ему страницы.