- Любовные романы
- Фантастика и фэнтези
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Электронные издания - Владимир Вуль
Шрифт:
Интервал:
Закладка:
Таким образом, сеть понятий действительно представляет идеальное описание текста – информация в ней отражает все присутствующие смысловые связи, т. е. обеспечивает полноту смыслового портрета анализируемого документа. Однако для большинства из нас более привычны направленные графы информационного представления документов, в которых связи ориентированы в направлении от главного к второстепенному. Этому представлению соответствует так называемая тематическая структура рассматриваемого документа. Тематическая структура описывает содержание анализируемых текстов в виде иерархии связанных тем и подтем. Все темы и подтемы выражены в терминах исходного текста и соответствуют узлам сети понятий. Однако, в данном случае, связи между понятиями односторонние и направлены от главного понятия к подчиненным.
Таким образом, тематической структуре соответствует иерархическое представление – от каждой темы раскрываются связи только к ее собственным подтемам, от них – к подтемам следующего уровня и т. д. Тематическая структура имеет вид дерева, в корне которого стоят главные темы, в ветвях – их подтемы. Общий вид тематической структуры отражает смысловую организацию анализируемого документа. Если вся информация в документе подчинена единой теме, структура будет иметь вид дерева с единственным корнем. Если же его содержание отражает несколько тематических направлений, не связанных друг с другом, то дерево распадается на несколько независимых кустов, корни которых представляют главные темы, не связанные друг с другом.Рис. 8.10. Интерфейс программы TextAnalyst 2.01 с загруженным текстовым документом и результатами анализа тематической структуры этого документа
Для просмотра тематической структуры следует активизировать в окне 1 закладку "Тематическая структура", нажав вторую кнопку слева в этом окне. На рис. 8.10 тематическая структура представляется в окне 1 в виде дерева понятий – названий тем, некоторые из которых имеют раскрывающиеся списки связей с подтемами. Понятия в корне дерева представляют список главных тем текстов, а связанные с ними элементы в списках последующих уровней – списки подтем. Программа TextAnalyst дает возможность регулировать степень связности тематического дерева. Для этого следует изменять порог по весу связей в сети понятий. Выбирая определенный уровень в качестве порогового значения связей, мы изменяем вид дерева, разбивая его на большее или меньшее количество тематических кустов. В результате появляется возможность взглянуть на структуру текста в различных срезах, на разных уровнях глубины материала. С точки зрения интерфейса, анализ тематической структуры документа аналогичен работе с семантической сетью. Анализ тематической структуры также иллюстрирует тот факт, что в программе осуществляется морфологический анализ слов с группированием однокоренных.
8.4. Автоматизация пополнения информацией специализированных модулей атрибутивной базы данных
Для успешного планирования издательской деятельности необходимо регулярно следить за текущим уровнем развития науки и техники в тех ее областях, которые соответствуют выпускаемым в свет этим издательством книгам. Следовательно, в базе данных должен быть предусмотрен специальный модуль "Последние издания", где представлены новинки других издательств в определенной области или областях. Перед заключением договора с автором или авторами очень важна информация относительно области научно-практических интересов авторов и их достижениях в этой области. Таким образом, в базе данных следует предусмотреть раздел "Персоналии", где сосредоточена информация о публикациях сотрудничающих с издательством авторов, включая библиографические данные, отзывы, аннотации, списки рубрикаций и, иногда, тексты самих этих изданий.
Наконец, для проведения правильной издательской политики необходимо ориентироваться в том, какие книги уже изданы или намечены к изданию другими издательствами в той тематической области, в которой предполагается выпустить в свет книгу в данном издательстве. Кстати, исчерпывающая информация по данному вопросу помогает заблаговременно определить, не предлагают ли авторы свои произведения одновременно нескольким издательствам, не являются ли новые предложения попыткой переизданий с небольшими изменениями ранее изданных работ и так далее. Таким образом, и с этих позиций очевидна необходимость модуля "Последние издания" различных издательств.
Чтобы принятие решений руководством издательства производилось в условиях полного обеспечения нужной информацией, база данных должна систематически пополняться сведениями в тех двух направлениях, которые были указаны выше. Известно, что в настоящее время основным источником для быстрого получения исчерпывающей информации по самым различным вопросам стала Всемирная сеть Интернет. Именно оттуда следует пытаться с наименьшими затратами, включая рабочее время работников издательства, извлечь нужные данные. Заполнение этой части издательской БД может производиться вручную, силами специально выделенных сотрудников издательства, но гораздо лучше разработать механизмы для автоматического поиска и извлечения нужной информации из сети Интернет и последующего занесения этой информации в БД.
В связи с этим встает ряд проблем, касающихся того, как эффективно организовать поиск и извлечение требуемой информации. Это относится и к оптимизации построения запросов на поиск, и к оценке релевантности извлекаемых из сети документов, и к информационной структуре модулей, в которые заносится извлекаемая из сети Интернет информация. Рассмотрению всех изложенных выше прикладных задач посвящается текущий раздел.
8.4.1. Основы организации современных информационно-поисковых систем
Рассмотрим типовую схему информационно-поисковой системы для сети Интернет, которая представлена на рис. 8.11. Браузер , как уже говорилось ранее, это программа просмотра конкретного информационного ресурса, являющегося объектом поиска информационно-поисковой системы (ИПС). Под интерфейсом пользователя ИПС понимается способ общения пользователя с поисковым аппаратом системы, т. е. с системой формирования запросов и просмотра результатов поиска. Поисковая машина служит для трансляции запроса пользователя, который подготавливается на информационно-поисковом языке (ИПЯ), в формальный запрос системы, а также поиска ссылок на информационные ресурсы сети и выдачи результатов этого поиска пользователю. Индекс ссылок – это основной массив данных информационно-поисковой системы. Он размещается на поисковом сервере и служит для поиска адреса (URL) информационного ресурса. Архитектура индекса должна строиться таким образом, чтобы можно было бы оценить релевантность каждой из найденных ссылок на информационные ресурсы. Запросы пользователя целесообразно сохранять в его личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно хранить запросы, на которые система дает хорошие ответы. Робот-индексировщик – это программа автоматического сканирования сети Интернет и поддержки индекса ссылок на поисковом сервере в актуальном состоянии. Наконец, под Web-сайтами подразумеваются просматриваемые информационные ресурсы глобальной сети.
ИПС гораздо старше систем управления базами данных. Они продолжают успешно развиваться в своей нише, оказывая влияние и на ресурсы глобальных сетей. Эти системы имеют строго определенную структуру документа хранения, которая наиболее полно описана в стандарте для разработчиков распределенных ИПС – Z.3950. К слову, этот стандарт по своим потенциальным возможностям столь обширен, что ни одна из существующих систем не реализует его в полной мере. Сам поиск обычно строится на основе преобразования предложений информационно-поискового языка в запросы информационной системы. Язык может основываться на терминах, словоформах или устойчивых словосочетаниях, всю совокупность которых обычно называют словарем системы.
Рис. 8.11. Типовая схема информационно-поисковой системы для глобальной сети
В современных ИПС чаще используется векторная модель поиска и представления документа. В ней можно выделить несколько основных понятий: словарь, документ, поток и процедуры поиска и коррекции запросов. Под словарем понимают упорядоченное множество терминов, мощность которого обозначают как D. Документ – это двоичный вектор размерности D. Если термин входит в документ, то в соответствующем разряде этого двоичного вектора присутствует 1, в противном же случае – 0. Информационный поток или массив L представляют в виде матрицы размерности N × D, где в качестве строк выступают поисковые образы N документов. При таком рассмотрении можно сформулировать процедуру обращения к информационной системе следующим образом:
L × q = r, (8.3)