- Любовные романы
- Фантастика и фэнтези
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Электронные издания - Владимир Вуль
Шрифт:
Интервал:
Закладка:
Демонстрационная версия этой программы доступна бесплатно на сайте фирмы. Применение программы резко сокращает время, необходимое эксперту для погружения в тематику, и дает множество подсказок и наводящих соображений для тонкого и углубленного анализа как всей информации в совокупности, так и отдельных ее фрагментов. Интересно отметить, что на одном из семинаров, где автор в числе прочего докладывал и об использовании данной программы в поисковых стратегиях, одним из слушателей был указан интересный аспект использования таких программ – для анализа текстов с целью определения их авторства.
В настоящее время распространяется более современная версия TextAnalyst 2.01. Эта программа позволяет на первых же этапах работы с множеством текстов ответить на естественные вопросы, возникающие по ходу анализа: какие термины содержатся в тексте и какова частота их повторения. Она резко сокращает время, необходимое для погружения в тематику, и дает множество подсказок и наводящих соображений для тонкого и углубленного анализа как всей информации в совокупности, так и отдельных ее фрагментов. Первые успехи эксперта при работе с анализаторами текстов, как правило, служат основой для постановки более сложных задач анализа и структурирования.Рис. 8.7. Интерфейс и заставка программы TextAnalyst 1.5
TextAnalyst разработан в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности:
1. Анализа содержания текста с автоматическим формированием семантической сети с гиперссылками – получения смыслового портрета текста в терминах основных понятий и их смысловых связей.
2. Анализа содержания текста с автоматическим формированием тематического древа с гиперссылками – выявления семантической структуры текста в виде иерархии тем и подтем.
3. Смыслового поиска с учетом скрытых смысловых связей слов запроса со словами текста.
4. Автоматического реферирования текста – формирования его смыслового портрета в терминах наиболее информативных фраз.
5. Кластеризации информации, т. е. анализа распределения материала текстов по тематическим классам.
6. Автоматической индексации текста с преобразованием в гипертекст.
7. Ранжирования всех видов информации о семантике текста по "степени значимости" с возможностью варьирования детальности ее исследования.
8. Автоматического/автоматизированного формирования полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации [12].
Результаты работы программы TextAnalyst 2.01. представлены на рис. 8.8. Анализу была подвергнута статья "Общая концепция издательской базы данных". Как следует из рис. 8.8 интерфейс TextAnalyst построен в виде трех взаимосвязанных окон:
✓ окно 1 – окно значимых элементов текста, располагается в левом верхнем углу экрана;
✓ окно 2 – окно для ссылок к предложениям текста, располагается в правом верхнем углу экрана;
✓ окно 3 – окно анализируемых текстов, располагается в нижней части экрана.
Перейдем к закладке "Семантическая сеть" в окне 1 (третья кнопка слева внизу окна). Теперь в окне 1 представлена (в виде обычного дерева) сеть основных понятий проанализированных текстов.
Прежде всего, изучив предложенный материал, TextAnalyst формирует именно сеть основных (наиболее значимых) понятий, содержащихся в представленном ему тексте. Такая сеть служит смысловым представлением текста и основой для всех видов дальнейшего анализа. Сеть понятий – это множество терминов из текста, т. е. слов и словосочетаний, связанных между собой по смыслу. В сеть включены не все термины текста, а лишь наиболее значимые, несущие основную смысловую нагрузку. Аналогичным образом представлены и смысловые связи между понятиями текстов – отражаются лишь наиболее явно выраженные из них. Поэтому, с одной стороны сеть достаточно полно описывает смысл анализируемого текста, а с другой – позволяет отбросить несущественную информацию и представить содержание в сжатом виде, так называемым смысловым портретом. При этом каждое понятие, повторявшееся в различных местах документа, оказывается представленным в единственном узле сети. В этом узле также собирается разбросанная информация, касающаяся этого понятия – формируется список предложений, в которых оно употреблялось.Рис. 8.8. Интерфейс программы TextAnalyst 2.01
Различные формы слов, конечно же, приводятся к общей грамматической форме для отображения в один элемент сети. Аналогичным образом собирается информация по смысловым связям каждого понятия – в виде списка всех связанных с ним в тексте понятий, дополненного предложениями, в которых отражаются данные связи. Таким образом, можно сразу увидеть всю информацию по каждому понятию – тематике текста, буквально бросив единственный взгляд на набор его связей в сети. В результате, передвигаясь по смысловым связям от понятия к понятию, можно будет находить и предметно исследовать лишь наиболее важные и интересующие исследователя места документа, не затрудняясь просмотром всей промежуточной информации. Сказанное иллюстрируется данными, представленными на рис. 8.9. Каждый элемент сети, т. е. определенное понятие, характеризуется некоторой численной оценкой – так называемым смысловым весом. Связи между парами понятий, в свою очередь, также характеризуются весами. Эти оценки позволят сравнить относительный вклад различных понятий и их связей в семантику текста, выявить наиболее подробно проработанную в тексте тематику и вторичные темы, задать способ сортировки информации, и наконец, позволят взглянуть на весь текстовый материал по пластам – смысловым срезам различной глубины – от поверхностного знакомства с содержанием до глубокого проникновения в его мельчайшие детали и подробности.
Рис. 8.9. Интерфейс программы TextAnalyst 2.01 с загруженным текстовым документом и результатами анализа семантической структуры этого документа
Итак, на рис. 8.9 в окне 1 представлена сеть понятий (активна третья слева кнопка в нижней строке этого окна). Если подвести к значку возле выбранного понятия указатель мыши и выполнить двойной щелчок ее левой кнопкой, то раскроется список всех понятий, связанных с выбранным. Для того чтобы просмотреть всю информацию, относящуюся к данному понятию, следует щелкнуть мышью по первому пункту ( <все> ) раскрытого списка. После этого в окне 2 появятся все предложения текстов, включающие это понятие, причем оно само будет выделено красным цветом. В том случае, когда пользователя интересует не вся информация о выбранном понятии, а лишь та, которая касается его связи с одним из понятий в раскрытом ниже списке окна 1 , следует указать мышью на это связанное с исходным понятие. В результате этого действия, в окне 2 появятся все предложения текстов, включающие выбранную описанным способом пару понятий, также выделенную цветом. Если сделать двойной щелчок мышью по интересующему нас предложению в окне 2 , то в окне 3 появится конкретное место исходного текста. Соответствующие места выделены темным в этих двух окнах на рис. 6.9.
Теперь следует обратить внимание на пары чисел, расположенных вблизи понятий в окне 1 на рис. 8.9. Ближайшее к понятию число (расположенное левее) представляет его смысловой вес. Его значение изменяется от 1 до 100 и показывает, насколько важную роль играет это понятие для смысла всего текста, иначе говоря, ранжирует данное понятие. Максимальное значение, равное 100, говорит о том, что понятие является ключевым и представляет важнейшую тему текста. В нашем случае самым важным является понятие базы данных или аббревиатура БД, вследствие чего ему приписан вес 99. Малый смысловой вес, близкий к единице, показывает, что соответствующая тема лишь вскользь упомянута в тексте и количество информации, относящейся к данному понятию, минимально.
Другое число, находящееся ближе к раскрытому узлу (т. е. левее), представляет вес связи понятия, расположенного в узле или вершине раскрытого списка, и данного понятия. Вес связей также принимает значение от 1 до 100. Большое значение веса связи от одного понятия к другому, близкое к 100, указывает на то, что подавляющая часть информации в тексте, касающаяся первого, касается в тоже время и второго понятия – первая тема почти всегда излагается в контексте второй. Иначе говоря, два этих понятия тесно коррелированны друг с другом. При малых значениях, близких к единичному, узловое или первое понятие слабо связано со вторым, а уровень их взаимной корреляции близок к нулю. Следует отметить, что связь между парой понятий сети характеризуется направлением (т. е. подобна вектору). Связь от первого понятия ко второму не совпадает по величине с обратной связью, т. е. от второго к первому.