- Любовные романы
- Фантастика и фэнтези
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Электронные издания - Владимир Вуль
Шрифт:
Интервал:
Закладка:
Алгоритм действий при автоматическом создании информационного файла следующий:
1. Сбор информации о вводимых запросах на поисковых серверах и запись ее в лог-файл.
2. Автоматический анализ документов, найденных в ходе запросов на различных поисковых серверах, с помощью программ, рассмотренных в разд. 8.3. Выявление ключевых слов и понятий и их ранжирование. Запись полученной информации в файл.
3. Экспериментальная проверка релевантности полученного результата.
Самый простой способ сбора вводимой информации – использование так называемых "клавиатурных шпионов". Подобные программы отслеживают и записывают в лог-файл (т. е. файл с расширением log) всю вводимую с клавиатуры информацию. Таких программ достаточно много. В качестве примера использовалась программа HookDump 2.8 (разработчик И. В. Осипов). HookDump позволяет определить, какие программы загружали, что в них набирали, какие кнопки мыши нажимали. Лог-файл создается автоматически в указанном каталоге.
При анализе документов определяется способ выборки ключевых фраз из документа для построения информационного файла, а также способ выделения корня, иначе – стемминг слов (stem – грамматическая основа, корень). Стемминг используется для отбрасывания от слова суффиксов и окончаний. Двумя наиболее популярными алгоритмами стемминга являются алгоритмы Портера (Porter) и Ловинса (Lovins). Оба алгоритма используют эвристические методы удаления или трансформации английских суффиксов. Другим подходом может служить составление словаря, где каждому используемому слову соответствует определенный корень (stem) [35].
Алгоритм Ловинса более агрессивен, т. е. он активнее стремится к тому, чтобы привести слова к одному корню, но и допускает больше ошибок. Тем не менее применительно к выборке ключевых слов агрессивный стемминг подходит лучше, чем традиционный. Для повышения агрессивности стемминга часто применяется метод нескольких последовательных итераций.
В целом, проблему выборки из текста ключевых слов и выражений можно рассматривать как классификацию. Если представлять документ как порядок слов и фраз, то задача в отношении каждого слова и фразы заключается либо в отнесении его к категории ключевых выражений либо нет. Оценка результатов автоматической классификации связана с тем, насколько машинный результат совпадает с результатом, полученным в результате анализа текста человеком или группой специалистов в рассматриваемой прикладной области.Контрольные вопросы
1. Что такое метаинформация и какие отношения между публикациями и метаинформацией?
2. Какие атрибуты включаются в понятие метаинформация? Что кроме атрибутов входит в это понятие?
3. Какой тэг используется для размещения метаинформации в HTML-документах? В какой части документа размещается этот тэг? Какие два параметра характерны для этого тэга и как задаются атрибуты с помощью этих параметров в составе документа?
4. Позволяет ли метаинформация осуществлять детерминированный поиск? Если позволяет, то как это делается?
5. Какой из поисковых серверов уже использует метаинформацию при поиске документов? Как это реализуется практически?
6. Как организовать начальный поиск документов по заданной тематике? Как в ключевых словах определить эту тематику? Как организованы поисковые индексы (ссылочная база данных) на серверах? Чем отличается ручная каталогизация и организация поискового индекса с помощью программ-роботов? На каких серверах лучше организовать поиск на начальной стадии работы?
7. Что гласит первый закон Зипфа и как его использовать на практике? Какие значения ранга соответствуют наиболее значимым словам и выражениям?
8. В чем состоит содержание второго закона Зипфа и какое его практическое значение? Как установить диапазон значимых слов и на что влияет выбор этого диапазона?
9. В чем состоит смысл третьего закона Зипфа и какова его формулировка? Зачем нужна "инверсная частота термина" и на что она влияет?
10.Что такое программы-экстракторы и для чего они нужны? Какие специализированные программы этой группы вам известны? Может ли в этих целях использоваться одна из распространенных программ, а если может, то как?
11.В чем состоит простой семантический анализ текста? Можно ли автоматизировать процесс определения частоты повторения слов и выражений? 12.Какие средства редактора MS Word можно использовать для анализа текста? Как и в какой последовательности это сделать практически?
13. Какие программы-экстракторы производства зарубежных фирм вы знаете? А программы-экстракторы, произведенные отечественными фирмами и предприятиями?
14.Какие функции может выполнять, по мнению разработчиков, программа для семантического анализа текстов TextAnalyst? Как вы думаете, можно ли создать нечто подобное для работы с компьютерной графикой?
15.Какова последовательность работы с текстом этой программы? Что такое "сеть понятий" и как она формируется?
16.Какая численная характеристика используется для описания элементов сети? Как оценивается связь между парами понятий? Где можно прочесть ее численное значение?
17.Что такое "тематическая структура" исследуемого в программе TextAnalyst документа? Как просмотреть эту структуру?
18.Какие специализированные модули следует пополнять в издательской базе данных для обеспечения правильной информационной политики данного издательства? Каково должно быть содержание этих модулей?
19.Как построить информационно-поисковую систему на основе браузера? Какие основные части в нее следует включить? Можете ли вы изобразить схему информационного взаимодействия между этими частями системы?
20.Какие модели поиска возможны в информационно-поисковых системах? Какие из них чаще используются и почему?
21.Как осуществляется коррекция запроса в зависимости от множества документов, полученных в результате его выполнения?
22.Какую роль играет "информационный профиль" системы? Какие средства для его представления используются?
23.Что такое тезаурус? Какова роль синонимов, омонимов и морфологических вариаций слов при его составлении?
24.Какова процедура при составлении тезауруса на практике? Какие основные моменты в процессе обработки текста? Как выбирается исходный текст или тексты?
25.Что такое семантический срез и как выглядит структура тезауруса, построенного на основе таких срезов?
26.Что такое, в вашем представлении, профайл пользователя? Как можно сформулировать его определение?
27.Как можно автоматизировать процесс создания профайла пользователя? Какое в этом случае, будет участие самого пользователя?
28.Что такое "стемминг" слов и для чего он нужен? Какие алгоритмы используются для реализации "стемминга"?
Самостоятельная (лабораторная) работа
Работа № 8.1. Семантический анализ заданного документа и организация поиска документов, близких по тематике
Порядок выполнения работы
1. Скопируйте в одну из папок (например, c:el-pubslab-81) на жестком магнитном диске вашего ПК папку К главе 8 – документы для анализа, размещенную на гибком магнитном диске, прилагаемом к пособию. В папке находятся 16 различных файлов в формате DOC.
2. Загрузите имеющийся на вашем компьютере редактор Word (любой из версий от Word 97 до Word 2002) и откройте в нем один из документов, например 5.doc. Анализ этого заданного документа, а затем поиск и ранжирование найденных документов на соответствие их тематики тематике исходного документа составит предмет этой работы.
3. Вызовите диалоговое окно Автореферат (см. разд. 8.3.1), установите размер реферата 25% и задействуйте опцию Обновить сведения о документе . Затем командой Файл | Свойства активизируйте диалоговое окно Свойства , выбрав в нем вкладку Документ . Выпишите ключевые слова из соответствующей строки.
4. Попробуйте разделить исходный документ на несколько (2—4) части, оставив за каждой частью прежнее наименование. Далее проанализируйте каждый из вновь полученных документов (частей исходного) таким образом, как это указано в п.3. Выпишите ключевые слова для каждого из них. Затем попробуйте составить общий перечень ключевых слов для всего документа и сравните эти слова с теми, которые были получены в п.3.
5. Если у вас на компьютере установлена программа TextAnalist, то проанализируйте исходный документ с помощью этой программы и выделите 10 наиболее важных ключевых слов и выражений. Выпишите эти слова.
6. Если у вас установлена программа MTAS (см. разд. 8.3), то с помощью этой программы постройте график частот отдельных слов и выражений, встречающихся в исходном документе. Выпишите те слова и выражения, которые достаточно часто встречаются и отражают, по вашему мнению, тематику документа.
7. Если программы MTAS у вас нет, попробуйте вручную построить такой же график, подобный рассмотренному в п. 6. При построении графика однокоренные слова учитывайте как повторяющиеся значения слова. Выпишите те слова и выражения, которые достаточно часто встречаются и отражают, по вашему мнению, тематику документа.