- Любовные романы
- Фантастика и фэнтези
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Электронные издания - Владимир Вуль
Шрифт:
Интервал:
Закладка:
Хранение изданий требует обязательной организации системы поиска. Существуют два варианта поиска изданий пользователем. В первом случае производится поиск электронного издания, о котором точно известно, что оно существует, и известен хотя бы один его поисковый атрибут. Такие системы называют фактографическими, так как в них каждому изданию однозначно соответствуют поисковые атрибуты. Во втором случае ставится задача отыскания всей совокупности электронных изданий по определенному тематическому направлению. В последнем случае заранее неизвестно не только количество изданий, но даже сам факт их существования. Такие системы называют документальными. Большинство аналитических и исследовательских задач на начальной стадии реализации связано с применением второго варианта поиска. В частности, на этапе постановки задачи всегда проводится обзор литературы по рассматриваемому вопросу.
Методы организации поиска также могут быть разделены на 2 группы. К первой из них относится так называемый атрибутивный поиск. Он основан на том, что каждый документ (издание представляет собой частный случай документа) характеризуется определенным набором атрибутов (полей). Эти поля заполнены конкретной информацией, которая изменяется для различных изданий. При поиске проверяется совпадение значений, содержащихся в запросе, со значениями в соответствующих полях каждого из изданий. Такой метод организации поиска характерен для фактографической модели.
К атрибутам изданий относят: название, автора (авторов), время создания, ISBN (индивидуальный номер издания по универсальной книжной классификации) и так далее. В последнее время набор атрибутов все чаще называют метаинформацией. Этот термин уже упоминался во второй главе, когда мы рассматривали содержимое заголовочной части HTML-издания. За рубежом делаются попытки стандартизации электронного описания для любого издания. В частности, имеются библиотечные стандарты, в том числе и отечественные, а также стандарты описания, существующие в книжной торговле. Ко второй группе средств относится полнотекстовый поиск и выборка изданий. Действительно, любая книга, в том числе и в электронном виде, представляет собой слабоструктурированный набор символов, организованных в слова, предложения, разделы, параграфы и главы. Для организации полнотекстового поиска необходимо вначале произвести индексацию изданий, составить для них так называемый полнотекстовый индекс. В простейшем случае он представляет собой список всех значащих слов в текстовой базе данных с указанием, в каких изданиях встречаются эти слова. Встречаются многоуровневые индексы, в которых на верхнем уровне расположен словарь или поисковый индекс слова. В нем каждому значащему слову соответствует указатель на расположенный на следующем уровне список местонахождений или индекс ссылок, в котором содержатся адрес издания и, иногда, позиция слова внутри документа.
Многие из читателей, вероятно, использовали полнотекстовый поиск, работая в сети Интернет с поисковыми серверами. В этом случае в специальное поле поиска вводится конструкция из некоторого количества слов или фраз, иногда связанных друг с другом знаками логических операций. Соответствующий механизм на сервере автоматически проверяет содержимое ссылок на документы, содержащихся в его базе данных и выдает результат поиска в виде списка подходящих или релевантных документов.
Можно сформулировать 4 основных отличия полнотекстовой выборки от атрибутивной:
✓ полнотекстовая выборка отвечает на запросы с меньшей точностью;
✓ она вероятностная, а не детерминированная;
✓ критерием правильности выборки является не точное совпадение, а лишь пригодность извлеченного из базы издания;
✓ время поиска и извлечения издания в большей степени зависит не от технических средств, а от качества формулирования запроса и скорости анализа пользователем пригодности извлеченных из базы изданий.
Нетрудно понять, что первой модели наилучшим образом соответствует атрибутивный поиск, а второй – полнотекстовый. Принципиальное отличие между этими двумя методами поиска состоит в том, что результат применения атрибутивного поиска детерминированный, в то время как полнотекстовый поиск следует характеризовать как вероятностный, т. е. его результат содержит набор документов, характеризуемых определенным уровнем релевантности или пригодности.
Исторически первыми использовались базы данных для хранения структурированной информации с жестким набором атрибутов. Затем возникла необходимость хранения документов, включая журналы и книги, которые представляют собой набор неструктурированной или почти неструктурированной информации. В последние годы возникла определенная тенденция к разметке или структурированию текстовых документов. Для этого созданы специальные языки, в частности, SGML (Standard Generalized Markup Language) и XML (Extensible Markup Language).
Атрибутивный поиск проще и быстрее, а также позволяет получить точный, а не вероятностный, результат. Для его реализации не требуется создавать полнотекстовый индекс, занимающий значительное дисковое пространство, а также сложные поисковые механизмы. Кстати, в последние годы даже в сети Интернет взят курс на поисковые системы, основанные на частичном использовании метаинформации, по крайней мере, в тех случаях, когда эта информация известна пользователю. Вводится и соответствующий стандарт на содержание атрибутов на каждой Web-странице для реализации такого поиска. Тем не менее, полнотекстовые базы и поиск пока еще достаточно широко используется в издательских информационных системах.
Известно несколько методов поиска в текстовых базах данных, на которых автору хотелось бы остановиться. Первой и наиболее простой моделью поиска является просмотр, т. е. процесс сходный с обычной работой с книгой. В этом случае из базы данных извлекается определенное электронное издание, и пользователь знакомится с его содержанием. Используя современные средства навигации, можно перемещаться по каталогу изданий, раскрывать нужные книги и просматривать их оглавления и аннотации. Для больших баз данных такой способ неэффективен и может использоваться только в сочетании с другими моделями.
Вариантом этой модели является связанное чтение, которое использует концепцию гипертекста и переходы по гиперссылкам внутри одного издания или даже между изданиями, включая рисунки, звуковые и видеофрагменты.
Чаще всего применяется Булевы модели поиска, использующие в качестве основы логические конструкции, т. е. слова или фразы (последние заключаются обычно в круглые скобки), объединенные знаками логических операций И (AND, &), ИЛИ (OR) и НЕ (NO). Входящие в конструкцию смысловые элементы, т. е. слова и фразы, если последние рассматриваются как единое целое, обычно называют термами. Если в результате запроса поисковая система выдала чрезмерно большой список документов, запрос можно попытаться усложнить, включив в него большее количество термов и операторов И, предполагающих одновременное наличие в документе базовых слов и фраз. Наоборот, если найдено небольшое количество пригодных (релевантных) документов, запрос можно упростить, исключив из него отдельные конструкции с оператором И (или добавив конструкции с оператором ИЛИ).
Специальное программное обеспечение может обеспечить автоматическую оценку степени полезности каждого из извлеченных изданий. Эта оценка делается на основе частоты, с которой встречаются в издании термы, используемые в запросе. Результаты обычно сортируются по степени релевантности. Такая модель поиска используется, в частности, на поисковом сервере Rambler.
Векторная модель поиска основана на представлении каждого отдельного издания некоторым вектором в N-мерном пространстве. Запрос также представляется в виде вектора. Степень полезности документа, определяется как его близость в указанном N-мерном пространстве к вектору запроса. Количественная оценка близости найденного документа к запросу выражается косинусом угла между этими векторами и изменяется в пределах от 0 до 1.
Векторная модель поиска обязательно подразумевает последовательные итерации. В начале поиска пользователь из всего множества выбранных изданий определяет некоторые как нужные, полезные для него. На основании этого выбора вырабатывается уточненное положение вектора запроса
Эффективность – главный критерий при определении применяемого метода полнотекстовой выборки. Эффективность поиска издания можно описать двумя характеристиками: точность и охват. Точность µ определяется отношением числа релевантных документов R к общему количеству документов в выборке N (µ = R/N). Охват ∑ характеризуется отношением числа релевантных документов в выборке R к общему числу релевантных документов в базе данных T (∑ = R/T).