Профессиональный поиск в Интернете - Алексей Кутовенко
Шрифт:
Интервал:
Закладка:
Интерфейс данного сервиса построен на технологии Flash. Поиск ведется в простом режиме и начинается указанием ключевого слова в поле поиска. Из дополнительных возможностей доступна только возможность выбора одного из одиннадцати поддерживаемых WikiMindMap локализованных версий Wikipedia. Русскоязычной версии (Википедии) в этом списке, к сожалению, пока нет. После нахождения подходящих энциклопедических статей в дело вступает алгоритм сортировки найденного. Найденные записи представляются в виде карты разума со всеми присущими этим картам особенностями, в том числе центральной темой (указанного в поисковом запросе ключевого слова) и иерархической структурой связанных терминов, которые выделяются пусть и не всегда безгрешно, но вполне достойно (рис. 4.5).
Рис. 4.5. Система визуализации WikiMindMap
На первом уровне иерархии WikiMindMap обычно находятся не отдельные термины, а их тематические группы, которые можно раскрывать, щелкая на значке +. Кнопки с зелеными стрелками перестраивают карту, помещая в ее центр соответствующее ключевое слово. Щелчок на конкретном термине открывает соответствующую страницу Wikipedia. Кроме страниц Wikipedia, на карте могут присутствовать и ссылки на внешние ресурсы. Они также берутся со страниц энциклопедии и помечаются особым значком. В результате привычная энциклопедия приобретает новые черты, информация автоматически структурируется, что действительно совершенствует процесс поиска справочной информации. Заметим, что работает система весьма и весьма быстро.
Полученную онлайновую карту можно сохранить на своем компьютере как файл в формате популярного свободного редактора карт разума FreeMind. Можно скачать и саму программу WikiMindMap. На сайте проекта представлено несколько различных скомпилированных версий, а также выложен архив с исходным кодом WikiMindMap.
Universe
Сервис Universe – это проект, находящийся на грани собственно интернет-поиска и изобразительного искусства. Для поиска применяются стандартные инструменты новостного сервиса Daylife, на серверах которого и работает Universe. Визуальный интерфейс проекта выполнен с помощью другой готовой технологии – инструментов проекта Processing.
Возможности составления запроса в Universe скромные – предусмотрен только режим простого поиска. После запуска поискового механизма система сама генерирует визуальную «вселенную», которая выглядит именно как карта звездного неба. Просмотр предлагается начать со щелчка на карте, после чего в ее центр выводится основной термин поиска. Дополнительные результаты демонстрируются в виде своеобразного кольца вокруг центральной темы (рис. 4.6).
Рис. 4.6. Система Universe предлагает оригинальный визуальный интерфейс поиска
При поиске и группировке новостей данный ресурс пытается автоматически устанавливать связи между событиями, персоналиями и сообщениями различного типа (текстовыми, видео, фото), проходящими в общем потоке новостей.
С технической точки зрения Universe – это Java-апплет, поэтому для его работы на компьютере должна быть установлена последняя версия Java-машины. Кроме того, апплет достаточно требователен к компьютеру пользователя. Кроме естественного для веб-приложения требования быстрого интернет-канала, для использования Universe рекомендуется наличие на компьютере пользователя не менее 2. Гбайт оперативной памяти. Для относительно маломощных устройств предлагается более демократичная версия Universe Mini. Она загружает меньшее количество результатов за сеанс поиска, а также выводит визуальную карту не в полноэкранном режиме, а в небольшом окне, что благоприятно сказывается на быстродействии.
Выводы и рекомендации
В этой главе рассмотрены два интересных направления совершенствования интернет-поиска. Современные семантические поисковики являются в большей степени экспериментальными машинами, находящимися в стадии развития. Для того чтобы получить реальную пользу от использования таких поисковиков, приходится, как обычно, учить «матчасть» и держать в уме особенности современной реализации алгоритмов таких машин при составлении собственных поисковых запросов. Поэтому чтобы получить практическую выгоду от их применения, все равно придется конструировать запросы с оглядкой на ограниченные возможности их машинного разбора. Наилучшим образом такие машины обрабатывают прямые вопросы, содержащие более-менее точные указания на область поиска, то есть слова «Где?», «Когда?», «Сколько?» и им подобные. В таких случаях результаты выдачи семантических машин действительно могут оказаться более качественными, чем у обычных универсальных поисковиков, в чем нетрудно убедиться самостоятельно.
Стоит признать, что потенциал у таких поисковиков действительно большой, однако в настоящее время в данных системах реализованы далеко не все возможные семантические технологии, по сути своей, сейчас они только помогают выделить ключевые слова из свободно построенных фраз и подобрать дополнительные словоформы для составления корректного поискового запроса.
Визуальные поисковые системы действуют на стыке областей собственно интернет-поиска и анализа данных. Не случайно в них широко применяются технологии кластеризации данных. Самые полезные и инновационные системы такого плана – Quintura и AllPlus. Обе эти системы можно рекомендовать широкому кругу пользователей.
Глава 5
Рекомендательные машины
Эпоха «социального Web 2.0» открыла новую ипостась интернет-поиска. Появились поисковые сервисы, по-английски метко названные «Discovery Engines», то есть «машины открытий». Наиболее распространенный вариант перевода этого названия на русский язык – рекомендательные сервисы. Обычные поисковики способны работать только по прямому запросу пользователя и обладают ограниченными возможностями его уточнения. Запросы на рекомендательных машинах работают по принципу анализа ассоциативных связей. Проанализировав тем или иным способом предоставленную пользователем информацию о его вкусах или потребностях, такие машины автоматически подбирают подходящие предложения из своих баз. Метод поиска, основанный на сборе подобной статистики и применении статистических методов анализа, принято называть «коллаборативной фильтрацией». Рекомендательные машины без преувеличения являются одним из самых полезных классов поисковых приложений Web 2.0.
Рекомендательная функция современных интернет-сервисов становится все более выраженной. Инструменты автоматической рекомендации доступны на значительном количестве мультимедиа-хостингов, а также являются частыми гостями интернет-магазинов. Однако используемые в таких проектах алгоритмы достаточно просты и редко могут похвастаться точными попаданиями. В то же время существует ряд сервисов, для которых рекомендации – это основная специализация. Именно такие решения рассмотрены в данной главе.
Рекомендательные машины можно разделить на два типа: универсальные и тематические. На универсальных ресурсах можно искать и получать рекомендации не только по выбору книг или фильмов, но и музыки, подарков, телепередач, сайтов и других объектов. Тематические рекомендательные машины, как правило, сосредотачиваются на каком-либо одном виде контента. Здесь рассмотрены лучшие представители этих направлений. Примером универсального ресурса выступает крупнейший российский проект рекомендательного плана Imhonet. Тематические проекты представлены сервисами, работающими с музыкой, видео и веб-сайтами.
Imhonet
Информацию, необходимую для расчета рекомендаций, система получает социальными методами. Каждому новому пользователю Imhonet предлагается выставлять оценки предлагаемым объектам. Как только накапливается некий необходимый минимум оценок, пользователь начинает получать рассчитанные именно для него рекомендации и прогнозы.
Чтобы пользоваться рекомендациями можно было как можно скорее, уже в ходе регистрации аккаунта Imhonet предлагается оценить два десятка книг, фильмов и подарков. За счет продуманного интерфейса (на странице выводится сразу шесть объектов, а новые подгружаются по мере оценивания), этот процесс проходит на редкость быстро.
Наиболее качественно на Imhonet реализована работа с фильмами и книгами. Для определения оценок по десятибалльной шкале предлагается весьма функциональная панель. На ее вкладке. Детализированная оценка можно оценить до десятка отдельных характеристик фильма или книги, а также указать, насколько давно состоялось знакомство с оцениваемым произведением. Кроме того, оценку можно пометить как знаковую, которая будет иметь при расчете будущих рекомендаций максимальный вес, а также как неактуальную. При наведении указателя мыши на любой пункт оценки всплывают подсказки со словесной характеристикой, что в определенной степени способствует унификации оценок различных пользователей (рис. 5.1).