Профессиональный поиск в Интернете - Алексей Кутовенко
Шрифт:
Интервал:
Закладка:
Рис. 11.2. Настройка поисковых категорий в программе Copernic Agent
Хотелось бы остановиться на национальных поисковых категориях Copernic. Предлагается десяток подборок для конкретных стран – от. Австралии до Индии. К сожалению, России здесь нет, наиболее близкое географически местоположение – Польша. Кроме того, предлагаются подборки поисковиков для работы с материалами на испанском, итальянском и французском языках. В этих блоках подобраны полезные поисковики, что делает Copernic хорошим инструментом для работы с некоторыми национальными сегментами Сети. Нельзя не отметить тематический поиск в новостях, блогах и таких полезных для специалистов источниках, как базы патентов. Перед таким массивом источников можно было бы только уважительно снять шляпу, если бы не пара неприятных нюансов, относящихся к наиболее универсальной и востребованной категории – простому веб-поиску.
Дело в том, что среди всех сотен источников и тринадцати поисковиков, включенных в универсальную категорию Web, не нашлось места для Google. Вероятно, для этого у разработчиков были свои причины, однако исключение одной из крупнейших индексных баз из результатов поиска заметно сказывается на качестве поиска и вызывает искреннее недоумение. Из включенных в данную категорию поисковиков более-менее приличные результаты по запросам на русском языке способны выдать только Bing и в меньшей степени Yahoo!. В принципе, если бы в Copernic были предусмотрены инструменты самостоятельного добавления описаний поисковиков, эта проблема не была бы серьезной. Однако программа позволяет только создавать собственные категории, которые можно комплектовать источниками из общей библиотеки Copernic.
Интерфейс Copernic Agent Professional состоит из области просмотра и двух вспомогательных панелей: боковой и верхней. Верхняя панель предназначена для работы с архивом проведенных поисков. Боковая панель содержит три вкладки. Вкладка Quick Search отвечает за работу в режиме простого поиска, а также позволяет выбирать категории для поиска. Вкладка Common Tasks содержит инструменты анализа найденного. Возможна фильтрация найденных материалов по различным признакам, автоматическое удаление дублей и «мертвых» ссылок. Кроме того, Copernic Agent умеет автоматически составлять небольшие рефераты. Правда, нормально работает данная функция только с англоязычным текстом, да и здесь чудес нет: нам предлагают выдержки из текстов найденных веб-страниц, содержащих автоматически найденные ключевые слова.
Copernic Agent поддерживает режимы простого и расширенного поиска. Для простого поиска доступна только одна дополнительная опция – поиск по фразе. В режиме расширенного поиска дополнительных опций составления запроса нет. Взамен предлагается настроить систему автоматического отслеживания появления новых страниц по вашему запросу, а также страниц, изменившихся с момента последнего поиска. Если интересные вам страницы не предлагают RSS-каналов и вы не желаете разбираться с существующими сервисами для самостоятельного создания RSS-каналов, – это действительно хорошее дополнение к основной программе. Copernic также может выступить в качестве менеджера загрузок и скачать все найденные веб-страницы, сохранив их на локальном компьютере.
Результаты поиска отображаются в виде текстового списка. Каждая найденная ссылка сопровождается информацией о нашедших ее поисковиках. Степень релевантности результата демонстрируется в виде цветной полоски и численной оценки в процентах, находящихся рядом с каждой найденной ссылкой.
aSearch.INFO
Приложение aSearch INFO обладает очень простым и понятным интерфейсом, который, к сожалению, не имеет русскоязычной версии. Интересно, что кроме обычной персональной лицензии предлагается лицензия, позволяющая разместить на своем сайте для скачивания полную версию программы без каких-либо ограничений на количество загрузок. Обойдется это удовольствие в три тысячи долларов.
aSearch.INFO предлагает инструмент самостоятельного добавления поисковиков. Называется он Constructor и представляет собой очень гибкий и удобный мастер на пять шагов. Отметим, что параметры строки URL-адреса при поиске программа пытается определить автоматически, для чего на одном из этапов предлагает провести на новом поисковике тестовый поиск. Это серьезно ускоряет работу по анализу параметров нового поисковика. Предусмотрена обработка параметров расширенного поиска и автоматическая перекодировка получаемого текста. При желании вы можете отправить описание нового поисковика в онлайновый каталог aSearch.INFO.
Инструменты составления запроса и управления поиском собраны на боковой панели. Она содержит несколько вкладок, в которых можно выбрать одну из предустановленных тематических категорий. Их состав достаточно привычный: веб, софт, развлечения, покупки, поиск работы. Последние два раздела оптимизированы для работы с зарубежными ресурсами. Здесь же располагается панель фильтров, аналог «поиска в найденном» онлайновых сервисов. С ее помощью можно составлять довольно интересные запросы с использованием логических операторов.
Сами результаты отображаются в виде единой ленты, причем каждой ссылке выделена удобная «карточка». Приводятся прямая ссылка на веб-страницу и название поисковика, с помощью которого она была получена. Какой-либо информации о позиции конкретной ссылки в результатах того или иного поисковика нет. Ссылки, по всей видимости, сортируются по релевантности. Как она определяется, разработчики не сообщают. Альтернативных методов сортировки ссылок не предусмотрено. Списки результатов поиска сохраняются в базе данных программы. Опций сортировки или другой обработки для них нет.
Варианты настройки у данной программы довольно скромные. Можно включать и отключать режим очистки списка от дублирующихся ссылок, выбирать браузер, в котором будут открываться найденные ссылки, управлять звуками. Полностью настраивается оформление программы – соответствующие параметры можно исправить вручную, отредактировав прямо в окне настройки стандартную таблицу стилей.
iMetaSearch
Программа-поисковик iMetaSearch предназначена для глубокой обработки и сортировка найденных ссылок с помощью оригинальных алгоритмов. К стилю работы с этим поисковиком понадобится привыкнуть, однако он действительно повышает качество поиска.
Интерфейс iMetaSearch разделен на четыре панели: список найденных ссылок, панель просмотра информации о выделенной ссылке и две боковые панели, с помощью которых можно проводить дополнительный анализ результатов. Первая из них – Search Topics – предлагает список предположительных тем, в которые можно объединить найденные ссылки. Второй раздел – Search Words – наоборот, позволяет максимально детализировать поиск за счет работы не с крупными темами, а со списком всех автоматически выделенных программой ключевых слов. Каждый раздел снабжен ползунком, с помощью которого можно быстро определить демонстрируемое программой количество групп и ключевых слов iMetaSearch позволяет добавлять в список используемых поисковиков свои машины. Для этого служит мастер настройки Build Engine.
Автоматический поиск ключевых слов предполагает наличие достаточно серьезных технологий обработки результатов. Для выделения групп и ключевых слов в iMetaSearch используется технология латентного семантического анализа (Latent Semantic Analysis, LSA). В двух словах ее смысл заключается в следующем. Как правило, пользователи составляют короткие запросы, содержащие одно-два ключевых слова, что ведет к размыванию результатов поиска и появлению информационного шума. LSA-система пытается в автоматизированном режиме расширить полученный запрос на основе обратной связи с пользователем. Проще говоря, отработав оригинальный, полученный от пользователя запрос, LSA-система предлагает пользователю указать лучший с его точки зрения результат, проводит его анализ и перестраивает список выдачи с учетом автоматически выделенных дополнительных условий.
Задача сортировки результатов поиска решена в полном соответствии с идеями технологии LSA. Выделив наиболее полезный результат в списке, пользователь тем самым присваивает ему значение релевантности равное ста процентам. Список выдачи немедленно перестраивается с учетом новых данных, полученных в результате такой обратной связи. Программа выводит на первые позиции за выделенной нами ссылкой наиболее похожие на нее по содержанию веб-страницы, указывая степень смыслового подобия как в цифрах, в процентном значении степени совпадения, так и визуально – цветной полоской. Кроме этого семантического стиля доступны и более привычные режимы сортировки – по заголовкам веб-страниц, задействованным поисковикам, и по рейтингу веб-страниц на использованных поисковиках. Результаты поиска можно выгрузить в HTML– или CSV-файл.