Профессиональный поиск в Интернете - Алексей Кутовенко
Шрифт:
Интервал:
Закладка:
Возможность непосредственного манипулирования настроечными файлами открывает хорошие перспективы автоматизации работы с персональным поисковиком. Дело в том, что такие файлы можно готовить самостоятельно в удобных пользователю редакторах и загружать на сервер. Таким образом, например, можно не набирать весь список сайтов в онлайновой форме, а заранее подготовить и загрузить на сервер файл аннотаций с перечнем нужных сайтов и их свойствами. Кроме того, разработчики Google реализовали уникальный режим «связанного» поиска. В данном режиме настроечные файлы поиска импортируются из указанного вами внешнего источника. Это значит, что они, например, могут храниться на вашем собственном сайте или даже генерироваться любыми удобными вам средствами и динамически подгружаться на сервер Google при каждой отправке запроса с помощью формы поиска. В системе Google Custom Search Engine ставится ссылка на такие внешние файлы, и они подгружаются непосредственно при обращении пользователя к поисковику. В руках опытного разработчика такие внешние настроечные файлы становятся очень мощным средством работы с персональным поиском на базе Google, поскольку обрабатывать их можно любым удобным способом. В результате с их помощью можно решать самые сложные задачи по поддержке системы персонального поиска, вплоть до автоматизированной генерации вариантов настройки «на лету» (при обращении пользователя к поисковику). Кроме того, такой вариант будет полезен при создании и поддержке большого количества персональных поисковиков, а также при необходимости пополнения базы из нестандартных источников информации, например RSS-лент.
Для запуска системы связанного поиска требуется выполнить минимум операций. Сообщить системе Google CSE о необходимости использования внешних файлов аннотаций можно правкой расположенного на сервере Google XML-файла контекста своего поисковика. Для этих целей служит тег <Include>, в котором прописывается путь доступа к внешнему настроечному файлу. В настоящее время таким способом можно подключать к поисковику до 50 внешних файлов аннотаций. Протестировать работу системы можно с помощью мастера, расположенного по адресу www.google.com/coop/cse/cref. Если расположить форму поиска Google Custom Search на своем сайте, то в ее код потребуется добавить параметр cref и указать путь к внешнему XML-файлу аннотаций. При отправке запроса данный параметр будет передан системе Google CSE, и она загрузит нужные варианты настройки.
В разделе Индексирование доступна еще одна возможность для непосредственной работы с файлами персонального поисковика. Здесь вебмастера, желающие использовать систему Google CSE для организации поиска на собственных сайтах, могут загрузить в систему поиска предварительно созданный Sitemap-файл для своего сайта, который сделает индексирование сайта более точным. Можно загрузить до 50 таких файлов. Кроме того, можно указать отдельные страницы своего сайта, которые должны быть проиндексированы Google.
Flexum
Российский проект персонального поиска Flexum стал достойным ответом разработке Google. Как и любой другой персональный поисковик, Flexum предлагает набор инструментов для создания собственной индексной базы, что позволяет повысить качество тематического поиска за счет ручного отбора включаемых в нее ресурсов.
Главное и принципиальное отличие Flexum от Google Custom Search Engine заключается в принятом подходе к индексированию сайтов персонального поиска. Если Google использует сведения, уже находящиеся в главной базе поисковика, то Flexum индексирует указанные пользователем сайты «с нуля», причем владелец персонального поисковика получает полный контроль над этим процессом. Дело в том, что у пользователя Flexum есть контроль над роботом-«пауком». Указанные сайты просто скачиваются и индексируются, а не берутся из уже существующей индексной базы, как это происходит в случае Google CSE.
Такой подход имеет свои достоинства и недостатки. К достоинствам отнесем гибкость настройки индексации и отсутствие привязки к уже существующим базам какого-либо поисковика. Это очень удобно при работе с малозаметными для крупных поисковых машин ресурсами. В то же время создание своего поиска средствами Flexum занимает гораздо больше времени, поскольку обязательно требует составления полного списка индексируемых сайтов. Кроме того, системе требуется определенное время на проведение индексации, так что мгновенного результата здесь ждать не стоит.
Поскольку наличие собственных индексов предусматривает расход дискового пространства на сервере, стоит упомянуть о наличии у Flexum соответствующих квот. При бесплатной регистрации начальный размер базы определен в 200. Мбайт. По мере расходования квоты ее можно увеличивать, отправляя соответствующие запросы с помощью панели настройки поисковика. Максимальный объем бесплатной базы – 5. Гбайт. Даже если учесть, что квота тратится не просто на описание ресурсов, а на скачиваемые для индексации веб-страницы, ее размер, в принципе, можно считать приемлемым для частных проектов и не самых крупных сайтов.
Кроме базовой бесплатной версии на сайте Flexum предлагаются коммерческие аккаунты с расширенными возможностями. Кроме того, Flexum предлагает специальные условия для тематических порталов, желающих построить свой поиск на технологиях его персонального поиска.
Создание собственного поисковика на платформе Flexum начинается с регистрации на сайте проекта. Процедура стандартная, каких-либо необычных вопросов в ее ходе не задают, подтверждение регистрации и пароль на указанный при регистрации электронный адрес приходят довольно быстро. Свежеиспеченная система получает собственный адрес типа имя. fLexum.ru.
Дальнейшая настройка и наполнение поисковика ведется с помощью специальной панели инструментов, содержащей ряд тематических вкладок. Начнем с основного инструмента, предназначенного для управления списком включаемых в поиск сайтов и менеджером скачивания их веб-страниц.
Flexum предлагает два режима построения персонального поиска: простой и экспертный. Первый из них, как и положено, предлагает совершить минимум действий при добавлении сайтов в список для последующего индексирования. Для этого достаточно заполнить единственную форму из двух вкладок. Вкладка Основные предлагает указать такие сведения, как название сохраняемого сайта, которое впоследствии будет отображаться в заголовке результата поиска, URL-адрес сайта, его краткое описание, а также список присваиваемых тегов. Интересно, что Flexum, кроме собственно сайтов, предлагает добавлять в систему и сведения об их RSS-каналах. Вкладка Выкачка позволяет управлять параметрами скачивания страниц и расходом дисковой квоты. По умолчанию на сайт выделяется 100. Мбайт. Параметр. Глубина выкачки определяет количество переходов робота-«паука» по найденным на скачиваемых страницах ссылкам. Гибкое управление скачиванием обеспечивает поддержка масок. С их помощью можно скачивать только необходимые веб-страницы. Правила составления масок стандартные. Кроме того, Flexum предлагает справку на русском языке по их составлению.
Экспертный режим подтверждает свой статус и предлагает достаточно серьезный набор инструментов. Интерфейс «экспертного» редактора разделен на два фрейма, в которых выводится список элементов персонального индекса (сайтов и отдельных веб-страниц), а также параметры выбираемых в этом списке позиций. Заметим, что набор этих отображаемых параметров можно настроить (рис. 6.3).
Рис. 6.3. Экспертный режим добавления сайтов в системе Flexum
Добавление новых сайтов производится вручную, по одному сайту за операцию. Как и в простом режиме, допускается применение масок адресов, что позволяет индексировать только нужные вам разделы сайтов. В экспертном режиме также возможна загрузка заранее подготовленного списка сайтов и веб-страниц. Поддерживается работа с XML– и CSV-файлами. Справка по формату таких файлов, равно как и их образцы, приведены на сайте проекта.
Для каждого включаемого в базу сайта обязательно необходимо указать ключевые слова, которые будут использованы для группировки ссылок по тематическим рубрикам. Кроме того, доступна гибкая регулировка глубины индексирования сайта. Данная опция отвечает за автоматическое индексирование не только указанной вами стартовой страницы, но и всех страниц, на которые она ссылается. Числовое значение показывает, сколько таких переходов может сделать робот-индексатор. При значении больше двух количество таких автоматически обнаруженных ссылок может резко возрасти, что необходимо учитывать при задании следующего параметра – квоты на каждый сайт. По умолчанию такая квота равна 20. Мбайт, однако это значение можно вручную изменить в пределах общей квоты аккаунта.
Как и Google Custom Search Engine, система Flexum дает возможность тонкой настройки позиций выдачи с определенного сайта. Любому сайту в индексе можно присвоить рейтинг от единицы до пятерки. Для этого служит специальное выпадающее меню.