Профессиональный поиск в Интернете - Алексей Кутовенко
Шрифт:
Интервал:
Закладка:
RSS-поиск
Пополнять список своего RSS-агрегатора можно различными способами. Первый и наиболее распространенный – простой поиск сайтов по интересующим темам, а затем подписка на их RSS-ленты, если, конечно таковые имеются. Способ несложный, однако на редкость медленный и трудоемкий. Другой распространенный вариант – воспользоваться различными рекомендательными сервисами и каталогами. Правда, логика деления таких каталогов может быть просто фееричной, да и обновляются каталоги не так часто, как хотелось бы. В последнее время появилась любопытная альтернатива – интернет-машины, предназначенные для поиска RSS-каналов. Одним из наиболее интересных проектов такого типа является система RSSMicro.
В настоящее время RSSMicro индексирует более чем двенадцать тысяч RSS-каналов. Если же говорить об индексации отдельных сообщений, то счет идет на миллионы. Анализируются новостные сайты, форумы, блоги и другие источники, предлагающие данные в формате RSS. Обновление индекса происходит с периодичностью в несколько часов. Для пополнения индекса используются различные источники, в том числе сервис DMOZ, а также собственные роботы, ведущие поиск веб-сайтов с RSS-каналами. Система поддерживает режим автоматического поиска RSS-источников на сайтах.
Основа поисковика – технология FeedRank. Это собственная разработка владельцев поисковика. Основным параметром оценки канала служит так называемый алгоритм Feed Delta, который выбирает в анализируемом RSS-канале уникальную информацию и определяет ее процент по отношению к общему количеству сообщений ленты. Далее учитывается наличие в сообщениях ленты полных текстов новых материалов и разнообразного дополнительного контента, например изображений. Задействуются и другие параметры. Например, учитывается «жизнеспособность» ленты: количество опубликованных за определенный промежуток времени постов. Анализируется и популярность ленты. В результате формируется численная оценка «дельты» той или иной RSS-ленты.
Кроме оценки качества источника, необходимого для объективного определения позиции той или иной ленты в списке выдачи поисковика, данный показатель используется для отсеивания информационного шума. Дело в том, что по утверждению разработчиков FeedRank автоматически генерируемые источники, не содержащие оригинального контента, а также спам-ленты имеют очень мало шансов получить хорошее значение «дельты». В результате на первых позициях должны оказаться RSS-каналы, содержащие оригинальный контент, который, к тому же, максимально раскрывается в сообщениях ленты. Работа над совершенствованием алгоритма продолжается, и разработчики призывают пользователей быть активными, не стесняясь сообщать свои оценки и предложения.
FeedRank измеряется в диапазоне значений от нуля до десяти. Нулевой рейтинг получают давно не обновляющиеся ленты, ленты без текста в постах, большинство лент, автоматически полученных с других ресурсов и не прошедших дополнительную обработку, а также ленты с ошибками, которые роботу банально не удалось открыть. Таковых среди поступающих в систему порядка 6 %. Подавляющее большинство лент – почти 70 % – получают рейтинг, равный единице. Это значит, что звезд с неба они не хватают, имеют ошибки в форматировании либо неполный контент в постах, однако предлагают интересную информацию. Рейтинги 2 и 3 отражают повышающееся качество и оригинальность контента, а вот для получения рейтинга от 4 до 6 от канала потребуется еще и регулярное обновление. Действительно высокие рейтинги получают ленты популярных веб-ресурсов с большим количеством подписчиков и новостные агентства, располагающие собственным оригинальным контентом. Интересно, что лент с рейтингом 8-10 в индексе RSSMicro всего около 1,3 %, так что подход к оценкам у системы достаточно жесткий. Заметим, что RSSMicro отслеживает и индексирует только ленты с положительным рейтингом. Любопытный факт: с особенным вниманием рассматриваются каналы с рейтингами 4–5, поскольку именно в этой зоне, по мнению разработчиков FeedRank, должно находиться большинство качественных ресурсов, которые пока просто не имеют достаточной известности и финансовых возможностей для конкуренции с раскрученными и активно продвигаемыми проектами.
Возможно и самостоятельное добавление RSS-ленты своего веб-сайта в базу RSSMicro. Для этого даже не потребуется регистрировать аккаунт и сообщать какие-либо персональные сведения. Достаточно указать в специально отведенном для этой задачи разделе сайта RSSMicro URL-адрес предлагаемого канала, отнести его к одной из имеющихся тематических категорий и пройти капча-тест. Как только все нужные сведения будут указаны, система сразу же проанализирует предложенный канал и рассчитает его рейтинг. Кроме формы предложения новой RSS-ленты, этот раздел поисковика содержит достаточно толковые комментарии с примерами правильно отформатированного кода и советами по подготовке RSS-лент.
На главной странице RSSMicro предлагается четыре варианта поиска в вертикальных базах. Кроме поиска каналов (Feeds), это поиск отдельных сообщений (Posts), а также поиск изображений и видео. Выбирать режим можно с помощью вкладок рядом с полем ввода запроса (рис. 9.4).
Рис. 9.4. Система поиска RSSMicro
При настройке поиска можно определить предпочитаемый язык RSS-каналов и сообщений, включить режим поиска во всем контенте сообщений. Кроме того, здесь есть флажок ALL Time Search, который определяет, будет ли поиск производиться во всей индексной базе RSSMicro или же только в свежих обновлениях RSS-лент.
Результаты поиска в RSSMicro вполне адекватные и достаточно полезные. При вводе запроса работает механизм автодополнения, предлагающий похожие запросы. К сожалению, RSSMicro не лучшим образом подходит для поиска небольших, узкотематических каналов. Дело в том, что по объективным причинам по таким тематикам обеспечить постоянный поток новостей бывает достаточно затруднительно. В результате подобные ленты получают рейтинг не выше «тройки» и индексируются по остаточному принципу, если вообще попадают в базу.
Элементы списка на странице выдачи содержат название канала, значение рейтинга, аннотацию канала, а также ссылки, открывающие предварительный просмотр ленты и список ее последних сообщений. Кроме того, имеется прямая ссылка на канал, которую можно использовать для подписки. Если тема достаточно популярна, на странице выдачи появится также панель с перечнем автоматически найденных кластеров, с помощью которой можно быстро уточнить свой запрос.
Раздел RSS Feed Directory основан на анализе базы DMOZ, в которой выбирались сайты, располагающие RSS-каналами. Всего в каталоге порядка ста пятидесяти тысяч источников, разбитых на пятнадцать основных категорий. Есть в нем и около трех тысяч лент на русском языке. Картину дополняют списки рекомендуемых RSS-каналов и свежих поступлений в базу проекта.
RSSMicro предлагает также ряд собственных RSS-каналов, основанных на результатах работы алгоритма FeedRank. На странице RSSMicro News имеются разделы с перечнем наиболее популярных и «трендовых» тем в анализируемых RSS-каналах. Отдельно предлагаются наиболее популярные изображения и видеофайлы, проходившие в RSS-лентах. Пожалуй, здесь наиболее любопытен раздел Authentic & Original News, посвященный исходным текстам активно перепечатываемых статей, а также сообщениям из малоизвестных, но ценных тематических RSS-лент. Для всех названных разделов созданы собственные RSS-каналы, поэтому система RSSMicro вполне может рассматриваться и в качестве «рекомендательной машины».
Раздел Tools содержит различные вспомогательные инструменты. Среди них – форма самостоятельного добавления RSS-ленты в индекс и средство расчета ее рейтинга в режиме реального времени. Кроме того, предлагается инструмент для создания поискового виджета RSSMicro. У него достаточно гибкие возможности настройки, относящиеся как к контенту, так и к внешнему оформлению. Во-первых, предлагается задать перечень ключевых слов, по которым будет вестись поиск, предпочитаемый язык сообщений, область поиска (вся база или только обновления RSSMicro), способ сортировки и количество выводимых в виджете сообщений. Также можно выбирать демонстрируемые элементы RSS-сообщения. Можно также настроить параметры, касающиеся внешнего вида виджета, такие как шрифт заголовка новости и ее текста, размер и цвет блока самого виджета. Рядом с редактором виджета генерируется превью будущего виджета, которое наглядно демонстрирует будущий результат ваших усилий. Далее остается только получить код и поместить его на своем ресурсе. Надо сказать, это хорошая заготовка для автоматического новостного блока. Создание аналогичного виджета с помощью мэшап-редакторов займет гораздо больше времени, даже если вывести за скобки собственно весьма трудоемкий процесс поиска сайтов с тематическими RSS-лентами.
Выводы и рекомендации