Профессиональный поиск в Интернете - Алексей Кутовенко
Шрифт:
Интервал:
Закладка:
Интерфейс выдачи Tiltomo максимально прост. Пользователь работает со страницей, содержащей пару десятков миниатюр фотоснимков, сопровожденных несколькими ссылками-переключателями (рис. 7.4). Далее доступны два варианта действий: уточнение темы запроса и поиск по характеристикам изображения. Для уточнения темы достаточно выбрать понравившийся снимок-пример и щелкнуть на ссылке Find Similar by Theme, которая находится под каждой миниатюрой. Допустим, вам требуются фотоснимки обычных съедобных яблок – никаких проблем, выбирайте соответствующий образец и получайте новую страницу результатов, на которой все снимки будут содержать изображения яблок в различных ситуациях и ракурсах.
Рис. 7.4. Поисковик Tiltomo позволяет подбирать визуально похожие изображения
Другой инструмент поиска, запускаемый ссылкой Find Similar by Color/Texture, призван искать изображения, схожие по характеристикам цвета и очертаний. Получив такую обратную связь, поисковик ищет в своей базе картинки, визуальные индексы которых близки к отобранным изображениям. В результате пользователь получает новый список выдачи, картинки в котором визуально похожи на указанный им пример. Цикл может повторяться несколько раз, напоминая обычное уточнение запроса на универсальном поисковике, только инструментами здесь выступают не дополнительные ключевые слова, а содержимое изображения. Попадания могут быть достаточно точными – если, допустим, на снимке-образце была лужайка, мы получим набор фотоснимков с изображением различных зеленых растений. Справедливости ради заметим, что «тематический» фильтр при этом начинает давать сбои, поэтому для получения максимально точного результата приходится повторять поиск несколько раз.
Использование переключателей позволяет Tiltomo достойно справляться со словами-синонимами. Для примера: в списке выдачи по запросу «apple» система позволяет уточнить, что имеется в виду: продукция компьютерной компании Apple, яблоки и яблони разных сортов или же фотографии. Нью-Йорка, известного также как «Big Apple».
Retrievr
Поисковик Retrievr, разработанный австрийской фирмой System One, реализует режим поиска по графическому запросу. Любопытно, что движок сервиса полностью написан на языке Python. Как и Tiltomo, Retrievr работает с фотоснимками, размещенными на сервисе Flickr, однако использует другой способ составления запросов. Здесь предлагается сделать ручной набросок искомого изображения или вести поиск по представленному пользователем образцу.
Интерфейс Retrievr разделен на две части. Слева располагается боковая панель, содержащая инструменты составления запроса. Справа выводятся результаты поиска – миниатюры подходящих под условия запроса изображений (рис. 7.5).
Рис. 7.5. Система Retrievr позволяет искать по наброску
Retrievr работает с двумя типами графических запросов: наброском, который можно нарисовать от руки, и загружаемой на сервер картинкой-примером. Переключаются режимы кнопками Sketch Search и Image Search.
Для рисования применяется специальная Flash-панель. Она содержит небольшую рабочую область, на которой и предлагается подготовить графический запрос. Кроме того, на ней находится набор круглых кистей разного размера, а также палитра, с помощью которой выбираются нужные оттенки. Анализ рисунка происходит практически в режиме реального времени. Прямо в ходе рисования на страницу подгружаются результаты поиска, позволяя немедленно корректировать набросок.
Результаты такого поиска пока неоднозначны. Простейшая «рожица» позволяет исправно получать галерею портретов, белый круг на черном фоне – фотоснимки Луны. В то же время попытки изобразить деревце или еще что-нибудь более детальное ведут пока к серьезному разброду в результатах. Для получения хорошего результата нужно рисовать крупными мазками, не пытаться изображать мелкие детали, а постараться передать общий колорит.
Что интересно, пользовательские наброски сохраняются и им присваиваются собственные URL-адреса, которые можно сохранить или отправить по электронной почте. Кроме того, на сайте имеется галерея набросков, уже сохраненных в системе, причем при желании можно проголосовать за понравившиеся. Эта информация используется для совершенствования алгоритмов системы.
Второй режим поиска Retrievr – по представленной пользователем фотографии, которая и исполняет в данном случае роль запроса. В настоящее время принимаются только файлы в формате JPEG. Снимок можно загрузить со своего компьютера или же указать его URL-адрес, если он находится в сети. Качество такого поиска сейчас мало чем отличается от поиска по наброску – основное внимание уделяется цветовой гамме при заметном пренебрежении к деталям изображения. Поработать в данном режиме также можно, не загружая свой фотоснимок, а взяв за образец любую миниатюру со страницы результатов поиска. Если задержать на такой миниатюре указатель мыши, появляется значок с лупой, при щелчке на котором Retrievr начинает искать похожие на миниатюру изображения.
Выводы и рекомендации
Основными системами поиска изображений в Сети остаются универсальные поисковики и специализированные фотохостинги. Универсальный поиск силен широким охватом, но страдает от информационного шума. Наилучшие результаты он дает тогда, когда изображение можно явно и однозначно описать в текстовом виде, после чего остается надеяться, что веб-мастера не упустили этот момент при верстке своих страниц. Каталоги обеспечивают высокое качество тематического поиска, но «закрывают» далеко не все тематические ниши. Поскольку индексные базы изображений у крупных поисковиков отличаются, при серьезном поиске желательно задействовать несколько машин.
Экспериментальные контентные поисковики сейчас в основном работают с «низкоуровневыми» характеристиками изображений – цветом, формой, текстурой, в то время как человек, глядя на картинку, воспринимает цельные образы, причем способность к такому восприятию во многом опирается на приобретенный жизненный опыт. У машины такой школы нет, и это является причиной многих неточностей при поиске. Пользователю при составлении запроса, так или иначе, приходится учитывать специфику «машинного» восприятия изображения и переводить искомые образы на язык характеристик понятого машине уровня. Ориентация на словесное описание изображений в «традиционных» поисковиках при всех своих недостатках позволяет «зацепить» эти тонкие аспекты за счет прямого или косвенного участия человека в распознании содержимого картинки.
Пользовательский CBIR-поиск еще в самом начале пути. Большинство поисковиков открытого доступа находятся в стадии бета-версий. Экспериментальные машины поиска изображений занимают нишу специфических запросов и вряд ли готовы полностью заменить обычные поисковики и каталоги, ориентированные на использование ключевых слов. В то же время новейшие «контентные» технологии становятся прекрасным дополнением к «традиционным» способам индексации и поиска. Действительно: наиболее гибкими и удобными оказываются сервисы, объединяющие различные подходы к поиску: по ключевым словам, по тегам, по визуальным характеристикам изображений. Это, скорее всего, будет ведущей тенденцией ближайшего будущего. Возможности поиска изображений по косвенным признакам и проставленным пользователями тегам на универсальных поисковиках и фотохостингах все активнее дополняются технологиями контентного поиска.
Примерами могут служить рассмотренные в этой главе сервисы Google Картинки и Яндекс.Картинки. Возможности составления запросов у этих проектов сопоставимы, разве что Google распознает больше оттенков, в то время как. Яндекс предлагает более совершенные инструменты для работы с текстом запроса. Новые инструменты поиска и фильтрации изображений у обоих проектов достигли хорошего уровня. Механизмы распознавания лиц и поиска изображений по цветовой гамме функционируют четко и приносят реальную пользу. По количеству результатов выигрывает Google, однако результаты выдачи Яндекса, обычно уступая в разы количественно, дольше остаются релевантными. Поэтому выбор поисковика зависит от выбора приоритетов: «не упустить, даже ценой шума» или же «пусть меньше, да лучше».
Что касается интерфейсов просмотра, то здесь однозначного лидера выделить трудно. На стороне Google – удобная боковая панель с быстрым доступом к фильтрам и «бесконечная лента» выдачи. В активе Яндекса – чрезвычайно удобная опция группировки одинаковых изображений, а также информативная страница просмотра, позволяющая увидеть изображение без перехода на исходную веб-страницу.
Глава 8
Поиск видео
Интернет-поиск видеофайлов, как и поиск изображений, можно вести различными способами. Значительная часть видеоконтента в современной. Сети сохраняется на многочисленных видеохостингах, наиболее крупным и известным из которых остается YouTube. Среди таких ресурсов можно найти как универсальные по своему содержанию хостинги, так и тематические хранилища, например, специализирующиеся на документальном и образовательном видео или же сугубо развлекательном контенте. Соответственно, первый доступный вариант поиска нужного видеофайла – использование собственных поисковых систем соответствующих видеохостингов.