- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Профессиональный поиск в Интернете - Алексей Кутовенко
Шрифт:
Интервал:
Закладка:
Рассказ о вертикальных базах универсальных поисковиков мы завершим анонсированным во вступлении к этой главе тестом качества их поиска. Сначала попробуем оценить охват поисковых сервисов Google Картинки и Яндекс.Картинки. Для этого достаточно будет посмотреть на общее количество результатов каждого поисковика по одинаковым запросам. В качестве тестового задания выступит фраза «космонавт Юрий Гагарин». Этот запрос, на момент написания данных строк, принес на Google 2510 результатов, на Яндексе – 780. Налицо более чем трехкратное преимущество Google.
Поскольку поиск картинок идет по косвенным признакам, посмотрим, насколько высок уровень информационного шума. На. Яндексе первое изображение, не относящееся напрямую к первому космонавту. Земли и названному в его честь кораблю (это был портрет космонавта № 4, Павла. Поповича), появилось на шестой странице выдачи В Google это событие произошло гораздо раньше, уже на шестнадцатой позиции списка выдачи появилось фото неизвестного спортсмена-воднолыжника. Значительный информационный шум, при котором количество релевантных результатов практически сравнялось с мусором, у Google возник уже на седьмой странице. Яндекс продержался до девятой страницы.
После включения режима распознавания лиц выяснилось, что на обоих поисковиках он работает отменно, сбоев не было. Яндекс нашел 102 портрета, Google – 282. Что же касается точности, то оба поисковика опростоволосились уже на первых страницах выдачи Яндекс показал Павла Поповича на 18-й позиции, а Google – неизвестную даму на 11-й. Информационно-мусорный «полураспад» наступил в Яндексе на четвертой странице (6 из 20 изображений не относились к теме). Заметим, что численное превосходство релевантных результатов на сервисе Яндекс.Картинки сохранилось до последней страницы выдачи Google в аналогичных условиях сдался уже на четвертой странице. Перелом был достаточно резкий: начиная с шестой-седьмой страницы в результатах можно было найти практически кого угодно, но только не космонавта Гагарина.
В случае использования цветовых фильтров при отборе портретов количество результатов предсказуемо и резко сокращается. Максимум результатов на Яндексе дала белая гамма. Правда, там было немало ложных срабатываний на картинки с белым фоном и обводками. Что касается остальных цветов, то Яндекс оказался достаточно требовательным: искомый цвет для прохождения фильтра должен быть преобладающим в изображении. Как и прежде, Google превосходил Яндекс в количестве результатов каждого цвета – у Google список выдачи после применения фильтра измерялся сотнями картинок. Однако нельзя не заметить, что Google демонстрирует другой, гораздо более либеральный подход к фильтрации: для прохождения фильтра на изображении достаточно простого присутствия объекта искомого цвета.
Flickr
В качестве примера системы поиска изображений рассмотрим принадлежащий Yahoo! проект фотохостинга Flickr – один из крупнейших в мире ресурсов такого плана. Количество изображений в его базе исчисляется многими миллионами. Данный проект предлагает практически все типичные для данного класса ресурсов инструменты поиска.
Поиск ведется только в собственной базе Flickr, изображения в которую загружаются пользователями ресурса. Необходимо помнить, что снимки на ресурсе могут быть как публичными, так и приватными. В последнем случае они доступны только владельцам и приглашенным пользователям.
На Flickr доступны простой и расширенный режимы поиска. Простой режим поиска, кроме поля ввода запроса, предлагает несколько фильтров. Область поиска определяется переключателями, расположенными над полем ввода запроса. При выборе одного из трех доступных вариантов (Photos, Groups, People) меняется содержимое расположенного рядом меню Search. Переключатель Photos позволяет вести поиск среди всех публичных изображений базы Flickr, в архивах персональных профилей, в загрузках пользователей из адресной книги вашего аккаунта или же в базе Getty Images, в которую попадают наиболее удачные снимки. При желании можно воспользоваться опциями, ограничивающими поиск введенного текста только описаниями фото или же присвоенными им тегами. Переключатель Groups позволяет найти тематические группы пользователей Flickr. Необходимо отметить, что последующий поиск в архивах таких тематических групп достаточно эффективен и позволяет добиться хороших результатов. Переключатель People предлагает поиск имен пользователей (рис. 7.3).
Рис. 7.3. Интерфейс простого поиска фотохостинга Flickr
Режим расширенного поиска предлагает поиск с использованием логических операторов и поиск по точной фразе. Присутствуют и дополнительные фильтры, позволяющие указывать тип нужного контента (фото, видео, рисунки), вести поиск по дате создания или загрузки изображения, включать «семейный фильтр», а также отбирать фотоработы, предоставленные по лицензии Creative Commons.
Страница результатов поиска предлагает просмотреть расположенные мозаикой миниатюры изображений. Предлагаются три режима отображения миниатюр, отличающиеся размером каждой миниатюры и подробностью текстового описания. Боковая панель страницы выдачи содержит список групп, изображения из архивов которых попали в результаты поиска, список фотографов, а также перечень географических местоположений, где были сделаны найденные снимки. Расширить или уточнить свой запрос можно с помощью инструмента Tag Clusters, в котором демонстрируется перечень тегов, отмечающих изображения текущей страницы выдачи.
CBIR-системы
Аббревиатура CBIR обозначает технологии поиска картинок, основанные на анализе характеристик изображенных на них объектов. Другими словами, CBIR-система пытается «рассмотреть» содержимое самой картинки.
Контентный анализ изображения нельзя назвать «горячей новинкой» – подобные технологии давно и активно используются в системах видеонаблюдения, более того, они давно работают за кулисами универсальных поисковиков в качестве части так называемых «семейных» фильтров. Экспериментальные машины просто дают пользователям контроль над таким режимом поиска и предлагают новые, оригинальные интерфейсы.
В общем виде CBIR-система, как и обычный поисковик, работает в два этапа: индексирование и собственно поиск по запросу пользователя. На первом этапе каждое изображение описывается и заносится в базу данных. Как мы уже выяснили, обычные интернет-поисковики ориентируются на тексты содержащих изображения веб-страниц, имена графических файлов и другие косвенные признаки. В отличие от них CBIR-система с помощью специальных алгоритмов анализирует характеристики самого изображения – его цветовую гамму, композицию, очертания предметов и другие подобные признаки. Есть принципиальные отличия и на этапе поиска картинок. Поскольку индексируемые признаки у CBIR-поисковиков не совсем обычные, то и предлагаемые пользователям инструменты составления запросов заметно отличаются от привычных форм с полями ввода ключевых слов.
В настоящее время различают несколько основных типов CBIR-систем, которые отличаются способом составления поискового запроса.
Первый вариант – уточнение запроса путем отбора похожих изображений пользователем. Сначала в базе системы по ключевым словам находится некоторое подмножество картинок нужной тематики, после чего пользователь выбирает среди них похожие на то, что он хотел бы увидеть в итоге. Ориентируясь на эти указания, поисковик предлагает новый набор картинок, отобранный по образцу одобренных пользователем изображений.
Второй тип CBIR-систем позволяет вести поиск изображений по точно заданными визуальным параметрам. В этом случае пользователь указывает точные значения различных характеристик необходимого изображения, которые затем сравниваются с имеющимися в базе поисковика.
Третий тип CBIR-систем работает с графическим запросом. Системе предъявляется некий образец, она производит его анализ, после чего проводит в своей индексной базе поиск изображений со сходными параметрами.
Tiltomo
Финский экспериментальный поисковик Tiltomo является примером реализации технологии уточнения запроса с помощью похожих изображений. Разработчики Tiltomo решили не тратить ресурсы на формирование самостоятельной базы изображений, а предпочли работать с готовой базой фотохостинга Flickr. Здесь действует ограничение – поиск идет не во всей многомиллионной базе Flickr, а в тестовой выборке, объем которой постоянно увеличивается и в настоящее время составляет несколько сотен тысяч фото.
Поиск начинается вводом ключевого слова-тега, которое нужно для формирования первоначальной выборки снимков с различными визуальными характеристиками. Начинать поиск можно также со случайного набора снимков, предлагаемого системой.
Интерфейс выдачи Tiltomo максимально прост. Пользователь работает со страницей, содержащей пару десятков миниатюр фотоснимков, сопровожденных несколькими ссылками-переключателями (рис. 7.4). Далее доступны два варианта действий: уточнение темы запроса и поиск по характеристикам изображения. Для уточнения темы достаточно выбрать понравившийся снимок-пример и щелкнуть на ссылке Find Similar by Theme, которая находится под каждой миниатюрой. Допустим, вам требуются фотоснимки обычных съедобных яблок – никаких проблем, выбирайте соответствующий образец и получайте новую страницу результатов, на которой все снимки будут содержать изображения яблок в различных ситуациях и ракурсах.

