Профессиональный поиск в Интернете - Алексей Кутовенко
Шрифт:
Интервал:
Закладка:
Выводы и рекомендации
Универсальные поисковики хороши в качестве начального средства поиска видео – хотя бы за счет быстрого перехода от простого веб-поиска к поиску в видеобазах. Они предлагают достойный охват источников, быструю индексацию новых поступлений крупнейших видеохостингов. Набор инструментов составления запросов и фильтрации результатов у них сопоставим. К стандартным функциям относятся отбор видео по продолжительности, качеству, дате публикации. Поддерживается отбор результатов по признаку источника, однако реализована данная опция на самом элементарном уровне.
Специализированные поисковики – хороший выбор для ситуаций, когда требуется именно поиск видео и ничего более. Они предлагают качественный и тщательный отбор источников контента и ряд дополнительных инструментов, отсутствующих на универсальных поисковиках. Пожалуй, наиболее интересен в данной группе сервис Truveo. Он предлагает неплохую подборку телевизионного контента, а также достойные результаты видеопоиска. Кроме того, он обладает одним из самых удобных пользовательских интерфейсов. Поисковик Fooooo любопытен большой индексной базой. Он хорош, в первую очередь, для поиска оперативного актуального контента на большом количестве хостингов. В то же время, если вы ищете, где бы скачать полнометражное видео или фильм, данный сервис вряд ли будет эффективен.
На поисковике Hi2All со скачиванием файлов нет никаких проблем – это его стандартная функция. Несмотря на некоторые недоработки, Hi2All хорошо подходит для поиска полнометражного видео. Короткие же и актуальные ролики, например новостного плана, лучше искать с помощью других средств.
В качестве примеров многочисленных тематических видеопоисковиков мы рассмотрели образовательные ресурсы. Бесспорным лидером среди российских проектов образовательного видеопоиска является проект UniverTV. Собственный контент и ориентация на требования российской системы образования делают его весьма ценным ресурсом. Для знакомства с зарубежными ресурсами такой тематики весьма хорош сервис LearnersTV. Если языковой барьер для вас не проблема, то вы получите доступ к большому количеству хорошо структурированных видеокурсов по широкому спектру дисциплин. Нельзя не отметить и возможность удобного скачивания найденных видеоматериалов, чего не предлагают конкуренты.
Глава 9
Поиск «скрытого» контента
Контент глобальных сетей никогда не ограничивался общедоступными сайтами и ресурсами. Значительное количество ресурсов были и остаются в большей или меньшей степени закрытыми. Причины такого ограничения доступа могут быть самыми разными. Современные универсальные поисковики не отличаются выдающимися способностями в плане индексирования и поиска такой информации, поэтому ресурсы, скрытые от интернет-поисковиков, автоматически становятся невидимы пользователям. Для поиска скрытого контента требуются специализированные инструменты, речь о которых и идет в данной главе. Ее начало посвящено поиску FTP-ресурсов, которые изначально являлись скрытыми от поисковиков ресурсами в Сети и которые продолжают сохранять свое значение в наше время. Поиск необходимых файлов через FTP-поисковики в общем случае реализуется проще поиска веб-документов в Сети, однако имеет свои особенности, о которых и идет речь. При этом основное внимание уделено общим для всех таких ресурсов инструментам и приемам работы.
Крупным источником скрытого для обычных поисковиков контента являются различные торрент-ресурсы. О лучших представителях метапоисковиков, работающих одновременно со многими торрент-трекерами, также рассказывается в этой главе. Еще один источник скрытого контента – многочисленные сервисы хранения файлов. Как правило, непосредственный поиск в их архивах запрещен, однако существует ряд поисковых инструментов, позволяющих обойти это ограничение.
Кроме подобных ресурсов к скрытому контенту можно отнести данные, представленные в ряде современных форматов, с которыми популярные универсальные поисковики напрямую не работают или работают в ограниченном объеме. Сюда, в частности, можно отнести данные, представленные в форматах «семантического веба», приложения которого часто относят к поколению Web 3.0. Не забыты и специализированные инструменты поиска информации в более привычном современному пользователю формате RSS.
Поиск FTP-ресурсов
Протокол FTP (File Transfer Protocol) предназначен для передачи файлов между компьютерами. По компьютерным меркам эта технология имеет весьма почтенный возраст. Сильные стороны этого протокола – простота и надежность. С точки зрения пользователя, FTP-сервер – это архив файлов самого различного плана. Важной характеристикой FTP-сервера является возможность доступа к нему. Значительная часть FTP-серверов предлагают пользователям лишь ограниченный доступ. В то же время существует большое количество публичных FTP-серверов, доступ к которым открыт для всех желающих. Именно такие ресурсы представляют интерес в плане интернет-поиска.
Специализированные FTP-поисковики индексируют большое количество FTP-серверов, поэтому обращение к ним позволит провести одновременный поиск файла в нескольких источниках, в данном случае – в FTP-архивах, что значительно сокращает затраты времени.
Получением списка ссылок на серверы, которые располагают подходящими файлами, FTP-поиск не заканчивается. Такие системы обычно предлагают ряд дополнительных услуг. Они позволяют сравнивать размеры найденных файлов с одинаковыми именами, проверяют доступность и скорость работы серверов, а также оценивают работоспособность ссылок на конкретные файлы. «Мертвые» ссылки в базе поисковика появляются, когда владельцы FTP-сервера их удаляют или закрывают к ним доступ, кроме того, сам сервер может быть временно недоступен. В идеале, проведя такой поиск, пользователь должен получить рабочую ссылку на нужный файл, находящийся на максимально быстром сервере, с которого этот файл можно свободно и без лишнего беспокойства скачать.
Хранящиеся на FTP-серверах файлы обладают гораздо меньшим количеством поисковых признаков, чем веб-страницы, с которыми работают универсальные интернет-поисковики. По большому счету, доступные признаки сводятся к имени файла или каталога. Это обуславливает специфику FTP-поиска. В его ходе основной акцент делается на использование в запросе спецсимволов и масок. С одной стороны, это упрощает составление запроса, с другой – повышает требования к его корректности.
Составляя запрос на FTP-поисковике, не стоит слишком увлекаться. Обычно чем он проще, тем надежнее результаты поиска. Длинные и сложные запросы лучше приберечь для особых случаев, когда ничего другое не помогает, либо когда вы очень хорошо представляете, что хотите найти.
Современные FTP-поисковики обладают весьма схожими интерфейсами составления запросов. Это означает, что освоив работу с одним таким ресурсом, пользователь впоследствии сможет разобраться в большинстве других систем, даже если их интерфейсы выполнены на незнакомом языке. К таким типовым элементам относятся. Тип поиска (Search Type), Сортировка (Sort by) и количество показываемых результатов на одной странице. Обычной также является опция показа либо скрытия файлов для *nix-систем. Это средство позволяет убрать из результатов поиска архивы дистрибутивов, в которых могут быть многие тысячи файлов, не очень-то полезных, если вы ищете что-нибудь для Windows.
FileSearch.ru
Одним из крупнейших FTP-поисковиков в русском сегменте интернета является проект FileSearch.ru. Он индексирует большинство российских FTP-серверов и несколько тысяч зарубежных проектов. В базу включаются только серверы с анонимным доступом и DNS-именем. Индексная база FileSearch.ru насчитывает около восьми миллионов файлов. Обновление индекса для каждого FTP-сервера, как правило, производится каждые пять дней. Если какой-либо включенный в базу FTP-сервер перестает откликаться на запросы робота-индексатора, то через три недели молчания он исключается из базы данных, что сокращает количество «мертвых» ссылок в результатах поиска.
Данный поисковик обладает всеми необходимыми для успешного поиска инструментами FileSearch предлагает режимы простого и расширенного поиска файлов. При простом поиске предлагаются два фильтра, выполненных в виде выпадающих меню рядом с полем ввода запроса. Первый фильтр позволяет указать тип контента: файл, каталог, музыку, видео, изображения, а также сервер. Последний вариант дает возможность поиска имен FTP-серверов. Второй фильтр предназначен для ограничения поиска определенным доменом, список которых представлен в меню фильтра.
Расширенный поиск, кроме фильтра доменов, предлагает усложненный фильтр типа контента (рис. 9.1). Кроме доступных при простом поиске вариантов, здесь добавлены режимы поиска по регулярным выражениям и по точной фразе. Дополнительными признаками файла в ходе расширенного поиска может выступать его размер, который разрешается указать в виде диапазона, выраженного в байтах. Сферу поиска можно ограничить не только доменом, но и конкретным каталогом FTP-сервера. В режиме расширенного поиска FileSEarch.ru также доступны фильтры, позволяющие исключить из списка выдачи файлы, предназначенные для операционных систем семейства *nix.