Интернет-разведка. Руководство к действию - Евгений Ющук
Шрифт:
Интервал:
Закладка:
[2, красная армия], —
который, согласно хэлпу Рамблера, должен рассматривать цифру «2» как служебную информацию о расстоянии между словами, и выдавать результаты, где слова «красная» и «армия» находятся рядом.
Наше внимание привлекло то, что цифра «2», которая в поиске должна была играть роль элемента оператора запросов, в выдаче обозначалась как слово, релевантное искомому.
Чтобы не пролистывать результаты по «красной армии» до 47-тысячного сайта, мы попробовали испытать поиск с расстоянием, как он описан в разделе «Помощь», на другом запросе и не полчили положительного результата. Для того чтобы провести такую работу, мы взяли за основу фразу из песни: «Майскими короткими ночами, отгремев, закончились бои».
Запрос: [2, «майскими» «ночами» +отгремев]
Вы искали: 2, «майскими» «ночами» +отгремев, найдено сайтов: 48, документов: 293.
В выдачу попали документы, не содержащие слова запроса непосредственно рядом друг с другом, более того, цифра «2» опять оказалась рассмотрена в качестве части введенного в поисковую строку выражения:
Фотографии, рекомендованные автором Roman Mezenin:: Галерея:: Клуб Foto.ru
… Портрет Комм. 6 / Рек. 2 Майскими короткими ночами / отгремев, закончились бои
05.06.2005 – 26 Kb – http://www.club.foto.ru/gallery/photos/recommended… – Восстановить текст – Найти похожие – Рубрика: Фото
Морской интернет-клуб
Майскими короткими ночами, Отгремев, закончились бои. Где же вы теперь, друзья – однополчане, Боевые спутники мои? Страницы: 1 2 3 4 5 6 7
18.10.2005 – 10 Kb – http://randewy.ru/pes/stol2.html – Восстановить текст – Найти похожие.
Остальные операторы Рамблера вынесены в «Форму расширенного поиска», расположенную по адресу: http://www.rambler.ru/cgi-bin/advanced.cgi?set=www.
11.1. Поиск в заголовках страниц (<title>).
Этот оператор, существующий в Яндексе и Гугле как самостоятельный, в Рамблере тоже есть, но в «Помощи» системы он не указан и найти его нам удалось лишь в «Форме расширенного поиска».
Ссылка на форму расширенного поиска находится непосредственно справа от поисковой строки Рамблера.
11.2. Поиск ссылающихся страниц (link).
Этот оператор также встретился нам только в «Форме расширенного поиска».
Возможность использования его на практике проверена. Работает.
12. Язык документа.
Принудительное назначение конкретного языка документа возможно в «Форме расширенного поиска». При этом Рамблер предлагает на выбор один из трех языков: русский, украинский или английский.
По умолчанию в поле выбора языка отмечен вариант «любой».
13. Формат документа.
Выбор форматов, как и языков, по современным меркам не впечатляет. Предлагаются HTML, Word (.doc) и Adobe Acrobat (.pdf).
14. Дата документа.
Рамблер, подобно Яндексу, предлагает интересную возможность выбора даты в «Форме расширенного поиска», но если Яндекс, помимо конкретного диапазона с датами, позволяет выбрать, скажем, «последние 2 недели» или «последний год», то в Рамблере можно провести выборку лишь в конкретном временном диапазоне.
15. Поиск на определенном сайте.
Представлен строкой в «Форме расширенного поиска» с названием: «Искать документы только на следующих сайтах:».
Таким образом, на наш взгляд, Рамблер представляет определенный интерес для поиска страниц, когда требуется полнота выборки, но чаще эта поисковая система выполняет роль «запасного игрока» – на тот случай, если запросы, введенные в Яндекс и Гугл, не дадут желаемых результатов.
Сам Рамблер, похоже, с этим смирился и не стремится каким-либо образом менять ситуацию, о чем косвенно свидетельствует довольно бедный набор возможностей настройки запроса.
Однако порой система может быть весьма полезна, что вновь и вновь подтверждается практикой.
Визуальный поисковик Quintura Search
Наряду с рассмотренными выше поисковыми машинами, существует довольно необычный продукт – визуальный поисковик. Примером такой системы служит бесплатная программа Quintura Search. Вы можете выбрать поисковую машину, на которой будет основываться дальнейший поиск (на момент написания книги в дистрибутив по умолчанию входили Яндекс, Google и Рамблер, но на сайте программы можно было добавить плагины, позволяющие пользоваться практически любым известным поисковиком). Затем вы получаете результаты в виде слов, расположенных вокруг ключевого понятия. Справа от этого круга расположены непосредственно результаты поисковых запросов по этим словам. При наведении курсора на какое-то одно из них, результат в правом окне меняется – он содержит те ключевые слова, на которые наведен курсор.
Так, например, если ввести слово «электровоз», то в правом окне появятся сайты, которые Яндекс выдает в ответ на этот запрос. Вокруг него размещены слова, которые встречаются рядом с ним в системе – такие, как «грузовой», «постоянный», «контактный», «купить» и другие. Это видно на рис. 3.
При наведении курсора на любое из этих слов справа появляются дополнительные слова, и в левой части окна программы запроса набор их также меняется (рис. 4).
Вот как характеризуют программу Quintura Search специалисты, которые ее создали.
Quintura Search ищет так, как ищут люди. Теперь поиск в интернете – это уже не просто поиск слов запроса, это визуализированный поиск с учетом контекста запроса, а также группировка результатов, визуализация и управление контекстом.
Quintura Search предлагает для уточнения смысла запроса использовать термины (подсказки), которые по смыслу связаны со словами запроса
Невидимый Интернет
Феномен невидимого Интернета и принципы работы с ним детально описаны в лучшей, на наш взгляд, книге по этому вопросу Криса Шермана и Гэри Прайса «Невидимый Интернет».
Видимый Интернет – это та часть ресурсов, содержимое которой может быть обнаружено с помощью поисковых машин. К Невидимому Интернету относятся ресурсы, которые существуют в Глобальной Сети, и к которым можно получить доступ, если знать, где эти ресурсы находятся. Однако с помощью поисковых машин найти содержимое ресурсов Невидимого Интернета нельзя.
По мнению разных авторов, к видимому Интернету относится порядка 20–30 % содержимого Сети. Самые смелые источники указывают другую цифру – не более 50 %. Таким образом, можно утверждать, что невидимый Интернет – это основная часть ресурсов, доступных онлайн.
Причины существования невидимого Интернета
Невидимый Интернет существует в силу целого ряда причин, как технического, так и организационного характера.
Некоторые ресурсы могут быть индексированы поисковыми машинами с технической точки зрения, главное – обнаружить содержимое страницы. Некоторые виды контента не индексируются информационными системами потому, что «пауки» сознательно настроены так, чтобы игнорировать те или иные адреса.
К каким-то ресурсам доступ ограничили сами владельцы страниц.
А некоторые страницы имеют такой формат, который пока еще не поддерживается поисковыми машинами.
Вот что говорят о невидимом Интернете и причинах его существования Крис Шерман и Гэри Прайс.
Парадокс невидимого Интернета в том, что легко понять, почему он существует, но трудно точно его определить в конкретных, специфических терминах.
Невидимый Интернет трудно точно определить и классифицировать по нескольким причинам.
1. Большинство страниц невидимого Интернета могут быть проиндексированы технически, но не индексируются, потому что поисковые системы решили их не индексировать. Это очень важный момент для невидимого Интернета – что поисковики просто решили исключить из индексации страницы определенного содержания. Мы не говорим о страницах со «взрослым» содержанием или спамерских сайтах, вовсе наоборот. Большинство «невидимых» сайтов имеют высококачественный контент. Просто эти ресурсы не могут быть найдены с помощью поисковых машин общего назначения, т. к. они были заблокированы.
Есть много причин, почему так происходит. Если поисковик изменит свою политику по отношению к страницам подобного рода, то эти страницы станут частью видимого Интернета.
2. Довольно легко классифицировать сайты как часть видимого или невидимого Интернета, если посмотреть на то, каким образом они работают. Некоторые сайты используют технологию баз данных, что действительно сложно сделать поисковой машине. Это действительно невидимый Интернет. Другие сайты, однако, используют сочетание файлов, которые содержат текст и которые содержат мультимедиа, а поэтому часть из них может быть проиндексирована, а часть – нет. Такие сайты нельзя отнести четко к видимой или к невидимой части Интернета.
Некоторые сайты могут быть проиндексированы поисковыми машинами, но это не делается потому, что поисковые машины считают это непрактичным – например, по причине стоимости или потому, что данные настолько короткоживущие, что индексировать их просто бессмысленно – например, прогноз погоды, точное время прибытия конкретного самолета, совершившего посадку в аэропорту и т. п.