- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Интернет-разведка. Руководство к действию - Евгений Ющук
Шрифт:
Интервал:
Закладка:
Научившись разбираться во всех приведенных нюансах, вы сможете автоматизировать процесс создания набора символов для подобных сложных страниц. Причем изучать кодировки для этого совершенно не требуется.
Проведем простейший эксперимент: наберем в поисковой строке Яндекса слово «Manager», а в отдельном запросе – слово «Менеджер» и сравним URL’ы страниц, которые будут получены в ответ.
Итак, адрес страницы по англоязычному запросу «Manager» выглядит следующим образом:
http://www.yandex.ru/yandsearch?stype=www&nl=0&text=Manager.
А вот так выглядит URL ресурса по русскоязычному запросу «Менеджер»:
http://www.yandex.ru/yandsearch?text=%EC%E5%ED%E5%E4%E6%E5%F0&stype=www.
Очевидно, что кодированные тексты в запросе резюме на сайте e1 и на Яндексе по слову «менеджер» идентичны и имеют вид
«%EC%E5%ED%E5%E4%E6%E5%F0».
Мы уже располагаем примером синтаксиса строки страницы номер один с сайта e1 по запросу «менеджер»:
http://www.e1.ru/business/job/resume.search.php?sex=l&keywords=%EC%E5%ED%E5%E4%E6%E5%F0&search_by=1&show_for=7&order_by=2&search=yes&page=0.
Можно произвольно подставлять любое нужное слово, предварительно получая его закодированное написание в Яндексе, и таким образом принудительно генерировать на сайте e1 и ему подобных ресурсах нужные страницы с нужным форматом адреса, который впоследствии технически можно ставить на автоматический мониторинг.
Проверим это утверждение на примере запроса по ключевому слову «Автоленд».
Написание слова «Автоленд» в URL’е, полученное с помощью запроса в Яндексе, выглядит так:
«%C0%E2%F2%EE%EB%E5%ED%E4».
Если механически подставить это значение в строку запроса по поиску вакансий на сайте e1 для первой страницы выдачи, то адрес будет выглядеть следующим образом:
http://www.e1.ru/business/job/resume.search.php?sex=l&keywords=%C0%E2%F2%EE%EB%E5%ED%E4&search_by=1&show_for=7&order_by=2&search=yes&page=0.
Подставив эти координаты в адресную строку браузера, мы получили всего одну страницу, на которой содержалось резюме конкретного специалиста. В тексте этого документа была информация о том, что человек действительно работал когда-то в компании «Автоленд».
Однако помимо всего описанного выше, долгое время существовала еще проблема индексации динамически генерируемых страниц, которая относила их к невидимому Интернету.
Динамические страницы – это ресурсы, создаваемые небольшой программой – скриптом – в момент запроса браузера к серверу. Такая страница часто имеет вид:
aaaa?b=x&c=y
где aaaa – название скрипта, а после «?» идут параметры, включенные в запрос. Обычно динамические страницы определяются пауком на том основании, что они содержат символы
«?», «&» и «=«в URL.
Большинство поисковых систем до недавнего времени старались обходить такие страницы стороной, т. к. паук вполне мог на них «зависнуть» навсегда, в силу технических причин – потому что он непрерывно пытался посетить несуществующие страницы, адреса которых практически до бесконечности может генерировать скрипт.
Динамические страницы очень удобны для производства сайтов, и игнорировать их было бы недальновидно. Поэтому в последнее время крупнейшие поисковые системы стали одна за другой объявлять о том, что они начинают индексировать такие ресурсы, так что сайтов, которые относились прежде к невидимому Интернету в силу того, что содержали динамические страницы, стало меньше.
Преимущества невидимого Интернета
Поисковые системы удобны, поскольку позволяют проводить поиск по ключевым словам. Однако все популярные поисковики такого плана – вроде Яндекса, Гугла и Рамблера, – рассчитаны на широкую, а не целевую аудиторию.
В то время как невидимый Интернет изобилует источниками, посвященными определенной теме: они подобраны и проверены специалистами вручную и потому в большинстве случаев содержат наиболее полную и подробную информацию по конкретному вопросу.
Так, на сайте проекта «Рифпарк», расположенном по адресу http://rifpark.ru/, вы можете ознакомиться с материалами по аквариумистике, многие из которых взяты из видимого Интернета и собраны вместе на данном ресурсе, оценены специалистами на предмет компетентного подхода к проблеме и представлены в виде тематических каталогов. При этом часть материалов из каталога сайта «Рифпарк» на момент написания книги была не проиндексирована поисковыми машинами, несмотря на то, что главная страница ресурса проиндексирована была.
Например, фраза: «Водоросли обычно придают аквариуму неэстетичный вид (хотя в природе они встречаются повсеместно) или служат индикатором плохого качества воды», – взятая с этого сайта, при поиске по ней информации в Яндексе не вывела нас на ссылку, которая указывала бы на ресурс проекта «Рифпарк». Были найдены другие сайты с таким же текстом. Это видно на рис. 6.
Рис. 6. Яндекс не видит сайта «Рифпарк» при запросе фразы с этого сайта.
Как указывают эксперты по поиску в Интернете, поисковые машины общего назначения постоянно выбирают между тем, какой ответ предоставить: самый простой, самый полный, самый интересный… (перечень критериев можно продолжить – вплоть до «наилучшего»). Как мы уже говорили, эти системы вынуждены ограничивать себя в процессе удовлетворения запроса пользователя, так как их работа имеет определенную себестоимость. Поисковик – коммерческое предприятие, ничего уж тут не поделаешь.
С другой стороны, правительства, учебные заведения и другие организации, не преследующие целей получения прибыли, очень активно используют ресурсы невидимого Интернета. Такие сайты не стараются угадать интересы каждого, «заточены» под потребности представителей определенной отрасли и очень часто дают полный ответ на вопрос, на котором, собственно, и специализируются. Ответ этот, как правило, позволяет провести исчерпывающий поиск в конкретной предметной области и оперативно обновлять результаты.
Таким образом, нередко невидимый Интернет имеет преимущества перед видимым:
– фокусируется на узкоспециальном контенте, что позволяет ему обеспечивать более полные результаты;
– часто имеет соответствующий своей теме поисковый интерфейс, отчего запросы могут настраиваться более точно, нежели в поисковой машине общего назначения, а значит, и ответы получаются более релевантными;
– экономит время, а кроме того – может содержать информацию, которая нигде более недоступна.
Это происходит, в частности, оттого, что в каталог невидимого Интернета его энтузиасты нередко включают информацию, взятую из базы данных, которая не индексируется поисковыми машинами, либо помещают фотографию документа, сделанную такими пользователями лично. Кроме того, если на каком-то форуме появляются интересные сведения, то они в ряде случаев просто стираются модератором или самим автором. Но до того как информацию успеют убрать, она зафиксируется одним из энтузиастов и будет храниться затем на его тематическом сайте.
Когда использовать невидимый Интернет
Итак, мы можем констатировать, что при поиске узкоспециальной информации после просмотра того, что будет предложено поисковиками, следует непременно обратиться к специализированным ресурсам. Особенно когда задача заключается не в одном лишь нахождении ответа на вопрос вроде: «В каком году был открыт Кутаисский автомобильный завод?» (это, кстати, реальный вопрос с Форума Яндекса[6]), – а подразумевает сбор максимально полной информации по той или иной проблеме. Как уже было сказано, часть сведений на таких сайтах может относиться к видимому Интернету, а часть – к невидимому.
Есть смысл попытаться не ограничиваться поисковыми машинами, а отправиться на тематические сайты и поискать там информацию, которая может относиться к Невидимому Интернету, в следующих ситуациях.
1. Когда вы хорошо ориентируетесь в предмете.
Специалисты в своем деле обычно знают один или более ресурсов, которые располагают необходимой им информацией. Часть таких адресов относится к невидимому Интернету.
Компетентность человека в изучаемом предмете обеспечивает еще одно преимущество: настоящий профессионал быстро приходит к пониманию того, какие ключевые слова дают наилучший результат при поиске нужных сведений и в других базах данных.
2. Когда вы хорошо знакомы со специфическим поисковым инструментом.
Некоторые ресурсы невидимого Интернета охватывают различные области знаний, но имеют при этом столь развитый и тонко настроенный поисковый инструмент, что, умея им пользоваться, можно достичь результатов лучших, нежели те, которые будут представлены поисковыми машинами общего назначения. Возможность точного составления запроса позволяет лучше искать иголку в стоге сена. Это справедливо и для ряда ресурсов видимого Интернета. Чтобы убедиться в этом, достаточно сравнить ответ на запрос с множеством параметров, который можно ввести, например, при поиске нужного резюме на сайте, посвященном поиску работы, и ответы на такой же запрос к поисковой машине, например, к Яндексу.

