- Любовные романы
- Фантастика и фэнтези
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Яндекс для всех - М. Абрамзон
Шрифт:
Интервал:
Закладка:
Вторые собирают информацию РІ Сети, используя специальные программы. Рто поисковые машины, состоящие, как правило, РёР· трех основных компонентов:
□ Агента;
в–Ў Рндекса;
□ Поискового механизма.
Агент, или более привычно — паук, СЂРѕР±РѕС‚ (РІ англоязычной литературе — spider, crawler), РІ поисках информации РѕР±С…РѕРґРёС‚ сеть или ее определенную часть. Ртот СЂРѕР±РѕС‚ хранит СЃРїРёСЃРѕРє адресов (URL), которые РѕРЅ может посетить Рё проиндексировать, СЃ определенной для каждой РїРѕРёСЃРєРѕРІРѕР№ машины периодичностью скачивает соответствующие ссылкам документы Рё анализирует РёС…. Полученное содержимое страниц сохраняется роботом РІ более компактном РІРёРґРµ Рё передается РІ Рндекс. Если РїСЂРё анализе страницы (документа) будет обнаружена новая ссылка, СЂРѕР±РѕС‚ добавит ее РІ СЃРІРѕР№ СЃРїРёСЃРѕРє. Поэтому любой документ или сайт, РЅР° который есть ссылки, может быть найден роботом. Рнаоборот, если РЅР° сайт или любую его часть нет никаких внешних ссылок, СЂРѕР±РѕС‚ может его РЅРµ найти.
Р РѕР±РѕС‚ — это РЅРµ просто сборщик информации. РћРЅ обладает довольно развитым "интеллектом". Роботы РјРѕРіСѓС‚ искать сайты определенной тематики, формировать СЃРїРёСЃРєРё сайтов, отсортированных РїРѕ посещаемости, извлекать Рё обрабатывать информацию РёР· существующих баз данных, РјРѕРіСѓС‚ выполнять переходы РїРѕ ссылкам различной глубины вложенности. РќРѕ РІ любом случае, РІСЃСЋ найденную информацию РѕРЅРё передают базе данных (Рндексу) РїРѕРёСЃРєРѕРІРѕР№ машины.
Поисковые роботы бывают различных типов:
□ Spider (паук) — это программа, которая скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т. д.), паук же не имеет никаких визуальных компонентов и работает напрямую с HTML-текстом страницы (аналогично тому, что вы увидите, если включите просмотр HTML-кода в вашем браузере).
□ Crawler (краулер, "путешествующий" паук) — выделяет все ссылки, присутствующие на странице. Его задача — определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.
в–Ў Рндексатор разбирает страницу РЅР° составные части Рё анализирует РёС…. Выделяются Рё анализируются различные элементы страницы, такие как текст, заголовки, структурные Рё стилевые особенности, специальные служебные HTML-теги Рё С‚.В Рґ.
Рндекс — это та часть РїРѕРёСЃРєРѕРІРѕР№ машины, РІ которой осуществляется РїРѕРёСЃРє информации. Рндекс содержит РІСЃРµ данные, которые были переданы ему роботами, поэтому размер индекса может достигать сотен гигабайт. Практически, РІ индексе находятся РєРѕРїРёРё всех посещенных роботами страниц. Р’ случае если СЂРѕР±РѕС‚ обнаружил изменение РЅР° СѓР¶Рµ проиндексированной РёРј странице, РѕРЅ передает РІ Рндекс обновленную информацию. РћРЅР° должна замещать имеющуюся, РЅРѕ РІ СЂСЏРґРµ случаев РІ Рндексе появляется РЅРµ только новая, РЅРѕ остается Рё старая страница.
Поисковый механизм — это тот самый интерфейс, СЃ помощью которого посетитель взаимодействует СЃ Рндексом. Через интерфейс пользователи РІРІРѕРґСЏС‚ СЃРІРѕРё запросы Рё получают ответы, Р° владельцы сайтов регистрируют РёС… (Рё эта регистрация — еще РѕРґРёРЅ СЃРїРѕСЃРѕР± донести РґРѕ робота адрес своего сайта). РџСЂРё обработке запроса поисковый механизм выполняет отбор соответствующих ему страниц Рё документов среди РјРЅРѕРіРёС… миллионов проиндексированных ресурсов Рё выстраивает РёС… РІ РїРѕСЂСЏРґРєРµ важности или соответствия запросу.
Названные выше компоненты РЅРµ обязательно РІС…РѕРґСЏС‚ РІ состав РїРѕРёСЃРєРѕРІРѕР№ машины так, как РѕРЅРё здесь описаны. РЈ разных РїРѕРёСЃРєРѕРІРёРєРѕРІ реализация может отличаться РґСЂСѓРі РѕС‚ РґСЂСѓРіР°. Рљ примеру, СЃРІСЏР·РєР° Spider+Crawler+Рндексатор может быть выполнена РІ РІРёРґРµ единой программы, которая скачивает известные веб-страницы, анализирует РёС… Рё ищет РїРѕ ссылкам новые ресурсы.
1.1.2. Характеристики поисковых машин
В статье, посвященной поисковой машине Rambler (http://www.rambler.ru/ doc/architecture.shtml), называются основные характеристики, которые могут быть применены к любым поисковикам:
□ полнота;
□ точность;
□ актуальность;
□ скорость;
□ наглядность.
Полнота РїРѕРёСЃРєР° характеризуется отношением количества найденных РїРѕ запросу документов Рє общему количеству документов РІ Рнтернете, соответствующих данному запросу. Если РїРѕ запросу "кристаллическая решетка" будет найдено 150 документов, Р° общее количество документов РІ Рнтернете, соответствующее этому запросу, составляет 1000, то полнота РїРѕРёСЃРєР° составит 0,15. (Рта величина приблизительная, поскольку неизвестно точно, сколько Р¶Рµ РЅР° самом деле существует РІ Рнтернете страниц, отвечающих условию РїРѕРёСЃРєР°.) Чем более полно проанализированы Рё занесены РІ Рндекс документы, тем выше будет показатель полноты РїРѕРёСЃРєР°.