- Любовные романы
- Фантастика и фэнтези
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Яндекс для всех - М. Абрамзон
Шрифт:
Интервал:
Закладка:
Точность поиска определяется как степень соответствия найденных документов запросу пользователя. Допустим, мы хотим найти документы, в которых встречается выражение "сын знахаря". В результатах поиска мы увидим документы, в которых встречается точно такое выражение. Но присутствуют и документы, содержащие искомые слова, но не выражения, например: "родители привозят сына в небольшой городок на Адриатическом побережье, к местному знахарю". Ресли всего найдено 200 документов, из которых только в 80 встречается именно искомое словосочетание, то точность поиска будет оценена как 80/200 (0,4). Чем точнее поиск, тем выше вероятность, что пользователь найдет нужные документы, тем меньше будет избыточной, лишней информации.
Для повышения точности результата в различных поисковых системах применяются различные способы. Каждый поисковик использует свои решения, в целом предназначенные для выполнения близких по сути задач. К примеру, вот что по этому поводу сказано на сайте Рамблера:
Повышение точности РІ РїРѕРёСЃРєРѕРІРѕР№ машине Рамблер достигается Р·Р° счет использования различных технологий РЅР° всех этапах обработки Рё РїРѕРёСЃРєР° информации. РћРґРЅРёРј РёР· наиболее интересных процессов является распознавание грамматических РѕРјРѕРЅРёРјРѕРІ. РћРјРѕРЅРёРјС‹ — это слова, которые имеют одинаковое написание, РЅРѕ различный смысл. Различают лексические Рё грамматические РѕРјРѕРЅРёРјС‹. Лексические РѕРјРѕРЅРёРјС‹ относятся Рє РѕРґРЅРѕР№ части речи, как, например, существительное "Р±РѕСЂ": хвойный лес, стальное сверло Рё химический элемент. Грамматические РѕРјРѕРЅРёРјС‹ относятся Рє разным частям речи, поэтому РїРѕ написанию Сѓ РЅРёС… обычно совпадают только отдельные формы. Примерами грамматических РѕРјРѕРЅРёРјРѕРІ РјРѕРіСѓС‚ служить слова "печь" (существительное русская печь Рё глагол печь РїРёСЂРѕР¶РєРё) Рё "СЂСЏРґРѕРІРѕР№" (прилагательное СЂСЏРґРѕРІРѕР№ сотрудник Рё существительное СЂСЏРґРѕРІРѕР№ Рванов).
Омонимы не только увеличивают размер индексной базы (так как для каждого такого слова приходится хранить все его возможные значения), но и отрицательно сказываются на точности поиска. Если пользователь ищет слово "данные", ему неинтересно получить в найденном все документы, которые содержат слово "дать". Для того чтобы результаты поиска были точнее, модуль синтаксического анализа проводит разбор окружения слов-омонимов с целью установления их наиболее вероятных значений. Например, если рядом со словом "печь" стоит существительное ("пирожки", "картошка"), то с высокой вероятностью "печь" в данном контексте является глаголом. На сегодняшний день анализатор способен распознавать значения только грамматических омонимов.
Синтаксический анализ позволяет также с определенной вероятностью распознавать некоторые имена собственные. Например, если в тексте несколько слов подряд написано с большой буквы, они чаще всего представляют собой имя собственное (Петр Петрович, Московский Государственный Университет). Данные о таких конструкциях учитываются при индексации и обработке запроса.
Еще один способ повышения точности поиска — это выделение устойчивых обозначений и поиск их как отдельных лексических единиц. На сегодняшний день в Рамблере реализована система распознавания таких конструкций, как, например C++, б/у, п/п-к. Если по запросу С++ поднимать все тексты, в которых присутствуют латинская буква С, а также знак +, то получится огромное количество документов, далеко не все из которых соответствуют запросу; кроме того, это большая работа, значительно увеличивающая время поиска.
Рсточник: "Принципы работы РїРѕРёСЃРєРѕРІРѕР№ машины Рамблер" (http://www.rambler.ru/doc/architecture.shtml).
Рђ РІРѕС‚ что РЅР° эту Р¶Рµ тему пару лет назад сказал Р. Сегалович, директор Яндекса РїРѕ технологиям Рё разработке:
Алгоритм РїРѕРёСЃРєР° учитывает социальную структуру Рнтернета. РћРЅ умеет отличать мнение людей РѕС‚ технической, вспомогательной Рё рекламной информации, то есть лучше распознавать, какой ресурс является авторитетным РІ своей области. Также введена дополнительная очистка результатов РїРѕРёСЃРєР° РѕС‚ дубликатов. Теперь пользователь избавлен РѕС‚ повторения РІ СЃРїРёСЃРєРµ найденного почти одинаковой информации. РџРѕРёСЃРє РІ Рнтернете — это серьезная наука, поэтому для повышения качества сервиса РІ Яндексе проводятся регулярные исследования. Р’ прошлом РіРѕРґСѓ РјС‹ организовали отдел асессоров — пользователей, которые систематически РїРѕ заданной методике оценивают релевантность результатов. Обратная СЃРІСЏР·СЊ РѕС‚ асессоров дает нам возможность настраивать параметры алгоритма ранжирования Рё увеличивать точность РїРѕРёСЃРєР°. Стало удобнее работать СЃ региональной информацией. Теперь Яндекс автоматически определяет, РІ каком РіРѕСЂРѕРґРµ находится компьютер, СЃ которого поступил запрос, Рё, если уточнение РїРѕ региону имеет смысл, предлагает повторить РїРѕРёСЃРє, ограничив его сайтами данного региона. РџРѕРёСЃРє поддерживает шесть языков — Рє СЂСѓСЃСЃРєРѕРјСѓ Рё английскому добавились украинский, белорусский, французский Рё немецкий. Язык документов Рё сайтов определяется автоматически, Р° ограничить область РїРѕРёСЃРєР° нужным языком РјРѕР¶РЅРѕ РІ настройках или расширенном РїРѕРёСЃРєРµ. Расширенный РїРѕРёСЃРє стал проще Рё функциональней, заданные СЃ его помощью ограничения теперь РІРёРґРЅС‹ РЅР° странице найденных результатов. Благодаря "СѓРјРЅРѕР№ подсказке" пользователи расширенного РїРѕРёСЃРєР° СЃРјРѕРіСѓС‚ увидеть сформированный запрос, как если Р±С‹ РѕРЅ был задан РЅР° СЂСѓСЃСЃРєРѕРј языке.