- Любовные романы
- Фантастика и фэнтези
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Яндекс для всех - М. Абрамзон
Шрифт:
Интервал:
Закладка:
Значительно проще следить за новостями с помощью сервиса, который собирает их с различных сайтов, агрегирует по темам, релевантности, времени публикации. Такие сервисы существуют, и их немало. Как правило, это сервисы, которые сами не являются производителями контента. Какому из подобных сервисов отдаст предпочтение тот или иной человек, зависит от возможностей, им предоставляемых, удобства использования, качественности и своевременности подаваемой информации. В число наиболее посещаемых и, следовательно, наиболее удобных и качественных сервисов такого рода, входят и Яндекс. Новости.
3.1.1. С чего начинались Яндекс. Новости
Начало работы СЃ новостными сайтами Сѓ РїРѕРёСЃРєРѕРІРёРєР° складывалось примерно так Р¶Рµ, как Рё работа СЃ веб-ресурсами. Поисковые роботы обходили новостные сайты, собирали контент, добавляли его РІ Рндекс, после чего посетители РїРѕРёСЃРєРѕРІРѕР№ системы могли найти РІ ней РЅРµ только информацию РёР· документов, РЅРѕ Рё РёР· новостей. Отличие было РІ том, что новостные сайты обновляют СЃРІРѕСЋ информацию РЅР° РїРѕСЂСЏРґРєРё чаще, чем иные сетевые ресурсы. Поэтому частота РѕР±С…РѕРґР° роботами новостных сайтов была значительно выше, РґРѕС…РѕРґСЏ для наиболее значимых ресурсов РґРѕ 5-10 РјРёРЅСѓС‚. Какое-то время уходило РЅР° индексирование, после чего информация становилась доступной для РїРѕРёСЃРєР°.
Яндекс. Новости открылись РІ РёСЋРЅРµ 2000 РіРѕРґР° Рё включали РІ РїРѕРёСЃРєРѕРІСѓСЋ базу информацию РёР· пятнадцати источников. Ртот сервис был первой полностью автоматической службой СЃР±РѕСЂР° Рё обработки новостей. Новости РЅРµ только индексировались Рё помещались РІ Рндекс, РЅРѕ также раскладывались РїРѕ тематическим рубрикам. Новостная база стала РѕРґРЅРѕР№ РёР· первых РІ перечне дополнительных параллельных РїРѕРёСЃРєРѕРІ Яндекса — заголовки новостей РјРѕР¶РЅРѕ было получить РїРѕ результатам РїРѕРёСЃРєРѕРІРѕРіРѕ запроса РЅР° отдельной вкладке результатов РїРѕРёСЃРєР°.
РќРѕ новостных источников становилось РІСЃРµ больше. Р СѓР¶Рµ Рє 2003 РіРѕРґСѓ РёС… количество перевалило Р·Р° сотню (сегодня партнерами Яндекс. Новостей являются почти 2000 интернет-РЎРњР, Рё РІ РёС… числе — информационные агентства широкого профиля, электронные версии печатных РЎРњР, сетевые издания, сайты телеканалов Рё радиостанций, тематические, специализированные Рё региональные ресурсы). Стало СЏСЃРЅРѕ, что первоначальный СЃРїРѕСЃРѕР± СЃР±РѕСЂР° Рё индексирования новостей СѓР¶Рµ перестал себя оправдывать, появилось множество дублирующих новостей, выполненных РїРѕ типу copy+paste. Пришло время менять принцип СЃР±РѕСЂР° Рё обработки новостей.
Р’ том РјРѕСЂРµ новостей, которое обрушилось РЅР° РїРѕРёСЃРєРѕРІСѓСЋ систему, РЅСѓР¶РЅРѕ было выбрать наиболее важные, значимые новости. Рто стало РѕРґРЅРѕР№ РёР· первоочередных задач развития сервиса. Рђ для этого необходимо было научиться, РІРѕ-первых, находить Рё соединять сообщения РЅР° РѕРґРЅСѓ тему, Р°, РІРѕ-вторых, упорядочивать сообщения РїРѕ важности — для того чтобы общественно значимые события последних нескольких часов или всего РґРЅСЏ оказывались Р±С‹ максимально экспонированы.
Как собирают сюжетыКак собрать в едином сюжете новости, опубликованные в различных источниках? В почтовой службе это легче — есть исходное письмо, и если есть ответы на него, то они "сцепляются" друг с другом и попадают в одно обсуждение. В новостях все намного сложнее — нет единого названия, тексты сообщений могут отличаться друг от друга весьма значительно. В то же время новости относятся к одному и тому же событию, следовательно, должны попасть в один сюжет. Рвот что по этому поводу говорят разработчики системы поиска по новостям:
Центральная задача, которая стояла перед нами, — научиться отождествлять сообщения, относящиеся к одному и тому же сюжету. Очевидно, что эта задача лучше всего решается анализом текста и поиском максимально похожих документов.
Для определения попарной текстуальной близости сообщений мы использовали модифицированный для небольших однородных текстов алгоритм поиска похожих документов и алгоритм нечеткого поиска по кворуму. Как и любой поиск Яндекса, этот алгоритм работает с учетом морфологических вариантов русских и английских слов, причем для агнонимов (то есть "неизвестных системе слов"), составляющих в Яндекс. Новостях значительную часть словника, используется методика нахождения ближайших морфологических эквивалентов. Для частичного снятия морфологической омонимии в Яндекс. Новостях используются статистические эвристики.
Затем матрица попарной близости обрабатывается алгоритмом кластеризации с тщательно подобранным радиусом. Для того чтобы увеличить связность крупных сюжетов, мы дополнительно использовали кластеризацию второго уровня, собирая атомарные кластеры в более крупные. Такой алгоритм дает полноту около 85–90 % (то есть не более 15 % сообщений ошибочно не попадают в сюжеты) и обеспечивает точность около 95 % — в сюжетах редко встречаются сообщения на другие темы.