Категории
Самые читаемые
Лучшие книги » Компьютеры и Интернет » Интернет » Яндекс для всех - М. Абрамзон

Яндекс для всех - М. Абрамзон

Читать онлайн Яндекс для всех - М. Абрамзон

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 68 69 70 71 72 73 74 75 76 ... 199
Перейти на страницу:

Значительно проще следить за новостями с помощью сервиса, который собирает их с различных сайтов, агрегирует по темам, релевантности, времени публикации. Такие сервисы существуют, и их немало. Как правило, это сервисы, которые сами не являются производителями контента. Какому из подобных сервисов отдаст предпочтение тот или иной человек, зависит от возможностей, им предоставляемых, удобства использования, качественности и своевременности подаваемой информации. В число наиболее посещаемых и, следовательно, наиболее удобных и качественных сервисов такого рода, входят и Яндекс. Новости.

3.1.1. С чего начинались Яндекс. Новости

Начало работы СЃ новостными сайтами Сѓ РїРѕРёСЃРєРѕРІРёРєР° складывалось примерно так же, как Рё работа СЃ веб-ресурсами. Поисковые роботы обходили новостные сайты, собирали контент, добавляли его РІ Рндекс, после чего посетители РїРѕРёСЃРєРѕРІРѕР№ системы могли найти РІ ней РЅРµ только информацию РёР· документов, РЅРѕ Рё РёР· новостей. Отличие было РІ том, что новостные сайты обновляют СЃРІРѕСЋ информацию РЅР° РїРѕСЂСЏРґРєРё чаще, чем иные сетевые ресурсы. Поэтому частота РѕР±С…РѕРґР° роботами новостных сайтов была значительно выше, РґРѕС…РѕРґСЏ для наиболее значимых ресурсов РґРѕ 5-10 РјРёРЅСѓС‚. Какое-то время уходило РЅР° индексирование, после чего информация становилась доступной для РїРѕРёСЃРєР°.

Яндекс. Новости открылись РІ РёСЋРЅРµ 2000 РіРѕРґР° Рё включали РІ РїРѕРёСЃРєРѕРІСѓСЋ базу информацию РёР· пятнадцати источников. Этот сервис был первой полностью автоматической службой СЃР±РѕСЂР° Рё обработки новостей. Новости РЅРµ только индексировались Рё помещались РІ Рндекс, РЅРѕ также раскладывались РїРѕ тематическим рубрикам. Новостная база стала РѕРґРЅРѕР№ РёР· первых РІ перечне дополнительных параллельных РїРѕРёСЃРєРѕРІ Яндекса — заголовки новостей можно было получить РїРѕ результатам РїРѕРёСЃРєРѕРІРѕРіРѕ запроса РЅР° отдельной вкладке результатов РїРѕРёСЃРєР°.

РќРѕ новостных источников становилось РІСЃРµ больше. Руже Рє 2003 РіРѕРґСѓ РёС… количество перевалило Р·Р° сотню (сегодня партнерами Яндекс. Новостей являются почти 2000 интернет-РЎРњР, Рё РІ РёС… числе — информационные агентства широкого профиля, электронные версии печатных РЎРњР, сетевые издания, сайты телеканалов Рё радиостанций, тематические, специализированные Рё региональные ресурсы). Стало СЏСЃРЅРѕ, что первоначальный СЃРїРѕСЃРѕР± СЃР±РѕСЂР° Рё индексирования новостей уже перестал себя оправдывать, появилось множество дублирующих новостей, выполненных РїРѕ типу copy+paste. Пришло время менять принцип СЃР±РѕСЂР° Рё обработки новостей.

В том море новостей, которое обрушилось на поисковую систему, нужно было выбрать наиболее важные, значимые новости. Это стало одной из первоочередных задач развития сервиса. А для этого необходимо было научиться, во-первых, находить и соединять сообщения на одну тему, а, во-вторых, упорядочивать сообщения по важности — для того чтобы общественно значимые события последних нескольких часов или всего дня оказывались бы максимально экспонированы.

Как собирают сюжеты

Как собрать в едином сюжете новости, опубликованные в различных источниках? В почтовой службе это легче — есть исходное письмо, и если есть ответы на него, то они "сцепляются" друг с другом и попадают в одно обсуждение. В новостях все намного сложнее — нет единого названия, тексты сообщений могут отличаться друг от друга весьма значительно. В то же время новости относятся к одному и тому же событию, следовательно, должны попасть в один сюжет. Рвот что по этому поводу говорят разработчики системы поиска по новостям:

Центральная задача, которая стояла перед нами, — научиться отождествлять сообщения, относящиеся к одному и тому же сюжету. Очевидно, что эта задача лучше всего решается анализом текста и поиском максимально похожих документов.

Для определения попарной текстуальной близости сообщений мы использовали модифицированный для небольших однородных текстов алгоритм поиска похожих документов и алгоритм нечеткого поиска по кворуму. Как и любой поиск Яндекса, этот алгоритм работает с учетом морфологических вариантов русских и английских слов, причем для агнонимов (то есть "неизвестных системе слов"), составляющих в Яндекс. Новостях значительную часть словника, используется методика нахождения ближайших морфологических эквивалентов. Для частичного снятия морфологической омонимии в Яндекс. Новостях используются статистические эвристики.

Затем матрица попарной близости обрабатывается алгоритмом кластеризации с тщательно подобранным радиусом. Для того чтобы увеличить связность крупных сюжетов, мы дополнительно использовали кластеризацию второго уровня, собирая атомарные кластеры в более крупные. Такой алгоритм дает полноту около 85–90 % (то есть не более 15 % сообщений ошибочно не попадают в сюжеты) и обеспечивает точность около 95 % — в сюжетах редко встречаются сообщения на другие темы.

1 ... 68 69 70 71 72 73 74 75 76 ... 199
Перейти на страницу:
На этой странице вы можете бесплатно скачать Яндекс для всех - М. Абрамзон торрент бесплатно.
Комментарии