Яндекс для всех - М. Абрамзон
Шрифт:
Интервал:
Закладка:
Следом приводится статистическая информация — сколько входит в этот сюжет сообщений, фотографий и других файлов, сколько высказано по этому поводу мнений в блогах. Рне менее важная информация — какое информационное издание первым опубликовало эту новость (приводится название издания, дата и точное время публикации).
В конце списка новостей может присутствовать ссылка на другие сюжеты, связанные с данным. К примеру, с обсуждением установки памятника бездомной собаке Яндекс. Новости связали сюжет под названием "Суд рассмотрит дело охранника метро, убившего пса Рыжика". Поскольку все формирование раздела новостей происходит автоматически, остается лишь порадоваться такому точному определению тематически связанных сюжетов.
Если в новости упоминается географический адрес, связанный с событием, то в дополнение сюжет будет проиллюстрирован фрагментом карты города (пока поддерживается 10 городов, среди которых Москва, Киев, Екатеринбург, Самара). Как уже говорилось, в новости про памятник собаке упоминается станция метро, поэтому на странице сюжета приводится фрагмент карты Москвы (см. рис. 3.4) в районе упомянутой станции. Если вы захотите рассмотреть карту подробнее, то сможете сделать это с помощью одного щелчка, перейдя на большую карту в Яндекс. Картах.
Выделение адресов из контента проводится с помощью технологии извлечения данных, которая применяется и для выделения других важных компонентов сообщений (например, действующих лиц).
С технологической точки зрения интересной задачей оказалось определение города, к которому относится упомянутый в новости адрес. Дело в том, что авторы новостных сообщений достаточно редко пишут город непосредственно рядом с улицей, — говорит Лев Гершензон, ведущий разработчик компании "Яндекс". — Для решения этой задачи пришлось из каждого новостного сообщения выделять все названия населенных пунктов, а потом выбирать самое "релевантное" — в зависимости от количества вхождений в документ, от расположения в документе и т. п.
Очень часто в связи с тем или иным событием в онлайновых изданиях публикуются высказывания известных личностей. Наиболее интересные высказывания могут быть подобраны в специальный блок, который называется Сюжет в лицах. На странице сюжета в этом блоке представлены фамилии людей, выразивших свое отношение к обсуждаемому событию, либо тем или иным образом с ним связанные. Например, в сюжете, посвященном эмбарго на поставку мяса из Польши, в блоке Сюжет в лицах приведена фамилия Маркоса Киприану (рис. 3.6), специального уполномоченного по здравоохранению ЕС. Перейдя по ссылке с фамилии, попадаешь на страницу, посвященную этому человеку, где информация о нем представлена в виде четырех блоков:
□ кто такой Маркос Киприану (в данном случае ЕС Маркос);
□ Работа;
□ Что он говорит по поводу события;
□ Что о нем говорят по поводу события.
ПримечаниеКстати, обратите внимание на то, что в данном случае обработка информации о человеке была выполнена некорректно. Вместо его имени была подставлена аббревиатура "ЕС", присутствующая в тексте рядом с фамилией человека, что и привело к возникновению ошибки. А вот его имя было, похоже, принято за что-то, имеющее отношение к Кипру.
3.1.4. Поиск по Новостям
Для пользователя поиск по новостям выглядит совершенно так же, как и обычный поиск по веб-страницам. То же самое поисковое выражение, которое надо ввести в строку поиска, те же дополнительные параметры, позволяющие составлять сложные поисковые выражения. Поиск по новостям можно выполнять с главной страницы Яндекса, выполнив вначале общий поиск, а затем перейдя на вкладку Новости (параллельный поиск), либо перейти в раздел Яндекс. Новости и поиск выполнить с его главной страницы.
Отличие результатов поиска по новостям от поиска по веб-страницам заключается в том, что при поиске новостей включаются дополнительные алгоритмы, формирующие сюжеты, их аннотирование и ранжирование. В результате, задавая вопрос в Яндекс. Новостях, вы получите не просто список сообщений, соответствующих вашему запросу и отсортированный по времени и релевантности. Результаты поиска будут сгруппированы по сюжетам, а ранжирование по релевантности будет выполнено согласно стандартным принципам ранжирования, принятым на Яндексе. Ранжирование основано на числе и ранге всех найденных новостей внутри новостных сюжетов, при этом ранг одной новости определяется как ее свежесть с учетом приоритетов строгого текстуального совпадения. В то же время оставлена возможность изменить сортировку по сюжетам на сортировку результатов поиска по времени.