Яндекс для всех - М. Абрамзон
Шрифт:
Интервал:
Закладка:
Прежде всего, стало очевидно, что поиск в вебе не может быть сколько-нибудь корректно выполнен, будучи основан на анализе (пусть даже сколь угодно глубоком, семантическом и т. п.) одного лишь текста документа. Ведь внетекстовые (off-page) факторы играют не меньшую, а порой и большую роль, чем текст самой страницы. Положение на сайте, посещаемость, авторитетность источника, частота обновления, цитируемость страницы и ее авторов — все эти факторы невозможно сбрасывать со счета.
Появились эти критерии РЅРµ РЅР° пустом месте. Для научных трудов РІРѕРїСЂРѕСЃ значимости был давно решен Р·Р° счет применения индекса цитирования (РР¦). Рндекс цитирования для научного труда определяется как количество ссылок РЅР° этот труд РІ РґСЂСѓРіРёС… изданиях (РёРЅРѕРіРґР° вместо ссылок РЅР° конкретный труд считают упоминания фамилии автора). Ртот принцип определения значимости был перенесен Рё РЅР° веб-страницы, для которых РР¦ подсчитывается РїРѕ количеству ссылок РЅР° нее СЃ РґСЂСѓРіРёС… веб-ресурсов. Для веб-сайта индекс цитирования определяется РїРѕ РР¦ его страниц. Главная особенность такого ранжирования заключается РІ том, что значимость сайта определяется РЅРµ его владельцем, Р° тем, как его оценивают РґСЂСѓРіРёРµ — чем больше ссылок ведет РЅР° сайт, тем ценнее размещенная РЅР° нем информация.
Однако индекс цитирования РІ том РІРёРґРµ, как РѕРЅ здесь описан, РЅРµ дает корректной оценки значимости. Хотя Р±С‹ потому, что зачастую РѕРґРЅР° ссылка СЃ известного Рё уважаемого сайта может значить намного больше, чем сотня ссылок СЃ РЅРёРєРѕРјСѓ РЅРµ известных страниц. Поэтому был предложен более сложный вариант индекса цитирования — взвешенный (РІРР¦). РџСЂРё его подсчете для каждой ссылки вычисляется вес РІ зависимости РѕС‚ того, РЅР° каком сайте РѕРЅР° размещена. Чем авторитетнее сайт, тем выше вес ссылки, РЅР° нем размещенной. РџСЂРё подсчете взвешенного индекса цитирования почти РІСЃРµ поисковые системы исключают РёР· подсчета ссылки, размещенные РЅР° сайтах СЃ бесплатного хостинга, РЅР° немодерируемых форумах, СЂСЏРґРµ иных ресурсов. Также РЅРµ берутся РІ расчет внутренние ссылки (переходы СЃРѕ страницы РЅР° страницу РІ рамках РѕРґРЅРѕРіРѕ сайта).
9.2. PageRank
Наиболее ярким примером такого индекса цитирования служит PageRank. Как описывает теорию индекса Google — "если Страница А ссылается на Страницу В, то Страница А считает, что Страница В — важная страница". Текст ссылки не используется при расчете этого индекса. Зато наоборот, PageRank оказывает влияние на важность ссылок на страницу. Если на страницу указывают многие важные ссылки, то ее ссылки на другие страницы также становятся более важными. Для PageRank важными ссылками считаются ссылки, ведущие на сайт из каталогов DMOZ и Yahoo!.
Базовая формула для расчета значения PageRank чаще всего в соответствующих статьях бывает представлена в следующем виде:
РіРґРµ:
PRa — PageRank рассматриваемой страницы;
d — коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не попадет на следующий документ каким-нибудь другим образом);
N — общее количество документов;
PRi — PageRank i-й страницы, ссылающейся на рассматриваемую страницу;
Ci — общее число ссылок на i-й странице.
Значение PR находится РІ пределах РѕС‚ 0 РґРѕ 10 Рё представлено целыми числами. Рменно это значение можно увидеть РІ установленной панели инструментов, хотя действительное значение PR совсем РёРЅРѕРµ. Для удобства Рё упрощения представления индекса цитирования реальные значения были приведены Рє значениям для пользователей. Точные данные Рѕ том, каким образом было выполнено это приведение, отсутствуют, РЅРѕ РІ качестве примера можно воспользоваться следующими данными (табл. 9.1).
Отсюда можно сделать один вывод — увеличить значение PR от 1 до 2 значительно проще, чем подняться со значения 4 до значения 5. Средние по известности сайты, чаще всего, имеют значение PR, равное 4 или 5. Значение 6 имеют хорошо "раскрученные" сайты. 7 или 8 — у ведущих брендов.
Приведенная здесь формула РЅРµ РіРѕРІРѕСЂРёС‚ Рѕ том, что расчеты выполняются строго РІ соответствии СЃ ней. РќР° самом деле РїСЂРѕРёСЃС…РѕРґРёС‚ постоянное усложнение алгоритма расчета, примером чему может служить осуществленное РІ РЅРѕСЏР±СЂРµ 2003 РіРѕРґР° специалистами Google изменение алгоритма вычисления PageRank. Рто изменение среди англоговорящих вебмастеров получило название "Florida". Однако Google РЅРµ сделал никаких официальных заявлений РїРѕ РїРѕРІРѕРґСѓ того, что Р·Р° изменения были внесены. РќР° этом работа над изменениями РЅРµ остановилась, РІ компании постоянно ведутся научные работы РїРѕ модификации алгоритма PageRank.