Инноваторы. Как несколько гениев, хакеров и гиков совершили цифровую революцию - Уолтер Айзексон
Шрифт:
Интервал:
Закладка:
Пейдж и Брин продолжили совершенствовать свою поисковую систему. Алгоритм PageRank «научился» учитывать такие факторы, как частота употребления, размер шрифта и расположение ключевых слов на веб-странице. Сайт получал больше баллов, если ключевое слово было расположено в его URL-адресе или названии, а также если оно было набрано заглавными буквами. Пейдж и Брин анализировали каждый блок результатов и слегка поправляли формулу. Они вычислили, что важную роль необходимо отводить якорному тексту ссылок, то есть «кликабельным» подчеркнутым словам, которые представляли собой гиперссылку. Например, слова «Билл Клинтон» являлись якорным текстом для многих ссылок, ведущих на портал whitehouse.gov, чтобы этот сайт появлялся среди верхних результатов, когда пользователь искал слова «Билл Клинтон». При этом на стартовой странице сайта whitehouse.gov имя Билла Клинтона не было по-особенному расположено или выделено. Тем временем конкурирующая поисковая система на запрос «Билл Клинтон» в качестве первого результата поиска выдавала сайт «Анекдот дня от Билла Клинтона»[1076].
Поисковой системе Пейджа и Брина приходилось иметь дело с огромным количеством страниц и ссылок, в частности, поэтому они назвали ее Google. Гугол (googol) — это число, состоящее из единицы и сотни нулей. Название предложил Шон Андерсон, аспирант из Стэнфорда, с которым Пейдж и Брин делили учебную комнату. Оказалось, что домен Google свободен, и Пейдж моментально его купил. «Мне кажется, мы не поняли, что сделали орфографическую ошибку, — позднее признается Брин. — Но googol все равно был занят. Какой-то парень уже купил домен Googol.com и не хотел с ним расставаться, сколько я его ни уговаривал. Поэтому мы оставили себе Google»[1077]. Это было забавное слово. Оно хорошо запоминалось и легко превращалось в глагол[1078].
Пейдж и Брин развивали Google в двух направлениях. Во-первых, они улучшали техническое оснащение своего проекта: были значительно увеличены пропускная способность интернет-канала, вычислительная мощность серверов и объем их памяти. Здесь они обошли всех конкурентов. Имея такие ресурсы, их поисковые роботы могли индексировать сотни страниц в секунду. Во-вторых, Пейдж и Брин фанатично изучали поведение пользователей, чтобы постоянно корректировать свои алгоритмы. Если пользователь кликал по верхним результатам и больше не возвращался в Google, это означало, что он нашел то, что искал. Однако если человек проходил по предложенным ссылкам, но тут же возвращался на страницу поиска и изменял свой запрос, значит, он был недоволен результатами. В таком случае инженерам следовало рассмотреть отредактированный запрос и понять, что же пользователь изначально пытался найти. Если же пользователи проматывали две или три страницы с результатами, то, значит, их не устраивал порядок выведения ссылок. Как заметил журналист Стивен Леви, благодаря постоянному потоку обратной связи разработчики Google узнали, что пользователи могут набирать «собаки», но искать при этом щенков или что слово «кипячение» может означать горячую воду. В конечном итоге Google научится «понимать», что запрос «хот-дог» («горячая собака») не имеет отношения к кипячению щенков[1079].
Один человек придумал похожую на PageRank систему оценки ссылок. Это был китайский инженер Янхон (Робин) Ли, который закончил Университет штата Нью-Йорк в Буффало и устроился в отделение агентства Dow Jones в Нью-Джерси. Весной 1996 года Пейдж и Брин работали над PageRank, а Ли написал алгоритм RankDex, позволявший сортировать результаты поиска по тому, сколько входящих ссылок вело на предлагаемые страницы и какие слова являлись якорным текстом этих ссылок. Ли купил самоучитель по патентованию и при помощи Dow Jones запатентовал свой алгоритм. Однако компания несильно интересовалась разработками Ли, поэтому он переехал на запад и обосновался в компании Infoseek, а затем вернулся в Китай. Там он выступил сооснователем поисковой системы Baidu, которая стала лидером китайского рынка и одним из основных конкурентов Google на мировом рынке.
К началу 1998 года в базе данных Пейджа и Брина имелись карты, содержащие приблизительно 518 миллионов гиперссылок из существующих 3 миллиардов. Пейдж не хотел, чтобы система Google осталась научным проектом, и мечтал видеть ее популярным коммерческим продуктом. «У Николы Теслы была похожая проблема, — говорит Пейдж. — Изобретаешь прекрасную (по твоему мнению) вещь и хочешь, чтобы люди ею пользовались как можно скорее»[1080].
Поскольку Пейдж и Брин собирались превратить свою диссертацию в бизнес-проект, они не жаждали публиковать материалы своих исследований или проводить презентации. Однако их научные руководители настаивали на публикации, и весной 1998 года Пейдж и Брин написали статью длиной двадцать страниц. В ней они описали теоретическую базу, лежащую в основе PageRank и Google, но так, чтобы не раскрыть конкурентам все свои карты. Статья называлась «Анатомия системы крупномасштабного гипертекстового веб-поиска», а доклад по ней был сделан на конференции в Австралии в апреле 1998 года.
«В данной работе мы представляем Google, прототип крупномасштабной поисковой системы, которая активно использует структуру гипертекста»[1081], — так начиналась статья. Приятели создали карты, содержащие более полумиллиарда из 3 миллиардов ссылок интернета, что позволило вычислить рейтинг PageRank для минимум 25 миллионов веб-сайтов. А по заверениям Пейджа и Брина, люди в целом связывают этот рейтинг «с субъективным понятием авторитетности». Далее они в деталях описывали «простой итеративный алгоритм», который рассчитывал PageRank для каждой страницы. «Мы изучили научные источники о цитировании и применили полученные знания к интернет-ресурсам, что по большей части означало, что мы подсчитали частоту цитирования каждой страницы или количество входящих ссылок. Так мы получили приближенные значения „влиятельности“ или надежности страницы. PageRank позволял смотреть глубже, поскольку при расчете рейтинга ссылкам с разных страниц назначалась разная ценность».
В статье приводилось много технических деталей о рейтинге, поисковых роботах, индексации данных и итеративном алгоритме. Несколько абзацев было посвящено перспективным направлениям исследований. Однако к концу статьи становилось ясно, что целью Пейджа и Брина было не решить математическую задачку или приумножить научное знание. Они явно закладывали основы для запуска коммерческого продукта. «Система Google разработана как масштабируемая поисковая система, — писали они в заключении. — Наша основная задача — обеспечить высокое качество поиска».
(adsbygoogle = window.adsbygoogle || []).push({});