Кибервойны ХХI века. О чем умолчал Эдвард Сноуден - Владимир Овчинский
Шрифт:
Интервал:
Закладка:
• первое — это прямой интеллектуальный анализ общедоступных данных, предоставляемых поисковыми системами и различного рода социальными сетями и платформами;
• второе — это создание рекомендательных систем, которые прогнозируют различного рода выбор субъектов и групп, и на этой основе рекомендуют им что угодно — от книг до кандидатов в президенты;
• третье — это сложные прогностические системы, использующие разнородные данные, получаемые из открытой и закрытой части всемирной сети, обрабатываемые с помощью всего арсенала интеллектуального анализа данных.
Исторически главный упор был сделан на работу с общедоступными интернет-данными из социальных сетей и поисковых машин. Еще два-три года назад никто не мог помыслить о том, что инструменты веб-прогнозирования будут в благожелательном ключе обсуждаться на сайте головного банка ФРС. Но это произошло. Первым делом, как всегда бывает, за дело взялись академические исследователи, которые в Америке очень даже прагматически настроены и заинтересованы в максимально быстром внедрении их научных разработок в практику. В октябре 2010 г. в кругах инвестиционных аналитиков прогремел доклад Johan Bollen, Huina Mao (Indiana Unviersity), Xiao-Jun Zeng (The University of Manchester) «Twitter mood predicts the stock market».
Ими была сделана программа, которая позволяла использовать сообщения Twitter для прогнозирования движения индекса Dow Jones. Алгоритм работал следующим образом — отбирал из всех Twitter сообщений в режиме реального времени сообщения, маркированные определенными словами, затем удалял эмоционально окрашенные сообщения и на основе обработки нейтральных, эмоционально не окрашенных сообщений выдавал прогноз. Выяснилось, что он позволил предсказывать движение индекса на срок от двух до шести дней с точностью почти до 88 %.
Большое признание в последнее время в Америке получили разработки Р. Петерссона, исследователя из Стэндфордского университета. В качестве неструктурированных данных для прогнозирования он использовал не Twitter, а контент социальных СМИ, т. е. платформ, где контент создают сами пользователи. Таких платформ с качественным контентом в англоязычном интернете насчитывается сотни.
Его исследования были восприняты компанией MarketPsych. Был создан прогностический модуль. Он уверенно дает при достаточно консервативной стратегии 30 % прибыли в год. В настоящее время эта компания приобретена крупнейшим информационным провайдером, всемирно известным Thompson Reuters. Соответственно прогнозы получают подписчики Thompson Reuters, интересующиеся инвестиционной и политической тематикой.
Совсем недавно за разработку системы, аккумулирующей информацию Twitter для трейдинга, взялась компания Titan Trading Analytics. В своей системе они используют 1500 ключевых слов и более 600 факторов. Как видим, создание и практическое использование программ прогнозирования, базирующихся на неструктурированных данных web 2 и прежде всего Twitter, стало сегодня повсеместной практикой инвестиционных, макроэкономических и политических аналитиков.
Огромную роль в современном геополитическом, военном и инвестиционном прогнозировании играют общедоступные данные, связанные с частотой поисковых запросов, которые постоянно публикуют главные поисковики мира, прежде всего, Google и Bing. В нынешней реальности любой поисковый запрос представляет собой фиксацию процесса мышления о чем-то. Он показывает нам объект этого мышления, его последовательность и многое другое. Когда интернет с одной стороны стал доступен для подавляющего большинства жителей в развитых странах в режиме онлайн нон-стоп, а с другой, пользователи приучились к интернету, как к источнику мгновенного получения любой интересующей информации, использование поисковиков для прогнозирования стало возможным.
К настоящему времени независимыми группами исследователей, использующих различные методы и алгоритмы обработки поисковых запросов в целях прогнозирования установлено, что особым образом обработанная статистика поисковых запросов может выполнять роль опережающих индикаторов для целого ряда рынков и экономических параметров. В частности, это относится к динамике безработицы в США, Германии, Франции; динамике потребительских расходов на рынках электроники США, странах ЕЭС, Канаде; ценам на недвижимость США и Великобритании; биржевым индексам на «голубые фишки» на Нью-Йоркской и Лондонской биржах и фьючерсам на биржевой индекс китайских акций на Гонконгской бирже.
Уже полгода Министерство здравоохранения США успешно использует систему, построенную на анализе поисковых запросов для опережающего мониторинга и прогнозирования различного рода эпидемий в стране. На сегодняшний день обнаружено более 50 показателей, относительно которых поисковая статистика Google может быть использована как опережающий индикатор.
Вторым, бурно развивающимся направлением прогнозных вооружений, являются так называемые рекомендательные системы. Эти системы базируются на тщательном анализе поведения человека в сети. При этом анализируются не только его желания, высказанные в виде различного рода поисковых запросах, но и поведение на сайтах крупных интернет-магазинов — например, что человек ищет, как долго рассматривает что-либо и т. п. Используется здесь так называемый неявный сбор данных, когда все действия человека в сети протоколируются. Затем, на основе сложных алгоритмов выдаются рекомендации, которые подталкивают человека к тому или иному выбору. Наиболее известные рекомендательные системы созданы Amazon для книг и других товаров, продаваемых на этой универсальной платформе, eBay, Cinemax.com (рекомендации в отношении фильмов, демонстрируемых в кинотеатрах), Videoguide (для потокового видео) и т. п.
Во время последней избирательной кампании команда Б. Обамы, договорившись с крупнейшими рекомендательными платформами, успешно использовала их опыт для рекомендации Б. Обамы в качестве лучшего выбора для выявленных опять же по специальным алгоритмам колеблющихся избирателей и людей, которые вообще не собирались идти на выборы. По оценкам американских экспертов использование этой системы сыграло едва ли не решающую роль в победе Б. Обамы в кампании 2012 года.
Сегодня крупнейшие банки являются клиентами рекомендательной германской компании Kreditech. Гамбургский стартап Kreditech использует во время принятия решений информацию, почерпнутую из Facebook. Людей, претендующих на получение кредита, просят на время предоставить доступ к их учётной записи в Facebook или других социальных сетях. По словам Александра Граубнера-Мюллера, одного из основателей фирмы, список ваших друзей выдаёт немало. Претендент, приятели которого прилично зарабатывают и живут в хороших районах, имеет больше шансов на кредит. Претендент, знакомый которого отказался возвращать деньги, занятые у Kreditech, ничего не получит.
В качестве одного из наиболее ярких примеров сложных прогнозных систем можно привести проект Recorded Future. В январе 2010 года проект Recorded Future был запущен за счет инвестиций Google, инвестиционного фонда американского разведывательного сообщества In-Q-Tel и собственных вложений К. Альберга — основателя проекта, в прошлом шведского разведчика и известного программиста.
Recorded Future базируется на трех основных блоках:
• Встроенном поисковике третьего поколения. В первом поколении были системы типа Yahoo и HotBot. Они искали просто те или иные слова в документах и выдавали документы в произвольном порядке. Поэтому такого рода поисковики сопровождались каталогами, формировавшимися в основном экспертами на основе поисковой выдачи. Нечто подобное можно до сих пор увидеть на первой странице Rambler. Вторым поколением стал Google. Революция Брина-Пейджа состояла в том, что поисковик стал искать не только по документам, но и в значительной степени по связям между документами или сайтами. Третье поколение ищет не только объекты, соответствующие поисковым запросам, не только связи между документами, но и взаимосвязи между объектами, их характеристиками и отношениями, содержащимися в различных документах. Сегодня это главное направление развития поиска. Оно в полной мере реализовано в Recorded Future.
• Разделении информационного поля на составляющие. В Recorded Future выделено три класса сообщений.
Первый — это сообщения о событиях. События — это длящиеся определенный, достаточно небольшой период времени устойчивые конфигурации, которые характеризуются единством времени, места, участников и т. п. К событиям Recorded Future относит то, что может быть интерпретировано как факты, то, что реально произошло или происходит в данный момент. Второй — это мнения. К мнениям относятся любые сообщения относительно прошлых, настоящих или будущих событий, высказанные в авторитетных источниках, либо авторитетными людьми. В системе есть специальные алгоритмы, которые позволяют для каждой области выделить большую выборку таких источников и персон. Наконец, третий — это реакции. Здесь принимаются во внимание любые спонтанные реакции людей на те или иные ожидаемые события, зафиксированные в различного рода текстовых сообщениях. Не обязательно, чтобы эти сообщения были из авторитетных источников. Главное, чтобы они имели отношение к событиям и мнениям, так или иначе рассматриваемым и высказываемым в авторитетных источниках. Такое разделение на три сегмента информационного поля, как выяснилось, позволяет достаточно хорошо улавливать как господствующие тенденции и опережающим образом реагировать на их изменения, так и выявлять слабые сигналы.