- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Теперь мы можем произвести вычисления:
Первое значение больше второго, поэтому электронное письмо с темой: «Избавьтесь от долгов с помощью наших советов по торговле акциями!» мы классифицируем как спам.
Анализ настроений
Анализ настроений – это популярный способ применения алгоритмов классификации текстов к данным социальных сетей. Если вы введете в поисковую строку Google запрос «анализ настроений по сообщениям в Twitter», то количество результатов вас наверняка удивит; складывается впечатление, что этим заняты все. Суть идеи в данном случае та же, что и в рассмотренном выше примере со спамовыми/не спамовыми письмами и сводится к ответу на вопрос о том, являются ли слова в сообщении в социальной сети (обзоре продукта или опросе) скорее «положительными» или скорее «отрицательными». То, что вы будете делать с полученной информацией, зависит от конкретного бизнес-кейса. Однако следует отметить, что при анализе настроений не стоит выполнять экстраполяцию за пределы контекста обучающих данных, рассчитывая на получение осмысленных результатов.
Что мы имеем в виду? Дело в том, что многие классификаторы для «анализа настроений» обучаются на данных, находящихся в свободном доступе в Интернете. Популярный набор данных для студентов – большая коллекция рецензий на фильмы из базы данных IMDb.com. Этот набор данных и любая модель, созданная на его основе, будут иметь отношение исключительно к обзорам фильмов. Разумеется, она будет ассоциировать такие слова, как «великолепный» и «замечательный», с положительными эмоциями, однако не стоит ожидать, что эта модель будет хорошо работать при ее применении к уникальному бизнес-кейсу, которому присуща особая терминология.
А как насчет методов работы с текстом на основе деревьев?
Методы на основе деревьев, такие как случайный лес и бустинг (усиление), могут применяться для решения задач классификации текстов и, как правило, работают лучше, чем наивный байесовский алгоритм с некоторыми наборами данных. Однако наивный байесовский алгоритм обычно становится хорошей отправной точкой и отличается прозрачной интерпретацией.
Практические соображения при работе с текстом
Теперь, когда вы познакомились с несколькими инструментами текстовой аналитики, давайте сделаем шаг назад и поговорим об анализе текста на более высоком уровне.
При работе с текстом вам доступна роскошь чтения данных. Если тематическое моделирование намекает на то, что те или иные предложения относятся к определенным темам, вы можете оценить эти результаты. Если кто-то строит модель классификации текста, попросите представить как хорошие, так и плохие результаты.
По опыту нам известно, что презентовать успешный проект текстовой аналитики заинтересованным сторонам довольно весело, поскольку в данном случае результаты представляют не ряды чисел, а то, что аудитория может прочитать, понять и обсудить. Однако докладчики склонны акцентировать внимание на захватывающих и легких победах, а не на явных промахах. При представлении результатов анализа текста главный по данным должен стремиться к максимальной прозрачности. Также при обработке результатов запросите примеры, когда алгоритмы не сработали. Поверьте, так бывает.
Это возвращает нас к замечанию, которое мы сделали в начале главы: когда компании приступают к анализу собственных текстовых данных, их часто постигает разочарование. Оно было сделано вовсе не для того, чтобы отвратить вас от текстовой аналитики. Открыто говоря о недостатках, мы надеемся предотвратить возможную негативную реакцию со стороны вас или вашей компании, которая может возникнуть, когда вы начнете анализировать текст, поймете, что это сложнее, чем вы думали, и откажетесь от этой идеи или удовлетворитесь слабой аналитикой.
К этому моменту вы уже должны были выработать достаточно скепсиса, чтобы понимать, где именно могут возникнуть проблемы. Однако некоторые крупные технологические компании, по-видимому, преодолели эти трудности и добились лидерства в области текстовой аналитики и обработки естественного языка (NLP, Natural Language Processing), которая имеет дело со всеми аспектами языка, включая звук (в отличие от просто письменного текста).
Преимущества технологических гигантов
В отличие от многих других компаний, такие технологические гиганты, как Apple, Amazon, Google и Microsoft, обладают обилием текстовых и голосовых данных (данных, снабженных метками, которые можно использовать для контролируемого обучения моделей), мощными компьютерами, группами преданных делу исследователей мирового уровня и деньгами.
Благодаря таким ресурсам они добились значительного прогресса в области анализа не только текста, но и звука. В последние годы произошли заметные улучшения в следующих сферах:
– Преобразование речи в текст. Голосовые помощники и функции преобразования голоса в текст на смартфонах стали работать более точно.
– Преобразование текста в речь. Голоса в программах для чтения с экрана компьютера теперь больше напоминают человеческие.
– Преобразование текста в текст. Перевод с одного языка на другой выполняется мгновенно и с достаточно высокой точностью.
– Чат-боты. Окна чата, которые теперь автоматически открываются на каждом веб-сайте с вопросом: «Чем я могу вам помочь?», стали (чуть) более полезными.
– Генерация понятного человеку текста. Языковая модель GPT-3[121] от компании OpenAI способна генерировать текст, напоминающий человеческий, отвечать на вопросы, а также генерировать компьютерный код по запросу. На момент написания этой книги данная модель самая продвинутая в своем роде. Согласно оценкам, стоимость ее обучения (здесь имеется в виду только использование компьютеров без учета оплаты труда исследователей) составила 4,6 миллиона долларов США[122].
Добавьте к этому наличие доступа к данным и группы экспертов-исследователей, и вы поймете, почему обработка естественного языка (пока) остается недоступной большинству компаний. Хотя алгоритмы имеют открытый исходный код, массовый сбор данных и доступ к суперкомпьютерам остается прерогативой технологических гигантов.
Кроме того, при формулировании своих ожиданий следует учитывать то, что приложения, создаваемые технологическими гигантами, универсальны для миллионов людей, то есть предназначены для решения задач, общих для представителей всех слоев общества. Например, голосовой помощник Alexa от компании Amazon предназначен для всех, включая детей. А текстовый перевод осуществляется с учетом жестких правил, встроенных в наборы обучающих данных. Слову «вечеринка» в английском языке соответствует слово «фиеста» в испанском. Суть в том, что все пользователи этих систем ожидают того, что они будут работать одинаково.
Сравните это с задачей классификации текста, специфической для того или иного бизнеса. Например, тональность фразы «телефон Samsung лучше, чем iPhone» зависит от того, в какой компании вы работаете, – Apple или Samsung. Данные, к которым у вас есть доступ, могут отличаться особенным, уникальным только для

