- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Эти неструктурированные текстовые данные также можно проанализировать, но с ними нужно обращаться несколько иначе – о чем мы и поговорим в этой главе.
Ожидания от текстовой аналитики
Прежде чем углубиться в тему, мы хотели бы поговорить об ожиданиях от текстовой аналитики. На протяжении многих лет этому виду аналитики уделялось достаточно большое внимание. Одним из способов ее применения является анализ настроений, позволяющий определять эмоции автора публикации в социальных сетях, комментария или жалобы. Однако, как вы увидите далее, проанализировать текст не так-то просто. К концу этой главы вы поймете, почему некоторые компании преуспевают в использовании текстовой аналитики, а другие – нет.
Многие люди уже представляют, на что способны компьютеры, анализирующие человеческий язык, благодаря огромному успеху компьютера IBM Watson в викторине Jeopardy! в 2011 году[106] и более поздним достижениям в области разработки систем распознавания речи (например, Alexa от Amazon, Siri от Apple и Assistant от Google). Такие системы перевода, как Google Translate, достигли уровня производительности, близкого к человеческому, за счет использования машинного обучения (в частности, контролируемого). Эти приложения по праву считаются одними из самых выдающихся достижений в области компьютерных наук, лингвистики и машинного обучения.
Именно поэтому предприятия имеют чрезвычайно большие ожидания, когда начинают анализировать имеющиеся у них текстовые данные: комментарии клиентов, результаты опросов, медицинские записи – любой текст, хранящийся в базах данных. Если уж путешественники могут перевести свою речь на один из сотни языков за долю секунды, то и компания, безусловно, сможет проанализировать тысячи комментариев клиентов, чтобы выявить самые насущные проблемы. Верно?
Ну, может, и так.
Технологии анализа текста, хоть и позволяют решать масштабные и сложные задачи, вроде преобразования голоса в текст и речевого перевода, но часто не справляются с задачами, которые кажутся гораздо более простыми. И мы по опыту знаем, что, когда компании приступают к анализу собственных текстовых данных, их часто постигает разочарование. Короче говоря, анализировать текст сложнее, чем может показаться. И как главный по данным, вы должны учитывать это при формулировании своих ожиданий.
Цель этой главы – преподать вам основы текстовой аналитики[107], которая позволяет извлекать полезную информацию из необработанного текста. Имейте в виду, что мы коснемся этой развивающейся области лишь вскользь. Однако мы надеемся, что это позволит вам получить некоторое представление о ее возможностях и проблемах. Благодаря этому по мере появления новых разработок в этой области вы сумеете понять, что из них может оказаться полезным, а что – нет. Как и в случае с любым другим направлением, чем больше вы его изучаете, тем лучше представляете его возможности, а также вырабатываете некоторый скептицизм, вполне приличествующий главному по данным.
В следующих разделах мы поговорим о том, как обнаружить структуру в неструктурированных текстовых данных, какому анализу вы можете их подвергнуть, а затем вернемся к вопросу о том, почему крупнейшие технологические компании могут добиться научно-фантастического прогресса в анализе своих текстовых данных, в то время как остальные могут испытывать с этим трудности.
Как текст превращается в числа
Читая текст, люди понимают настроение, сарказм, намеки, нюансы и смысл. Иногда это даже невозможно объяснить: стихотворение вызывает в памяти воспоминание, шутка заставляет смеяться.
Так что совсем не удивительно, что компьютер не понимает смысла так же, как это делает человек. Компьютеры могут лишь «видеть» и «считывать» числа. Чтобы проанализировать массу неструктурированных текстовых данных, их необходимо сначала преобразовать в числа и уже знакомые вам структурированные наборы данных. Это преобразование неструктурированного и запутанного текста, содержащего орфографические ошибки, сленг, смайлики или аббревиатуры, в аккуратный структурированный набор данных из строк и столбцов может быть весьма субъективным и трудоемким процессом. Сделать это можно несколькими способами; три из них мы рассмотрим далее.
Большой мешок слов
Самый простой способ преобразования текста в числа предполагает создание модели «мешка слов», которая игнорирует порядок слов и грамматику. В результате фраза «Это предложение является очень большим мешком слов» преобразуется в набор, называемый документом, в котором каждое слово является идентификатором, а количество слов – признаком. Порядок слов не имеет значения, поэтому мы сортируем содержимое мешка по алфавиту: {большим: 1, мешком: 1, очень: 1, предложение: 1, слов: 1, это: 1, является: 1}.
Кратко об облаках слов
Прежде чем двигаться дальше, давайте поговорим об облаках слов; это первое, с чем сталкиваются люди, интересующиеся текстовой аналитикой. Облако слов – это простое визуальное представление, в котором размер слова зависит от частоты, с которой оно встречается в словаре. Облако слов из текста данной главы показано на рис. 11.1[108].
Рис. 11.1. Облако слов из текста данной главы
Вам удалось извлечь какую-нибудь полезную информацию из рис. 11.1? Вероятно, нет. Мы понимаем, что облака слов – отличный маркетинговый материал, но мы не их фанаты и не рекомендуем их использовать даже в качестве инструмента визуализации, поскольку анализировать частоту встречаемости слова в тексте по размеру шрифта гораздо сложнее, чем по длине столбика гистограммы.
Каждый идентификатор называется токеном. Набор токенов из всех документов – словарем.
Разумеется, ваши текстовые данные будут содержать не один документ, поэтому мешок слов может стать очень большим. Каждое уникальное слово и вариант написания станет новым токеном. Вот как будет выглядеть таблица, в каждой строке которой содержится предложение (комментарий, отзыв о продукте и так далее).
Для необработанного текста:
– Это предложение является очень большим мешком слов.
– Это является большим мешком с продуктами.
– Это предложение состоит из двух слов.
Мешок слов будет выглядеть так, как показано в табл. 11.1, где точки данных – количество того или иного слова в предложении.
Табл. 11.1. Преобразование текста в числа методом «мешка слов». Числа обозначают количество того или иного слова (токена) в соответствующем предложении (документе)
Глядя на табл. 11.1, называемую матрицей «документ – термин» (один документ в строке, один термин в столбце), становится понятно, что базовая текстовая аналитика может сводиться к подсчету количества повторений каждого из слов (самое популярное слово – «это») и определению предложения, содержащего максимальное количество токенов (первое предложение). Хотя приведенный пример не особенно интересен, именно

