- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Шрифт:
Интервал:
Закладка:
Скорее всего, вы также заметили некоторые недостатки в табл. 11.1 (и в облаке слов!). По мере добавления новых документов количество столбцов в таблице будет увеличиваться, поскольку вам придется добавлять новый столбец для каждого нового токена. Кроме того, в результате этого таблица станет разреженной, то есть заполненной нулями, потому что каждое отдельное предложение будет содержать лишь несколько слов из словаря.
Стандартный способ решения этой проблемы – удалить такие слова-заполнители, как «и», «но», «что», «или», «это» и так далее, которые сами по себе не добавляют смысла. Это так называемые стоп-слова. Также принято удалять знаки препинания и цифры, преобразовывать все символы в нижний регистр и применять стемминг, то есть отбрасывать суффиксы и окончания слов, что позволяет сопоставлять такие слова, как продукты и продуктов, с одной и той же основой «продукт-», а слова читать, читаю, читает – с основой «чита-». Более продвинутый аналог стемминга – так называемая лемматизация, которая позволяет сопоставлять слова «хороший», «лучше», «лучший» со словом «хороший». В этом смысле лемматизация «умнее» стемминга, но занимает гораздо больше времени.
Подобные корректировки позволяют значительно уменьшить размер словаря и упростить процесс анализа. На рис. 11.2 показано, как этот процесс выглядит для одного предложения.
Глядя на рис. 11.2, становится понятно, в чем сложность анализа текста. Процесс преобразования текста в числа отфильтровал эмоциональную составляющую, контекст и порядок слов. Если вам кажется, что это повлияет на результаты любого последующего анализа, то вы правы. И в данном случае нам еще повезло, что в тексте отсутствуют орфографические ошибки, представляющие дополнительную проблему для специалистов по работе с данными.
Рис. 11.2. Преобразование текста в мешок слов
Использование метода «мешка слов», доступного в свободном программном обеспечении и изучаемого на курсах по текстовой аналитике, привело бы к получению одинакового результата при числовом кодировании следующих двух предложений, несмотря на очевидные различия в их смысле:
1. Джордан любит хот-доги, но ненавидит гамбургеры[109].
2. Джордан ненавидит хот-доги, но любит гамбургеры.
Люди понимают разницу между этими двумя предложениями, а модель «мешка слов» – нет. Однако не спешите списывать ее со счетов. Несмотря на свой примитивный принцип, мешок слов может оказаться весьма полезным при обобщении разрозненных тем, которые мы рассмотрим в следующих разделах.
N-граммы
На примере с Джорданом и его любимыми хот-догами легко увидеть недостаток метода мешка слов. Фраза из двух слов «любит хот-доги» по смыслу противоположна фразе «ненавидит хот-доги», однако при использовании метода мешка слов контекст и порядок слов игнорируются. В данном случае могут помочь N-граммы. N-грамма – это последовательность из N-слов, поэтому 2-граммы (формально называемые биграммами) для фразы «Джордан любит хот-доги, но ненавидит гамбургеры» будут такими: {Джордан любит: 1, любит хот-доги: 1, ненавидит гамбургеры: 1, но ненавидит: 1, хот-доги, но: 1}.
Данное расширение метода мешка слов добавляет контекст, необходимый для различения фраз из одинаковых слов, но расположенных в разном порядке. Токены биграмм часто добавляются в мешок слов, что еще сильнее увеличивает размер и разреженность матрицы «документ-термин». С практической точки зрения это означает необходимость хранить большую (широкую) таблицу, содержащую относительно небольшой объем информации. Мы добавили несколько биграмм в табл. 11.1 и получили табл. 11.2.
О том, следует ли отфильтровывать биграммы со стоп-словами, ведутся споры, поскольку такой подход может привести к потере контекста. В некоторых программах слова «мой» и «ваш» считаются стоп-словами, однако смысл биграммных фраз «мое предпочтение» и «ваше предпочтение» при отбрасывании стоп-слов полностью исчезает. Это еще одно решение, которое должны принять ваши специалисты при анализе текстовых данных. (Вероятно, вы уже начинаете понимать, насколько сложна текстовая аналитика.)
Табл. 11.2. Пополнение «мешка слов» биграммами. Получившаяся в результате матрица «документ-термин» является очень большой
Однако после такой подготовки обобщение текста можно произвести путем простого подсчета. Такие веб-сайты, как Tripadvisor.com, применяют эти подходы и предоставляют пользователям возможность быстро находить отзывы по часто упоминаемым словам или фразам. Например, на сайте вашего местного стейк-хауса среди предлагаемых поисковых запросов вы можете встретить такие биграммы, как «запеченный картофель» или «идеально приготовленный».
Векторное представление слов
С помощью метода мешка слов и N-грамм можно обнаружить сходства между документами. Если несколько документов содержат похожие наборы слов или N-грамм, вы можете предположить, что предложения связаны между собой (в разумных пределах, конечно: помните о любви/ненависти Джордана к хот-догам). В этом случае строки в матрице «документ-термин» будут численно похожи.
Но как можно численно определить то, какие слова в словаре – не документы, а именно слова – связаны между собой?
В 2013 году компания Google проанализировала миллиарды пар слов (два слова, находящихся в непосредственной близости друг от друга в предложении) в своей огромной базе данных статей Google News[110]. Проанализировав частоту встречаемости пар слов, – например, (вкусная, говядина) и (вкусная, свинина) встречались чаще, чем (вкусная, корова) и (вкусная, свинья), – специалисты компании смогли сгенерировать так называемое векторное представление слов, то есть представление слов в виде списка чисел (или векторов). Если слова «говядина» и «свинина» часто сопровождаются словом «вкусная», то математически они будут представлены как похожие в том элементе вектора, который связан с вещами, обычно описываемыми как «вкусные», то есть с тем, что мы, люди, называем едой.
Чтобы объяснить, как это работает, мы будем использовать небольшое количество пар слов (компания Google использовала миллиарды). Представьте, что при просмотре статьи в местной газете мы обнаруживаем следующие пары слов: (вкусная, говядина), (вкусный, салат), (корм, корова), (говядина, корова), (свинья, свинина), (свинина, салат), (салат, говядина), (есть, свинина), (корова, ферма) и так далее. (Придумайте еще несколько пар слов по аналогии.) Каждое слово попадает в словарь: {говядина, корова, вкусный, ферма, корм, свинья, свинина, салат}[111].
Слово «корова», например, может быть представлено в виде вектора, длина которого соответствует длине приведенного выше словаря, со значением 1 на месте слова «корова» и значением 0 на месте всех остальных слов: (0, 1, 0, 0, 0, 0, 0, 0). Этот вектор представляет собой входные данные для алгоритма контролируемого обучения и сопоставляется с соответствующим выходным вектором (длина которого также соответствует длине словаря). В нем содержатся вероятности появления других слов из словаря рядом с входным словом. Таким образом, входному слову «корова» может соответствовать выходной вектор (0,3, 0, 0, 0,5, 0,1, 0,1, 0, 0), говорящий о том, что слово «корова» сопровождалось словом «говядина» в 30 % случаев, словом «ферма» – в 50 % случаев, а словами «корм»

