- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Введение в теоретическую лингвистику - Джон Лайонз
Шрифт:
Интервал:
Закладка:
Более интересны, поскольку более типичны для языка, неравные вероятности. Предположим, например, что встречаются две, и только две, единицы, х и у, и что х встречается в среднем вдвое чаще, чем у, тогда рх = 2/3 и ру = 1/3. Информационное содержание x вдвое меньше, чем содержание у. Другими словами, количество информации обратно пропорционально вероятности (и, как мы увидим, логарифмически связано с ней): это фундаментальный принцип теории информации.
С первого взгляда это может показаться несколько странным. Однако рассмотрим сначала предельный случай полной предсказуемости. В письменном английском языке появление буквы u, когда она следует за q, почти полностью предсказуемо; если отвлечься от некоторых заимствованных слов и собственных имен, можно сказать, что оно полностью предсказуемо (его вероятность равна 1). Подобно этому, вероятность слова to в таких предложениях, как I want . . . go home, I asked him . . . help me [29] (предполагается, что пропущено только одно слово), равна 1. Если бы мы решили опустить u (в queen 'королева', queer 'странный', inquest 'следствие' и т. п.) или слово to в упомянутых контекстах, никакой информации не было бы потеряно (здесь мы наблюдаем связь между обычным и более специальным значением слова «информация»). Поскольку буква u и слово to не находятся в парадигматическом контрасте ни с какими другими единицами того же уровня, которые могли бы встретиться в том же контексте, вероятность их появления равна 1, а их информационное содержание — 0; они целиком избыточны. Рассмотрим теперь случай двучленного контраста, где рх = 2/3 и ру = 1/3. Ни один из членов не является целиком избыточным. Но ясно, что пропуск х приводит к меньшим последствиям, чем пропуск у. Поскольку появление х вдвое вероятнее, чем появление у, получатель сообщения (знающий априорные вероятности) имеет в среднем вдвое лучшие шансы «угадать» пропуск х, чем «угадать» пропуск у. Таким образом, избыточность проявляется в различной степени. Избыточность х в два раза больше, чем избыточность у. В общем, чем более вероятно появление единицы, тем большей оказывается степень ее избыточности (и тем ниже ее информационное содержание).
2.4.3. БИНАРНЫЕ СИСТЕМЫ
Количество информации обычно измеряется в битах (этот термин происходит от англ. binary digit 'двоичный знак'). Всякая единица с вероятностью появления 1/2 содержит один бит информации; всякая единица с вероятностью 1/4 несет 2 бита информации, и так далее. Удобство такого измерения количества информации станет очевидным, если мы обратимся к практической задаче «кодирования» множества единиц (сначала предположим, что вероятности их появления равны) группами двоичных знаков. В предыдущем разделе мы видели, что каждый элемент множества из восьми единиц может быть реализован отдельной группой из трех двоичных знаков (см. § 2.3.8). Это определяется связью между числом 2 (основанием двоичной системы исчисления) и 8 (количеством единиц, которые требуется различать): 8 = 23. В более общем виде, если N — это число единиц, которые следует различать, a m — это число позиций контраста в группах двоичных знаков, требуемых для их различения, то N = 2m. Связь между числом парадигматических контрастов на «высшем» уровне (N) и синтагматической длиной групп элементов «низшего» уровня (m), таким образом, логарифмическая: m = log2 N. (Логарифм числа есть степень, в которую следует возвести основание числовой системы, чтобы получить данное число. Если N = xm, то m = logx N 'если N равняется х в степени m, то m равняется логарифму N по основанию x'. Напомним, что в десятичной арифметике логарифм 10 равен 1, логарифм 100 равен 2, логарифм 1000 равен 3 и т. д., т. е. log10 10 = 1, log10 100 = 2, log10 1000 = 3 и т. д. Если бы теория информации основывалась на десятичной, а не на двоичной системе измерения, то было бы удобнее определять единицу информации в терминах вероятности 1/10. Читателю должно быть ясно, что приведенное здесь равенство N = 2m — это частный случай равенства N = р1 × р2 × р3, ..., рm, введенного в § 2.3.8. Равенство N = 2m справедливо, если в каждой позиции синтагматической группы в парадигматическом контрасте находится одно и то же число элементов.
Количество информации измеряется обычно в битах, просто потому, что многие механические системы для хранения и передачи информации действуют на основе бинарного принципа: это системы с двумя состояниями. Например, информацию можно закодировать на магнитной ленте (для обработки с помощью цифровой ЭВМ) как последовательность намагниченных и ненамагниченных позиций (или групп позиций): каждая позиция находится в одном из двух возможных состояний и может, таким образом, нести один бит информации. Кроме того, информацию можно передавать (как, например, в азбуке Морзе) в виде последовательности «импульсов», каждый из которых принимает одно из двух значений: короткий или длинный по продолжительности, положительный или отрицательный по электрическому заряду и т. п. Всякая система, использующая «алфавит», состоящий более чем из двух элементов, может быть перекодирована в бинарную систему у источника передачи и снова перекодирована в первоначальный «алфавит», когда сообщение получено по месту назначения. Это имеет место, например, при передаче сообщений по телеграфу. То, что информационное содержание должно измеряться с помощью логарифмов с основанием 2, а не логарифмов с каким-либо другим числовым основанием, есть следствие того факта, что инженеры связи обычно работают с системами с двумя состояниями. Что касается вопроса об уместности применения принципа двоичного «кодирования» именно при исследовании языка в нормальных условиях «передачи» от говорящего к слушающему, то он вызывает значительные разногласия среди лингвистов. Не подлежит сомнению, что многие наиболее важные фонологические, грамматические и семантические различия бинарны, как мы увидим в последующих главах; мы уже видели, что один из двух членов бинарной оппозиции может рассматриваться как положительный, или маркированный, а другой — как нейтральный, или немаркированный (см. § 2.3.7). Мы не будем вдаваться здесь в обсуждение вопроса, можно ли свести все лингвистические единицы к комплексам иерархически упорядоченных бинарных «выборов». Тот факт, что многие единицы (на всех уровнях языковой структуры) сводимы к ним, означает, что лингвисту следует приучиться мыслить в терминах бинарных систем. В то же время следует отдавать себе отчет в том, что фундаментальные идеи теории информации совершенно не зависят от частных предположений относительно бинарности.
2.4.4. НЕРАВНЫЕ ВЕРОЯТНОСТИ
Поскольку каждый двоичный знак несет только один бит информации, группа из m двоичных знаков может нести максимум m битов. До сих пор мы предполагали, что вероятности различаемых таким образом единиц высшего уровня равны. Теперь рассмотрим более интересный и более обычный случай, когда эти вероятности не равны. Для простоты возьмем множество из трех единиц, а, b и с, со следующими вероятностями: ра = 1/2, рb = 1/4, pс = 1/4. Единица а несет 1 бит, а b и с несут по 2 бита информации каждая. Их можно закодировать в двоичной системе реализации, как а : 00, b : 01 и с : 10 (оставив 11 незанятым). Но если бы знаки передавались в последовательности по некоторому каналу связи и передача и получение каждого знака занимали бы один и тот же отрезок времени, было бы неразумным принимать столь неэффективное условие кодирования. Ведь для а требовалась бы такая же мощность канала, как для b и для с, хотя оно несло бы вдвое меньше информации. Более экономичным было бы закодировать а с помощью одного знака, скажем 1, и отличать b и с от а, закодировав их противоположным знаком — 0 — в первой позиции; b и с тогда отличались бы друг от друга во второй позиции контраста (которая, конечно, пуста для а). Итак, а : 1, b : 00 и с : 01. Это второе соглашение более экономичным образом использует пропускную способность канала, так как оно увеличивает до предела количество информации, которое несет каждая группа в один или два знака. Поскольку на передачу а, которое встречается вдвое чаще, чем b и c, тратится вдвое меньше времени, данное решение позволило бы в кратчайшее время передать наибольшее число сообщений (исходя из предположения, что эти сообщения достаточно длинны или достаточно многочисленны, чтобы отражать средние частоты появления). В действительности эта простая система представляет собой теоретический идеал: каждая из трех единиц a, b и с несет целое число битов информации и реализуется в субстанции именно этим числом различий.

