Введение в теоретическую лингвистику - Джон Лайонз
Шрифт:
Интервал:
Закладка:
Конечно, в принципе можно подсчитать условную вероятность любой единицы относительно любого контекста. Существенно, однако, правильно выбрать контекст и направление обусловленности (то есть, скажем, подсчитывать рх (у), а не рy (x)) в свете того, что уже известно об общей синтагматической структуре языка. (Определенный класс единиц X может предполагать или допускать появление единиц другого, синтагматически связанного с ним класса Y на определенном по отношению к нему месте (и может также исключать возможность появления единиц третьего класса Z). При условии, что это так, можно подсчитать условную вероятность отдельного члена класса Y). Результаты будут иметь статистический интерес тогда, и только тогда, когда рх (у) или рy (x) будут существенно отличаться от рх и рy.
2.4.9. ПОЗИЦИОННЫЕ ВЕРОЯТНОСТИ АНГЛИЙСКИХ СОГЛАСНЫХ *
Вероятности можно также подсчитывать для отдельных структурных позиций. Например, в таблице 4 для каждого из 12 согласных устной английской речи приводятся 3 ряда вероятностей: (i) априорная вероятность, средняя для всех позиций; (ii) вероятность в позиции начала слова перед гласными; (iii) вероятность в позиции конца слова после гласных.
Таблица 4
Вероятности некоторых английских согласных в различных позициях в слове
«Абсолютная» Начальная Конечная [t] 0,070 0,072 0,105 [n] 0,063 0,042 0,127 [l] 0,052 0,034 0,034 [d] 0,030 0,037 0,039 [h] 0,026 0,065 - [m] 0,026 0,058 0,036 [k] 0,025 0,046 0,014 [v] 0,019 0,010 0,048 [f] 0,017 0,044 0,010 [b] 0,016 0,061 0,0005 [p] 0,016 0,020 0,008 [g] 0,015 0,027 0,002Можно заметить существенные различия частотностей отдельных согласных в разных позициях в слове. Например, из перечисленных единиц [v] — наименее частая в позиции начала слова, но третья по частотности в позиции конца слова; с другой стороны, [b] — третья по частотности единица в начальной позиции слова, но наименее частая в позиции конца слова (за исключением [h], который вообще не встречается на конце. NB: мы говорим о звуках, а не буквах). Другие (как [t]) имеют высокую вероятность или (как [g] и [р]) низкую вероятность для обеих позиций. Также заметим, что диапазон колебаний между наивысшей и наименьшей вероятностью больше для конца слова, чем для начала. Факты этого рода получают отражение в описании статистической структуры фонологических слов английского языка.
Выше мы говорили (в связи с «законом Ципфа»; см. § 2.4.6), что число звуков или букв в слове не является непосредственной мерой его синтагматической длины, определяемой в терминах теории информации. Причина этого, конечно, в том, что не все звуки или буквы равновероятны в одном контексте. Если бы вероятность фонологического или орфографического слова была прямо связана с вероятностями составляющих его элементов выражения, можно было бы получить вероятность слова перемножением вероятностей элементов выражения для каждой структурной позиции в слове. Например, если х в два раза вероятнее у в начальной позиции, а а вдвое вероятнее b в конечной позиции, можно ожидать, что хра будет встречаться в два раза чаще, чем yra или xpb, и в четыре раза чаще, чем ypb. Но это предположение не оправдывается в конкретных случаях, что ясно из рассмотрения нескольких английских слов. Элементы выражения, реализуемые посредством [k] и [f], более или менее равновероятны в начале слова, но слово call встречается намного чаще, чем fall (как показывают различные опубликованные частотные списки для английских слов); хотя элемент, реализуемый посредством [t], имеет вероятность появления в конечной позиции слова почти в 50 раз большую, чем вероятность элемента, реализуемого посредством [g], слово big встречается примерно в 4 раза чаще, чем bit, и т. д.
Вероятности для начальной и конечной позиций, используемые для этих расчетов (см. табл. 4), основаны на анализе связного текста. Это означает, что частота появления определенного согласного, встречающегося в относительно небольшом количестве высокочастотных слов, может превысить частоту появления другого согласного, встречающегося в очень большом количестве низкочастотных слов (ср. замечания, сделанные в § 2.4.1 в связи с понятием «функциональной нагрузки»). Согласный [ð], который встречается в начале таких английских слов, как the, then, their, them и т. д., иллюстрирует эффект такого перевеса. В начальной позиции это наиболее частый из всех согласных с вероятностью около 0,10 (ср. вероятность 0,072 для [t], 0,046 для [k] и т. д.). Но этот согласный встречается только в горсточке разных слов (менее чем в тридцати в современном языке). Напротив, начальное [k] мы находим во многих сотнях разных слов, хотя вероятность его появления в связном тексте более чем в два раза меньше, чем вероятность появления [ð]. Сравнение всех английских слов, реализуемых как согласный + гласный + согласный (что само по себе является весьма обычной структурой для английских фонологических слов), показывает, что вообще существует больше слов с высокочастотным начальным и конечным согласным, чем слов с низкочастотным начальным и конечным согласным, и что первые к тому же обычно имеют большую частоту появления. В то же время следует подчеркнуть, что некоторые слова значительно более частотны или значительно менее частотны, чем можно было бы предсказать, исходя из вероятностей составляющих их элементов выражения.
2.4.10. «СЛОИ» ОБУСЛОВЛЕННОСТИ
Хотя до сих пор мы рассматривали вопрос о контекстуальной детерминированности по отношению к условным вероятностям, существующим среди единиц одного уровня, ясно, что появление того или иного элемента выражения в весьма значительной степени определяется контекстуальной вероятностью фонологического слова, в которое он входит. Например, каждое из трех слов, записываемых как book, look и took, характеризуется частой встречаемостью: они отличаются друг от друга фонологически (и орфографически) только начальным согласным.
С точки зрения грамматической структуры английского языка вероятность контраста между этими тремя словами в реальных высказываниях относительно мала (и совершенно не связана с вероятностями начальных согласных). Слово took отличается от двух других в ряде отношений, прежде всего тем, что оно реализует прошедшее время глагола. Поэтому оно более свободно, чем look и book, появляется рядом с такими словами и словосочетаниями, как yesterday 'вчера' или last year 'в прошлом году' (для look и book фонологические слова, соответствующие took, — это слова, записываемые как looked и booked); далее, в качестве подлежащего при took может выступать he 'он', she 'она' или it 'оно' или существительное в единственном числе (he took 'он взял' и т. п., но не he look или he book и т. п.); и, наконец, оно не может встречаться после to (например, I am going to took неприемлемо). Но слова book и look также отличаются друг от друга грамматически. Каждое из них может быть употреблено как существительное или глагол в соответствующем контексте (следует помнить, что фонологическое слово может быть реализацией более чем одного грамматического слова; см. § 2.2.11). Хотя look гораздо чаще встречается как глагол ('смотреть'), a book — как существительное ('книга'), это различие менее существенно по сравнению с такими грамматическими фактами не статистической природы, как то, что в качестве глагола слово book (то есть 'заказать' и т. п.), в отличие от look, может иметь при себе существительное или именное словосочетание в функции прямого дополнения (I will book my seat 'Я закажу место', Не is going to book my friend for speeding 'Он собирается привлечь к ответственности моего друга за превышение скорости'; слово look здесь невозможно); look же обычно требует «предложного сочетания» (I will look into the matter 'Я рассмотрю [этот] предмет'; букв, 'я буду смотреть в [этот] предмет', They never look at me 'Они никогда не смотрят на меня'; слово book здесь невозможно). По-видимому, в большинстве английских высказываний, произносимых говорящими в повседневной речи, смешение слов book и look исключается в силу грамматических ограничений того или иного рода. И это совершенно типично для минимально-контрастирующих фонологических слов в английском языке.