- Любовные романы
- Фантастика и фэнтези
- Ненаучная фантастика
- Ироническое фэнтези
- Научная Фантастика
- Фэнтези
- Ужасы и Мистика
- Боевая фантастика
- Альтернативная история
- Космическая фантастика
- Попаданцы
- Юмористическая фантастика
- Героическая фантастика
- Детективная фантастика
- Социально-психологическая
- Боевое фэнтези
- Русское фэнтези
- Киберпанк
- Романтическая фантастика
- Городская фантастика
- Технофэнтези
- Мистика
- Разная фантастика
- Иностранное фэнтези
- Историческое фэнтези
- LitRPG
- Эпическая фантастика
- Зарубежная фантастика
- Городское фентези
- Космоопера
- Разное фэнтези
- Книги магов
- Любовное фэнтези
- Постапокалипсис
- Бизнес
- Историческая фантастика
- Социально-философская фантастика
- Сказочная фантастика
- Стимпанк
- Романтическое фэнтези
- Ироническая фантастика
- Детективы и Триллеры
- Проза
- Юмор
- Феерия
- Новелла
- Русская классическая проза
- Современная проза
- Повести
- Контркультура
- Русская современная проза
- Историческая проза
- Проза
- Классическая проза
- Советская классическая проза
- О войне
- Зарубежная современная проза
- Рассказы
- Зарубежная классика
- Очерки
- Антисоветская литература
- Магический реализм
- Разное
- Сентиментальная проза
- Афоризмы
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Поэзия, Драматургия
- Приключения
- Детская литература
- Загадки
- Книга-игра
- Детская проза
- Детские приключения
- Сказка
- Прочая детская литература
- Детская фантастика
- Детские стихи
- Детская образовательная литература
- Детские остросюжетные
- Учебная литература
- Зарубежные детские книги
- Детский фольклор
- Буквари
- Книги для подростков
- Школьные учебники
- Внеклассное чтение
- Книги для дошкольников
- Детская познавательная и развивающая литература
- Детские детективы
- Домоводство, Дом и семья
- Юмор
- Документальные книги
- Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Кадровый менеджмент
- Экономика
- Менеджмент и кадры
- Управление, подбор персонала
- О бизнесе популярно
- Интернет-бизнес
- Личные финансы
- Делопроизводство, офис
- Маркетинг, PR, реклама
- Поиск работы
- Бизнес
- Банковское дело
- Малый бизнес
- Ценные бумаги и инвестиции
- Краткое содержание
- Бухучет и аудит
- Ораторское искусство / риторика
- Корпоративная культура, бизнес
- Финансы
- Государственное и муниципальное управление
- Менеджмент
- Зарубежная деловая литература
- Продажи
- Переговоры
- Личная эффективность
- Торговля
- Научные и научно-популярные книги
- Биофизика
- География
- Экология
- Биохимия
- Рефераты
- Культурология
- Техническая литература
- История
- Психология
- Медицина
- Прочая научная литература
- Юриспруденция
- Биология
- Политика
- Литературоведение
- Религиоведение
- Научпоп
- Психология, личное
- Математика
- Психотерапия
- Социология
- Воспитание детей, педагогика
- Языкознание
- Беременность, ожидание детей
- Транспорт, военная техника
- Детская психология
- Науки: разное
- Педагогика
- Зарубежная психология
- Иностранные языки
- Филология
- Радиотехника
- Деловая литература
- Физика
- Альтернативная медицина
- Химия
- Государство и право
- Обществознание
- Образовательная литература
- Учебники
- Зоология
- Архитектура
- Науки о космосе
- Ботаника
- Астрология
- Ветеринария
- История Европы
- География
- Зарубежная публицистика
- О животных
- Шпаргалки
- Разная литература
- Зарубежная литература о культуре и искусстве
- Пословицы, поговорки
- Боевые искусства
- Прочее
- Периодические издания
- Фанфик
- Военное
- Цитаты из афоризмов
- Гиды, путеводители
- Литература 19 века
- Зарубежная образовательная литература
- Военная история
- Кино
- Современная литература
- Военная техника, оружие
- Культура и искусство
- Музыка, музыканты
- Газеты и журналы
- Современная зарубежная литература
- Визуальные искусства
- Отраслевые издания
- Шахматы
- Недвижимость
- Великолепные истории
- Музыка, танцы
- Авто и ПДД
- Изобразительное искусство, фотография
- Истории из жизни
- Готические новеллы
- Начинающие авторы
- Спецслужбы
- Подростковая литература
- Зарубежная прикладная литература
- Религия и духовность
- Старинная литература
- Справочная литература
- Компьютеры и Интернет
- Блог
Информационные технологии и лингвистика XXI века - Алла Викторовна Гуслякова
Шрифт:
Интервал:
Закладка:
Семантические системы 1970-х совершенно сознательно избегали использования синтаксической обработки, некоторые пытались вообще очистить от синтаксической информации свои системы. Синтаксис всегда рассматривался большинством лингвистов-теоретиков как основополагающая часть человеческого языка. Инженеры же увидели в синтаксисе полезный способ разрешения омонимии с относительно небольшим объемом необходимых знаний (по крайней мере, по сравнению с объемом знаний, требуемым для этой цели семантической обработкой). Теоретические лингвисты также выступали критически против всеобщего признания трансформационной (порождающей) грамматики Н. Хомского.
Результатом стали грамматики, оперирующие более детализированными синтаксическими характеристиками объектов информации (например, часть речи – существительное, лицо – третье, время – прошедшее, число – множественное и т. д.), а не одноатомные категории (глагол, существительное, прилагательное и т. д.). Эти грамматики могли дать гораздо более точный анализ предложения. С другой стороны, для детализированных характеристик необходимы гораздо более сложные методы сопоставления в поисковых алгоритмах. Отсюда такие грамматики получили название унификационных, так как сопоставление характеристик могло быть достигнуто посредством метода унификации.
Есть несколько грамматик, которые используют унификацию как главную операцию для комбинирования информации. Из них Грамматика Обобщенной Фразовой Структуры (GPSG – Generalized Phrase Structure Grammar), была одно время очень популярной, но, видимо, самым широко используемым формализмом стала Грамматика Лексических Функционалов (EFG – Eexical Functional Grammar).
В 80-е годы в большой мере формируется фундамент современного подхода к структуре машинного перевода. Благодаря росту производительности и развитию возможностей компьютеров, разработка систем машинного перевода стала реальностью. Разработка первых систем была основана на лингвистических знаниях. Но лингвистике не удалось покрыть широкий диапазон актуальных феноменов использования языка. Анализ производился для ограниченных случаев. В 80-е годы ученые инициировали разработки в области описания грамматик. Грамматики, основанные на формальных, правильно написанных текстах, не имели полной практической ценности. Только про 60 % грамматических правил, выработанных лингвистами, можно было сказать, что они работают на практике. В реальности, различные варианты в языке были слишком многочисленны.
В начале 90-х годов IBM выпустила систему статистического машинного перевода (SMT-statistical machine translation). Данная система обнаруживала ряд английских и французских выражений, которые не могли бы быть распознаны вручную, посредством «чистой» методологии машинной трансляции. Базовыми характеристиками данной системы являлись большой объем памяти и высокая производительность компьютеров, большой объем качественных пар слов для перевода (обучающие данные).
Основным вопросом, вставшим перед компьютерной лингвистикой с 90-х годов, когда основным направлением стала статистическая обработка текстов, оказалась проблема получения достаточно большого набора реальных лингвистических данных, чтобы произвести внятный анализ или автоматически построить грамматику. Во многих случаях у исследователей недостает данных для анализа лингвистических феноменов в результате разбросанного характера данных. Например, когда они пытаются определить вероятность для каждой из пар последовательно идущих терминов, они не могут найти лингвистических данных с какими-то из анализируемых пар, хотя сочетания подобного рода являются правильными с точки зрения языка. Один из подходов состоит в улучшении точности приближения путем статистической обработки небольших рабочих образцов.
В реальности, исследователям приходится работать с низкокачественными данными в сопоставляемых для перевода парах. Когда данные не могут быть сопоставлены, используются двуязыковые корпуса в той же предметной области. Как минимум для решения проблемы требуются словари для базовых лексиконов и быстрые компьютеры с большим объемом памяти. При этом парадигмы машинного обучения выглядят на сегодняшний день мало подходящими для целей автоматической обработки текстов.
На сегодняшний день максимальную долю российского рынка систем машинного перевода составляют продукты компаний PROMT и ABBYY (Lingvo). В основу фундамента технологии перевода PROMT были заложены формализм расширенных сетей переходов (ATN – Augmented Transition Network) и использование двух «переводческих технологий» в одном продукте – технологии машинного перевода (Machine Translation) и технологии Translation Memory. Эффект от взаимного применения двух технологий позволяет обеспечить практически 100 %-ное качество перевода при работе с повторяющимися текстами.
Программы, разработанные на основе технологии машинного перевода осуществляют связный перевод текста, используя определенные лингвистические алгоритмы. Сначала система анализирует структурные элементы входного предложения, затем преобразует его в соответствии со структурой языка и синтезирует окончательный вариант. Кроме того, для повышения качества перевода программа должна уметь распознавать устойчивые выражения, а также иметь большой словарный запас. Для перевода тематических текстов обычно требуется подключать специализированные словари. С помощью систем с технологией машинного перевода можно быстро получить черновой вариант перевода, отражающий общий смысл текста.
Во второй лекции нашей работы, посвященной описанию разнообразных программ компьютерного перевода, технология Translation Memory была подробно описана. Повторимся, что память переводов (ТМ) использует базу данных, где хранятся выполненные профессионалом переводы в виде сегментов текста оригинал-перевод. Эта технология базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной базе переводов. Память переводов работает по принципу накопления: в процессе перевода в базе сохраняется исходный сегмент (предложение) и его перевод. При обработке нового текста, поступившего на перевод, система сравнивает каждое его предложение с сохраненными в базе сегментами. Если идентичный или подобный исходному сегмент найден, то перевод этого сегмента отображается вместе с переводом и указанием совпадения в процентах. Слова и фразы, которые отличаются от сохраненного текста, выделяются подсветкой. Таким образом, переводчику остается перевести только новые сегменты и отредактировать частично совпадающие. Каждое изменение или новый перевод сохраняются в базе. В результате необходимость в повторном переводе одного и того же предложения отпадает.
Современная компьютерная лингвистика является междисциплинарной наукой. Человека окружает очень большое количество цифровой информации; существует множество бизнес-проектов, успех которых зависит от обработки информации, эти проекты могут относиться к сфере маркетинга, политики, экономики и т. д. И очень важно уметь обращаться с этой информацией эффективно – главное не только быстрота обработки информации, но и легкость, с которой пользователь способен извлекать необходимые ему данные и создавать из них цельную картину.
Компьютерная лингвистика как особая прикладная дисциплина выделяется, прежде всего, по инструменту – т. е. по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые различные средства программирования, то об общем понятийном аппарате компьютерной лингвистики говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В их основе лежит теория знаний, первоначально разрабатывавшаяся в области искусственного интеллекта, а в дальнейшем ставшая одним из разделов когнитивной

