Категории
Самые читаемые
Лучшие книги » Детская литература » Детская образовательная литература » Информационные технологии и лингвистика XXI века - Алла Викторовна Гуслякова

Информационные технологии и лингвистика XXI века - Алла Викторовна Гуслякова

Читать онлайн Информационные технологии и лингвистика XXI века - Алла Викторовна Гуслякова

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 2 3 4 5 6 7 8 9 10 ... 25
Перейти на страницу:
порождении языковых правил для конкретных текстовых примеров. Границы между системами example-based и rule-based не очень четкие, поскольку и те и другие используют словари (статическая информация о языке) и правила работы со словарями. Яркий представитель класса example-based – система Trados (www.trados.com), работающая фактически на одних примерах, без грамматики. Trados предназначена для больших переводческих центров, где накопилось много параллельных текстов (два текста, один из которых является переводом другого). Она позволяет не переводить дважды одно и то же предложение, а просто находит такое же или очень похожее предложение в базе параллельных текстов и выдает уже сделанный кем-то перевод. При больших массивах однотипных текстов такой подход весьма эффективен. Вообще, понятие массива документов очень важно для машинного перевода. Большинство специалистов сходится во мнении, что машинный перевод возможен только для прикладных (технических) текстов, которые могут быть заданы определенными, порой гигантскими массивами. Художественная литература, как антипод технических текстов, никогда не будет переводиться компьютером адекватно.

Вместо термина «машинный» в компьютерной лингвистике иногда употребляется слово «автоматический», что не влияет на смысл. Однако термин автоматизированный перевод имеет совсем другое значение, так как при нём программа просто помогает человеку переводить тексты.[7]

Автоматизированный перевод предполагает такие формы взаимодействия, как частично автоматизированный перевод (например, использование переводчиком-человеком компьютерных словарей) и систему с разделением труда, то есть компьютер обучен переводить только фразы жёстко заданной структуры (но делает это так, чтобы исправлять за ним не требовалось), а всё не уложившееся в схему отдает человеку.

Принимая во внимание тот факт, что машинный перевод различной текстовой информации становится все более и более востребованным не только в среде профессионального перевода, но в других сферах общественной жизнедеятельности, осуществим небольшой экскурс в историю создания машинного перевода в России и за рубежом.

Мысль использовать ЭВМ для перевода была высказана в 1946 году в США, сразу же после появления первых электронно-вычислительных машин. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году. Несмотря на примитивность той системы (словарь в 150 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Великобритании, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и других странах; в том же 1954 году и в СССР.

К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:

• MARK (в Департаменте иностранной техники ВВС США);

• GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).

Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинного перевода текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма, снижению финансирования, а иногда и к полному прекращению работ по этой тематике.

Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление персональных компьютеров, а с ними всё более сложных словарных, поисковых систем, ориентированных на работу с данными на естественных языках. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины 70-х годов прошлого столетия. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.

В настоящее время также существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания 8у81хап. В России большой вклад в развитие машинного перевода внесла группа под руководством профессора Р.Г. Пиотровского (Российский государственный педагогический университет им. Герцена, г. Санкт-Петербург).

Впрочем, мечты, с которыми российские и зарубежные ученые взялись полвека назад за задачу машинного перевода, в значительной мере остаются по-прежнему мечтами, поскольку высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода (по оценкам конца 1980-х) приблизительно до пяти раз.

Качество же перевода зависит от тематики и стиля исходного текста. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение качественного перевода, который нуждается лишь в небольшой редакторской корректировке. Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных шуток, особенно в профессиональной среде переводчиков. Например, программа ПРОМТ переводит предложение «Му cat has given birth to four kittens, two yellow; one white and one black» на русский язык следующим образом: «Мой кот родил четырёх котят, два жёлтых цвета, одно белое и одного афроамериканца».

Профессиональная работа невозможна без надежных инструментов. Перевод и локализация[8] как область профессиональной активности в этом смысле не являются исключением. Любой переводчик сталкивается с проблемой согласованного применения терминологического глоссария в ходе длительного проекта или быстрого повторного использования ранее переведенного текста. По своей природе подобные рутинные задачи сравнительно легко (в отличие от машинного перевода) формализуются и программируются, поэтому оснащение рабочего места (локализатора) автоматизированными средствами является нормой в отрасли, постепенно трансформируясь в отраслевые стандарты.

Большинство таких средств построены на основе концепции памяти перевода (translation memory) – простой базы данных, каждая запись которой представляет собой единицу (предложение или абзац) параллельных текстов (как правило, на двух языках). Такая база данных хранит предыдущие переводы с целью их возможного повторного использования и решения задач быстрого поиска по содержимому. Несмотря на то, что программы, оснащенные памятью перевода, называются системами автоматизированного перевода (CAT, или computer-aided/ assisted translation), их не следует путать с программами машинного перевода (machine translation) – память перевода ничего не переводит сама по себе, в то время как машинный перевод основан на генерации переводов по результатам грамматического разбора исходного текста.

Как правило, запись памяти перевода состоит из двух сегментов: на исходном (source) и конечном (target) языках. Если идентичный (или похожий) сегмент на исходном языке встречается в тексте, сегмент на конечном языке будет найден в памяти перевода и предложен переводчику в качестве основы для нового перевода. Автоматически найденный текст может быть задействован как есть, отредактирован или полностью отклонен. Большинство программ используют алгоритм нечеткого соответствия (fuzzy matching), существенно улучшающий их функциональные

1 2 3 4 5 6 7 8 9 10 ... 25
Перейти на страницу:
На этой странице вы можете бесплатно скачать Информационные технологии и лингвистика XXI века - Алла Викторовна Гуслякова торрент бесплатно.
Комментарии