egeinformnata.ru

Этот сайт предназначен для подготовке к ЕГЭ по информатике

Электронная лексикография

Под электронной лексикографией принято понимать всё, что связано с электронными словарями и переводчиками с одного языка на другой.

Осуществление перевода компьютером задача сложная, но весьма интересная. Главная сложность её состоит в том, что естественные языки не слишком удобны для формализации. Отсюда и недостаточно высокое качество получаемого с помощью машинного перевода текста. Сама по себе идея машинного перевода зародилась достаточно давно. Первым мысль о возможности машинного перевода высказал Чарльз Бэббидж, разработавший в 1836-1848 годах цифровую аналитическую машину. Идея Чарльза Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Ч. Бэббидж таким образом обосновал запроса средств у английского правительства, которые были необходимых для реализации проекта аналитической машины.

Спустя 100 лет, в 1947 году, У. Уивер (в то время директор отделения естественных наук Рокфеллеровского фонда) написал письмо Норберту Винеру. В нём он предложил использовать технику дешифрования для перевода текстов. Именно этот год и принято считать годом рождения машинного перевода. В том же году был разработан и первый алгоритм для выполнения пословного перевода, а в 1948 году Р. Риченс выступил с предложением разбиения слова на основу и окончание. Следующие два десятка лет системы машинного перевода развивались весьма интенсивно. Уже в январе 1954 года на машине IBM — 701 была реализована первая система машинного перевода IBM Mark II. Но в 1967 году Комиссия Национальной Академии Наук США признала машинный перевод нерентабельным, что серьёзно замедлило ход исследований в этой области. Очередной подъем машинный перевод пережил в 70-е годы, а в 80-е становится экономически выгодным из-за существенного снижения стоимости машинного времени.

В СССР исследования в области машинного перевода реально начались после демонстрации системы IBM Mark II, когда группа ученых ВИНИТИ приступила к разработке системы машинного перевода для машины БЭСМ. Первый образец перевода с английского на русский язык удалось получить к концу 1955 года.

Аналогичное направление работ возникло в Отделении прикладной математики Математического института АН СССР (ныне ИПМ им. М. В. Келдыша РАН) по инициативе А. А. Ляпунова. Первые программы машинного перевода, разработанные коллективом под его руководством, удалось реализовать на электронно-вычислительной машине «Стрела». Таким образом благодаря работам над созданием систем машинного перевода оформилось такое направление, как прикладная лингвистика.

Начиная с 70-х годов над созданием систем машинного перевода работала группа специалистов ВИНИТИ РАН под руководством проф. Г.Г. Белоногова. Первая их система машинного перевода была готова в 1993 году, а в 1996 году после целого ряда доработок и усовершенствований была зарегистрирована в РОСАПО под названием Retrans. Эта система достаточно широко использовалась министерствами обороны, путей сообщения, науки и технологии.

Параллельно подобные исследования и разработки велись в лаборатории Инженерной Лингвистики ЛГПИ им. А. И. Герцена (ныне Педагогический Университет). Именно они и стали основой наиболее популярной сейчас системы машинного перевода “PROMT”. Последние версии этого программного продукта используют наукоемкие технологии и построены на основе технологии расширенных сетей переходов и формализма нейронных сетей.

Международной Конференции по Техническим Коммуникациям в 1990 году была принята следующая классификация:

— полностью автоматический перевод;

— автоматизированный машинный перевод при участии человека;

— перевод, осуществляемый человеком с использованием компьютера.

Таким образом, полностью автоматизированный машинный перевод —  это вид машинного перевода? осуществляемый вычислительной машиной. То сеть в компьютер вводится текст на одном языке, этот текст обрабатывается и компьютер выводит этот же текст на другом языке.

Главной проблемой при таком переводе становится сложность и неоднозначность языка. Возьмем, к примеру, значения слова «can». Кроме основного значения модального вспомогательного глагола, у слова «can» имеется несколько официальных и жаргонных значений в качестве существительного: «банка», «отхожее место», «тюрьма». На фоне всего этого существует и архаичное значение этого слова — «знать или понимать». Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?

Как выяснилось, определенные успешные шаги были сделаны в сфере разработки программ перевода, которые различали смысл текста при опоре на его контекст. Более поздние разработки при анализе текстов стали опираться на теорию вероятности. Но в любом случае, полностью автоматизированный машинный перевод текстов с обширной тематикой все еще является трудновыполнимой задачей.

Автоматизированный машинный перевод при участии человека. Этот вид машинного перевода в настоящее время вполне осуществим. Говоря о машинном переводе при участии человека, обычно подразумевают редактирование текстов как до, так и после их обработки компьютером. Люди-переводчики изменяют тексты таким образом, чтобы они были понятны машинам. После того, как компьютер сделал перевод, люди вновь редактируют предварительный машинный перевод, делая текст на выходном языке правильным. Кроме такого порядка работы, существуют так же системы машинного перевода, которые в процессе перевода требуют присутствия человека-переводчика, который помогает компьютеру выполнять перевод особо сложных или неоднозначных конструкций.

Машинный перевод с помощью человека главным образом применим к текстам с ограниченным вокабуляром узко-ограниченной тематики.

Экономичность использования машинного перевода с помощью человека — вопрос достаточно спорный. Сами программы как правило достаточно дорогостоящи, а для их работы зачастую требуется специальное оборудование. Предварительному и последующему редактированию необходимо учиться. Создание и поддержание в рабочем состоянии баз данных слов — процесс трудоемкий и часто требует специальных навыков. Но для организации, которая занимается переводами больших объемов текстов в четко определенной тематической сфере, в таком случае машинный перевод с помощью человека может стать достаточно экономичной альтернативой традиционному человеческому переводу.

И наконец, перевод, осуществляемый человеком, с использованием компьютера. В этом варианте именно человек-переводчик ставится во главу всего процесса перевода, в то время как программа компьютера рассматривается только как инструмент, делающего процесс перевода более эффективным, а перевод — точным. Это есть ничто иное как обычные электронные словари, обеспечивающие перевод нужного слова, возлагая тем самым на человека ответственность за выбор нужного варианта и общий смысл переведенного текста. Такие словари в значительной мере облегчают процесс перевода, но требуют при этом от пользователя определенного уровня знания языка и затрат соответственно определённого времени на его осуществление. Но все же в целом процесс перевода значительно ускоряется и облегчается.

В числе систем, позволяющих помочь переводчику в работе, важное место занимают Translation Memory (TM). Они представляют собой удобный интерактивный инструмент для сохранения и накопления в базе данных пар эквивалентных сегментов текста на языке оригинала и перевода, с возможностью последующего их упрощённого поиска и редактирования. Подобные программные продукты не преследуют цель применения высокоинтеллектуальных информационных технологий, а напротив, основаны на более широком использовании творческого потенциала переводчика. Переводчик в ходе работы формирует собственную базу данных и чем больший объём она содержит, тем выше отдача от ее использования.

Обновлено: 13.09.2018 — 08:35

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

egeinformnata.ru © 2018 Оставляя комментарий на сайте или используя форму обратной связи, вы соглашаетесь с правилами обработки персональных данных. Frontier Theme