egeinformnata.ru

Этот сайт предназначен для подготовке к ЕГЭ по информатике

Системы машинного перевода

Система RETRANS имеет следующие характеристики:

 

  1. Область применения, назначение, функциональные возможности. Система ориентирована на выполнение автоматизированного перевода научно-технических текстов с русского языка на английский. Русско-английский политематический машинный словарь системы содержит достаточную терминологию по естественным и техническим наукам, экономике, бизнесу, политике, законодательству и военному делу. В частности, он содержит достаточную базу данных содержащую термины и фразеологические единицы по следующим тематическим областям: Машиностроение, Электротехника, Энергетика, Транспорт, Аэронавтика. Космонавтика, Робототехника, Автоматика и Радиоэлектроника, Вычислительная Техника, Связь, Математика, Физика, Химия, Биология, Медицина, Экология, Сельское Хозяйство, Строительство и Архитектура, Астрономия, География, Геология, Геофизика, Горное Дело, Металлургия и др.

Перевод текстов может выполняться как в автоматическом, так  и в диалоговом режиме.

  1. Объем политематического машинного словаря содержит более 1.300.000 словарных статей, из них около 77 % составляют словосочетания длиной от двух до семнадцати слов. Объем дополнительных машинных словарей (предназначенных для настройки системы на различные тематические области) — более 200.000 словарных статей.

Система МП PROMT XT. Программные продукты компании PROMT ориентированы на решение следующих фундаментальных проблем:

  • понятно, что чем больше словарь, тем лучше перевод, следовательно, первая проблема – создание максимально больших словарей для системы.
  • система с лёгкостью должна переводить предложения типа: ПРИВЕТ, КАК ДЕЛА? То есть необходимо научить систему легко распознавать устойчивые обороты.
  • поскольку предложение предназначенное для перевода пишется по определенным правилам, и соответственно по определенным правилам переводится, значит  необходимо записать все эти правила в виде программы.

Методика создания больших баз данных достаточно хорошо разработаны, но для перевода скорее важно правильно структурированная информация, приписанная элементу базы, как и выбор самого элемента. Поэтому для описания как входного, так и выходного языка в системе должен наличествовать определённый формальный метод описания морфологии, на котором основан выбор единицы словаря.

Практически в любых системах, претендующих на  название систем переводов, проблема представления морфологических моделей тем или иным образом решается. Но одни системы способны распознавать миллион словоформ при объеме словаря в пятьдесят тысяч словарных статей, а другие при объеме словаря в сто тысяч словарных статей могут распознать только эти сто тысяч.

В системах семейства PROMT разработано практически уникальное по полноте морфологическое описание для любых языков,  которыми заложены в систему. PROMT содержит более 800 типов словоизменений для русского языка, более 300 типов, для немецкого и французского языков, а для английского, не принадлежащего к флективным языкам, выделено более 250 типов словоизменений. Всё множество окончаний для любого из языков хранится в виде древесных структур, что обеспечивает не только эффективный способ хранения, но и эффективный алгоритм морфологического анализа.

Кроме того, используемая модель морфологии позволила разработать экспертную систему для пользователя — создателя словаря. Эта система позволяет автоматизировать процедуру выделения основы и определения типа словоизменения при вводе новых словарных статей.

Таких возможностей нет у ранее существующих систем машинного перевода, даже в таких распространенных системах как Power Translator (Globalink, США), Language Assistant (MicroTac, США), TRANSEND (Intergaph,США), пользователю приходится вручную спрягать и склонять слова для задания морфологической модели.

Но разработка описаний морфологии даёт возможность решения только определённой проблемы, а именно что является заголовком словарной статьи, согласно которого происходит идентификация единицы текста и единицы словаря. Но поскольку идентификация слова из текста со словарной статьей выполняется далеко не ради идентификации, как это делается в спеллерах или электронных словарях, она должна быть выполнена программой ради процедуры перевода.

Многие системы машинного перевода в прошлом словарное описание процесса, как  и описание алгоритма рассматривали как стороны одной проблемы, но решение обычно искалось в ограничении рассматриваемого мира, либо грамматического, либо семантического. Так например, на основе признака «принадлежность к части речи» описывалась грамматика такого типа:

именная группа —  существительное

именная группа — прилагательное + именная группа

глагольная группа — глагол + именная группа

предложение — именная группа + глагольная группа

Ясно, что определённая часть предложений естественного языка описывается такой грамматикой, но эта часть достаточно незначительна, и на ее основе невозможно однозначно проанализировать и перевести реальный текст. В то же время часто удаётся использовать эффективные методы построения преобразователя по заданной грамматике или, в крайнем случае, написать программу, способную путем перебора построить дерево зависимостей для ограниченного множества предложений. Эти системы получали название  «экспериментальные».

Именно на базе таких проектов появились системы перевода, предлагаемые сейчас конечному пользователю: Power Translator (компания Globalink) и Language Assistant (компания MicroTac) и TRANSEND (компания Intergraph).

Системы семейств STYLUS и PROMT – не являются исключением, так как многие специалисты компании PROMT уже работали в таких проектах. Но при разработке систем PROMT впервые был использован революционный подход, позволивший получить сразу впечатляющие результаты. Системы перевода семейства PROMT — это программные продукты, созданные на базе не лингвистических, а кибернетических методов.

Обновлено: 19.09.2018 — 11:07

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

egeinformnata.ru © 2018 Оставляя комментарий на сайте или используя форму обратной связи, вы соглашаетесь с правилами обработки персональных данных. Frontier Theme