Каталог :: Информатика

Контрольная: Переводчик

                                Содержание                                
1.   Введение                                                                  3
2.   Основные объекты системы перевода                             4
3.   Понятие PROMT-документа                                              5
4.   Алгоритмы перевода                                                        6
5.   Словари                                                                   8
6.   Принципы работы со словарями                                      10
     
     
     ВВЕДЕНИЕ
     PROMT  – это программа, представляющая собой профессиональную среду для
перевода и мощный лингвистический редактор с широким набором функций настройки
перевода.
     PROMT – это единая среда переводчика, в которой можно не только
переводить, но также и редактировать перевод, работать со словарями для всех
языковых направлений одновременно. Эта программа позволяет выполнять как
простой и быстрый, так и сложный профессиональный перевод текста, а также
выполнять лингвистический анализ перевода, который затем можно использовать для
улучшения качества перевода других текстов сходной тематики.
     PROMT – гибкая система, настраиваемая на перевод конкретного текста. Для
этого предусмотрена возможность подключения специализированных предметных
словарей, поставляемых компанией ПРОМТ, а также создания собственных
пользовательских словарей. Удобным средством настройки системы является также
имеющаяся возможность выбора тематики документа, автоматически определяющей,
какие словари подключать, какие слова оставить без перевода и как обрабатывать
специальные конструкции типа электронных адресов, даты и времени. Широкие
возможности повышения качества перевода появляются за счет использования баз
переводов Ассоциированной памяти, подключения макросов и настройки алгоритмов
перевода.
В программе PROMT  можно как переводить тексты, которые находятся в
файлах, так и непосредственно набирать их и тут же переводить.
     
     
     Основные объекты системы перевода
     
  1. PROMT-документ
  2. Алгоритм перевода
  3. База переводов Ассоциированной памяти
  4. Генеральный Словарь
  5. Зарезервированное слово
  6. Макрос
  7. Пользовательский словарь
  8. Препроцессор
  9. Специализированный словарь
  10. Тематика документа
  11. Шаблон тематики
Понятие PROMT-документа PROMT-документ - это совокупность:
  • Исходного текста;
  • Его перевода;
  • Скрытой структуры, поддерживающей согласование исходного текста и текста перевода по абзацам;
  • Информации о незнакомых словах;
  • Тематики документа.
PROMT-документ хранится в файле формата Документ PROMT (по умолчанию файлу присваивается расширение .std). Создав новый документ или открыв файл с исходным текстом в программе PROMT (например документ Word), Вы тем самым создаете PROMT-документ. Если Вы предполагаете в дальнейшем продолжить работу с документом в программе PROMT (например, Вы выполнили перевод текста не до конца и хотите закончить его в другой раз), то целесообразно сохранить документ в файле формата Документ PROMT. При этом сохраняются и исходный текст, и перевод, и вся структура связи между ними, а также тематика документа и список незнакомых слов. Концепция PROMT-документа позволяет выполнять интерактивное редактирование и перевод документа:
  • просматривать и видоизменять исходный текст/текст перевода;
  • переводить исходный текст полностью или по абзацам;
  • возвращаться к уже переведенным фрагментам исходного текста, редактировать их или корректировать словарь, после чего заново переводить отредактированный текст.
Алгоритмы перевода Алгоритмы перевода - это набор функций, позволяющих выбирать режим перевода некоторых языковых конструкций, которыми невозможно управлять, модифицируя словарные данные. Список алгоритмов перевода зависит от направления перевода. Например, для англо-русского направления существуют следующие алгоритмы перевода:
  • Перевод местоимения "you" - можно выбрать значения:
    • 'Вы'
    • 'вы'
    • 'ты'
  • Род местоимения "I" - можно выбрать значения:
    • мужской род
    • женский род.
Выбранные значения алгоритмов перевода применяются к каждому параграфу исходного текста и могут быть сохранены в PROMT-документе, а также входить в шаблон тематики. Возможность настраивать алгоритмы перевода доступна НЕ во всех приложениях системы перевода.

База переводов Ассоциированной памяти

База переводов Ассоциированной памяти системы машинного перевода семейства PROMT — это база, содержащая отдельные фрагменты текста вместе с соответствующим переводами этих фрагментов. Базы переводов Ассоциированной памяти используются при переводе с помощью лингвистического редактора PROMT. Программа в процессе автоматического перевода сравнивает переводимый текст с фрагментами текста из баз переводов Ассоциированной памяти, подключенных в данный момент к переводу. В случае полного совпадения перевод фрагмента подставляется из базы переводов Ассоциированной памяти.

Ассоциированная память

Ассоциированная память (АП) системы машинного перевода семейства PROMT XT Family — это упрощенная система класса Translation Memory, встроенная в систему перевода. Назначение АП состоит в запоминании повторяющихся сегментов текста вместе с переводом и их последующего использования при переводе с помощью лингвистического редактора PROMT. Ассоциированная память системы PROMT XT Family по сравнению с полнофункциональными системами класса Translation Memory имеет ряд упрощений:
  • Упрощенный алгоритм выделения сегментов (сегменты выделяются по знакам препинания);
  • Упрощенный алгоритм поиска искомого сегмента в базе данных (ищется только 100% совпадение);
  • Отсутствие терминологического менеджера.
Работа с Ассоциированной памятью может выполняться в двух программах системы семейства PROMT XT Family: 1. Associated Memory Manager - Менеджер Ассоциированной Памяти; 2. PROMT - Лингвистический редактор. Словари Генеральный словарь Генеральный словарь - основной словарь системы машинного перевода, содержит общеупотребительную лексику. Каждому направлению перевода соответствует свой Генеральный словарь, который поставляется вместе с системой и всегда участвует в процессе перевода. Генеральный словарь может использоваться для перевода бытовых писем, газетных и журнальных статей на популярные темы, а также простых художественных текстов. Генеральный словарь нельзя редактировать. Однако Вы можете открыть словарную статью из Генерального словаря, откорректировать ее, а затем сохранить в своем пользовательском словаре. Пользовательский словарь Пользовательский словарь - это словарь, который Вы можете создавать и пополнять самостоятельно. В него Вы можете вводить новые слова и словосочетания, а также сохранять измененные словарные статьи из других словарей, включая Генеральный. Количество пользовательских словарей не ограничено. Зарезервированное слово Зарезервированное слово - это слово (словосочетание), которое помечается во входном тексте как не требующее перевода. Чаще всего это бывают имена собственные, аббревиатуры, специальные наименования, совпадающие со значимыми словами (например, 'Windows 95', 'Miami Beach', 'Bill Gates'). Такие слова могут выводиться в тексте перевода символами исходного языка или транслитерироваться. Если Вы дополнительно укажете семантический класс, к которому можно отнести такое слово, это позволит упростить анализ структуры входного предложения и, следовательно, получить наиболее корректный перевод. Макрос Макрос (сценарий, скрипт) - это программа, написанная на одном из скриптовых языков, и использующая предоставляемую данным приложением объектную модель для настройки приложения или расширения его функциональности. Препроцессор Препроцессор - это набор функций, предназначенных для предварительной обработки входного текста с целью исключения из перевода или преобразования в соответствии с нормами выходного языка некоторых конструкций. Стандартный препроцессор Стандартный препроцессор – это препроцессор, позволяющий программе исключать некоторые конструкции из процесса перевода и либо оставлять их без изменений, либо трансформировать, согласно правилам языка, на который осуществляется перевод. Это могут быть имена файлов или адреса электронной почты, служебные символы, дата и время и т. д. Тематика документа Тематика документа - структура, созданная на базе выбранного шаблона тематики, наследующая все его компоненты, но, возможно, модифицированная в процессе работы. Тематика документа позволяет настроить систему на качественный перевод документа, подбирая оптимальное сочетание компонентов тематики. Шаблон тематики Шаблон тематики включает следующие основные объекты:
  • Упорядоченный список подключенных словарей
  • Список зарезервированных слов
  • Упорядоченный список подключенных препроцессоров
Помимо этих основных объектов, шаблон тематики может включать некоторые расширенные свойства:
  • Ключевые слова
  • Базы переводов Ассоциированной памяти
  • Макросы
  • Алгоритмы перевода
  • Транслитерация незнакомых слов
Редактирование расширенных свойств шаблонов тематик доступно НЕ во всех приложениях системы перевода. На основании шаблона тематики создается тематика документа. На основании одного шаблона тематики может быть создано произвольное количество тематик документов (наследующих все компоненты шаблона), которые могут модифицироваться в процессе работы. Общие принципы работы со словарями Логика работы со словарями основывается на базовом принципе ядра систем машинного перевода семейства PROMT XT Family: словарь – это объект со своими свойствами. Работа со словарем-объектом осуществляется при помощи стандартного диалога редактирования словарей. Возможны следующие операции со словарями:
  • Создание нового пользовательского словаря-объекта;
  • Удаление пользовательского словаря-объекта;
  • Сохранение пользовательского словаря-объекта в файле архива словаря (файл с расширением .ADC);
  • Загрузка пользовательского словаря-объекта из файла архива словаря (файл с расширением .ADC);
  • Загрузка (с предварительной конвертацией) пользовательского словаря-объекта из файла пользовательского словаря версии PROMT 98 (файл с расширением .UDC).
Словарь-объект может создаваться тремя способами: 1. При помощи стандартной операции создания нового пользовательского словаря. 2. Загружаться в систему: o Из файла архива словаря (файл с расширением .ADC) o Из файла пользовательского словаря, созданного в более ранних версиях системы (файл с расширением .UDC) 3. При инсталляции специализированных словарей - программой Инсталлятор словарей и шаблонов тематик. Основные отличия логики работы со словарями от PROMT® 98 и более ранних версий: 1. При загрузке архива словаря в систему все изменения, произведенные над словарем-объектом не будут отражены на файле архива словаря до тех пор, пока не будет явным образом выполнена команда Сохранить в архив словаря. 2. При загрузке в систему пользовательского словаря, созданного в предыдущих версиях системы (файл с расширением .UDC), производится его конвертация в формат PROMT XT Family. Сохранить измененный словарь можно только в архив словаря (файл с расширением .ADC), при этом его никак нельзя будет использовать в PROMT® 98 и более ранних версиях. 3. При удалении пользовательского словаря-объекта из системы у пользователя есть возможность предварительно сохранить словарь-объект как файл архива словаря. 4. Принципиально изменилась логика: словари не подключаются к системе как файлы (было в PROMT® 98 и более ранних версиях), словари существуют только внутри системы. Из системы словарь можно сохранить в архив словаря (файл с расширением .ADC) и вновь загрузить из этого архива словарь в систему, но при работе со словарем никакой физической связи между словарем в системе и файлом архива словаря не существует! Основные объекты: "Шаблон тематики" и "Тематика документа" Основными средствами настройки систем перевода семейства PROMT XT Family на перевод текстов из различных предметных областей являются:
  • Подключение специализированных и пользовательских словарей, соответствующих предметной области переводимых текстов;
  • Организация правильной иерархии поиска слов и терминов в подключенных словарях;
  • Использование списков зарезервированных слов;
  • Использование специальных препроцессоров для правильной обработки последовательностей символов специального вида (например, электронных адресов или URL).
Для реализации функции настройки на перевод в определенной предметной области введено понятие Тематики документа, которое включает в себя:
  • Упорядоченный список подключенных словарей;
  • Список зарезервированных слов;
  • Упорядоченный список подключенных препроцессоров.
Кроме того, тематика документа может включать в себя:
  • Список ключевых слов, характерных для данной тематики;
  • Базы переводов, хранящие переведенные ранее сегменты текстов по данной тематике и их переводы;
  • Макросы, созданные для данной тематики;
  • Алгоритмы перевода, настроенные для данной тематики;
  • Возможность транслитерировать незнакомые слова (опционально).
Тематика документа создается на базе некоторого шаблона тематики , но может модифицироваться и, в конечном итоге, существенно отличаться от шаблона тематики, на основании которого она была создана. Программа предоставляет возможность создавать, модифицировать и сохранять шаблоны тематик. При установке системы для каждого направления перевода создается базовый шаблон тематики под названием "Общий". Этот шаблон тематики состоит только из Генерального словаря, и его нельзя удалить или переименовать (однако, можно модифицировать). Программа автоматически сохраняет измененные шаблоны тематик. Если на базе некоторого шаблона создается тематика документа, существенно отличающуюся от породившего ее шаблона, то для дальнейшего использования этой тематики сохранить ее в виде шаблона тематики. Понятие Тематики документа позволяет значительно упростить процедуру настройки системы на перевод документов в определенной предметной области. Тематика документа позволяет легко создавать сложные лингвистические настройки один раз, а далее оперировать с ними как с единым целым, что позволяет получать качественный результат при минимальных затратах.