Машиналық аударма бағдарламалары

Машиналық аударма жүйелері кибернетикалық модель жасау аясына қатысты болуы себепті шет тіліндегі мәтінді ана тіліне және керісінше аудару тұсындағы адамның тілдік әрекеті арқылы іске асады. Сондықтан аударма ісі электронды-есептеу машиналарының (ЭЕМ) көмегімен аудармашы әрекетін қайталауға бағытталады.
Аудармашының тілдік әрекетінің, яғни сөйлеу-ойлау қызметінің моделін машиналық аударма жүйесі арқылы жүзеге асыру екі түрлі таптастыру параметрлері бойынша анықталады:
– автоматтандыру дәрежесі, яғни компьютерге жүктелетін жұмыстың нақты көлемі. Мұнда мынадай жағдаяттарды айырып қарастыру керек:
1) аударма жұмысы толығымен немесе толыққа жуық ЭЕМ арқылы орындалады;
2) аударма жұмысын аудармашы атқарады да, ал ЭЕМ жәрдемші рөлін атқарады (мысалы, қажетті сөздің аудармасын сөздіктен тауып алу жұмысында).
– аудармашы адамды қатыстыру стратегиясы, яғни аударма жұмысының негізгі бөлігі компьютер арқылы орындалады да, ал аудармашы аударылған мәтінді өңдеуге, яғни аудару кезінің әр тұстарында (басында, ортасында, аяғында) редакциялық жұмысқа қатынасады.
Аудармашының сөйлеу әрекетінің ерекшелігі мынаған саяды: бастапқы нысан ретінде бір тілдегі мәтін алынады да, ал тілдік қызметтің нәтижесі ретінде – мағыналық жағынан аударылуға тиісті мәтінге барабар, басқа тілдегі мәтін болып табылады. Басқаша айтқанда, аталған нәтиже міндетті түрде мәтін түрінде ұсынылуы қажет.
Алғашқы машиналық аударма бағдарламалары 50-ші жылдары, компьютер пайда болғаннан кейін бірнеше жылдан соң дүниеге келді, бірақ дербес компьютерлердің кең таралуына дейін машиналық аударма тек ғылыми зерттеулердің қызықты объектісі болып қала берді.
Машиналық аударманың туған мерзімі 1947 жыл болып саналады. Осы жылы Рокфеллер фондының жаратылыстану ғылымдары бөлімшесінің директоры Уоррен Уивер Норберт Винерге хат жазады, оның хатында аударманың міндеті мәтіндерді деширлеумен міндетімен теңестіріледі. Соңғысы сол кездері электромеханикалық құрылғыларда орындала басталған болатын. Осы хаттан кейін көптеген дискуссиялар талқылана бастады, мақсаттар жөнінде меморандум шықты, соңында зерттеулер үшін қаражат бөлінді. 1952 жылы атақты математик Бар-Хиллелдің ұйымдастыруымен бірінші конференция өткізілді, мұнда зерттеушілер аудару жүйелері үшін тілдің көптеген синтаксистік ережелері, семантиканы сипаттау әдістері, морфологиялық құрылымдар, сөздік құрылымдары жөнінде пікір бөлісті.
Академиялық зерттеулердегі жетістіктер машиналық аударма мәселесіне коммерциялық қызығушылықтың пайда болуына септігін тигізді. АҚШ-та IBM фирмасы Джорджтаун университетімен бірігіп 1954 жылы 250 сөзден тұратын сөздікке, 6 синтаксистік ережеге негізделген және 49 алдын ала таңдалған сөйлемді аударатын жүйені көрсетті.
Бұл тәжірибе зерттеу серпілісінің басталуына әкелді: келесі 10 жыл ішінде АҚШ үкіметі және әскери мекемелері МА саласына 40 млн. доллар шамасында қаржы жұмсады.
Алайда сегіз жылдан кейін машиналық аударманы жүзеге асырудың мүмкін еместігі жөнінде қорытындыға келеді. Мұндай қорытындыны АҚШ-тың ұлттық ғылыми академиясының қолданбалы лингвистика бойынша арнайы комитеті (ALPAC) дайындаған зерттеуі бойынша жасайды. Онда автоматты аударма жүйесі сапасының жақсартылуы болашақта мүмкін емес делінеді.
Осындай тұжырымдама МА дамуына кері әсерін тигізді, осылайша, АҚШ-та және Еуропада зерттеулерді қаржыландыру тоқтатылды.
Тек 70-жылдардың соңында зерттеушілердің назары жасанды интеллект мәселелері мен компьютерлік ақпаратты іздеуге аударылғанда, машиналық аударманы дамыту қайта жандандырылады.
80-ші жылдардың басында ДК-лер кең тарала бастаған кезде МА экономикалық тиімді бола бастады.
Осы және одан кейінгі жылдары бағдарламалардың жетілдірілуі көптеген мәтін түрлерін айтарлықтай дәл аударуға мүмкіндік берді, алайда машиналық аударманың кейбір мәселелері бүгінгі күнге дейін шешілмей келеді.
90-шы жылдары дербес компьютерлердің мүмкіндік деңгейлері жоғарылап, сканер және OCR бағдарламалары шыққандықтан және Интернет/интранет (Internet/intranet) кең таралғандықтан, машиналық аударманың нағыз дамыған кезеңі басталады. Себебі машиналық аудармаға деген үлкен сұраныс туады.
«Машиналық аударма әлі де жеткілікті түрде жетілмегенімен, кез келген адам құжаттың негізгі мағынасын түсіне алады», — деп есептейді Alta Vista атты ірі Web іздеу жүйесінің директоры Луи Монье, ол онлайн режимде машиналық аудармамен тәжірибені бастаушы болып табылады.
Еуропалық Одақ соңғы 15 жыл ішінде бұл мәселені зерттеу үшін 70 млн.доллардан астам қаражат жұмсаса, жапондық мемлекеттік ұйымдар 200 млн.доллардан астам қаржы бөледі.
Кеңес Одағының ғалымдары да машиналық аударманы зерттеумен және дамытумен айналысқан. 1954 жылы МА бойынша алғашқы тәжірибені КСРО-да И.К.Бельская (лингвистикалық бөлік) және Д.Ю.Панов (бағдарламалық бөлік) КСРО-ның ғылыми Академиясының нақты механика мен есептеу техникасы Институтында жасады. Ал бірінші өндірісте қолдануға жарамды машиналық аударма алгоритмі және әмбебап есептеу машинасында ағылшын тілінен орыс тіліне аударатын машиналық аударма жүйесі Ю.А.Моторин басқарған ұйыммен жасалды. Бұдан кейін елдің көптеген ақпараттық институттарында, ғылыми және оқу орындарында қолданбалы лингвистика және машиналық аударма бөлімдері ашылды.
1974 жылы КСРО-да ғылыми-техникалық әдебиет пен құжаттарды Бүкілкеңестік аудару орталығы (БАО) машиналық аударма бойынша басты ұйым ретінде анықталды. БАО-да ағылшын тілінен орыс тіліне (АМПАР), неміс тілінен орыс тіліне (НЕРПА), француз тілінен орыс тіліне (ФРАП) аударатын машиналық аударма жүйелері, автоматты терминологиялық сөздіктер құрылды.
АМПАР жүйесі ұзақ уақыт бойы өндірістік қолданыста болды. Кейінірек оның негізінде дербес компьютерлерге арналған СПРИНТ неғұрлым тиімдірек машиналық аударма жүйесі жасалды.
Бүкілкеңестік аудару орталығында сондай-ақ орыс тілінен ағылшын тіліне аударатын АСПЕРА машиналық жүйесі дайындалды.
Өндірістік машиналық аударманы дайындауға Р.Г.Пиотровский бастаған «Статистика речи» атты ленинградтық жалпыкеңестік тобы үлкен үлестерін қосты. Сонымен қатар компьютерлік лингвистика бойынша Минскіде (А.В.Зубов), Кишиневте (В.А.Чижаковский), Махачкалада (А.И.Чапля), Шымкентте (К.Б.Бектаев), Самарқанда (Х.А.Арзикулов) және тағы басқа мамандар тобы өз үлестерін қосты.
«Статистика речи» тобының ғылыми-тәжірибелік зерттеулері негізінде Stylus, Socrat және басқа да қазіргі кезде коммерциялық қолданыста жүрген машиналық аударма жүйелері дайындалды.
Машиналық аударма жүйесін дамыту барысындағы негізгі қиындық мәтіннің мағыналық мазмұнын аудару және бастапқы мәтінның әр түрлі пәндік салаға қатысты болғандығында еді.

Машиналық аударма жүйелерінің жіктелуі
Машиналық аударма — мәтінді бір табиғи тілден екіншісіне арнайы компьютерлік бағдарлама көмегімен аудару үрдісі.
Кейде «машиналық» сөзінің орнына автоматты сөзі қолданылады, бұдан оның мағынасы өзгермейді. Алайда машиналық аударманы автоматтандырылған аудармамен шатыстырмаған жөн, оның мағынасы мүлдем басқа, ол тек адамға мәтінді аударуға көметеседі.
Машиналық аударма жүйелері үш категорияға жіктеледі:
 грамматикалық ережелер негізіндегі жүйелер (Rule-Based Machine Translation, RBMT);
 статистикалық жүйелер (Statistical Machine Translation, SMT);
 гибридті жүйелер, бұлар екі жүйенің артықшылықтарын біріктіреді.
Грамматикалық ережелер негізіндегі жүйелер — бастапқы және аударылатын тілдер туралы лингвистикалық ақпаратқа негізделген машиналық аударма жүйесі. Олар әр тілдің негізгі семантикалық, морфологиялық, синтаксистік заңдылықтарын қамтитын екі тілді сөздіктер мен грамматикалардан тұрады. Осы берілгендердің негізінде бастапқы мәтін біртіндеп, әр сөйлемі ретімен аударылады. Мұндай жүйелердің жұмыс принципі енгізілетін және шығарылатын сөйлемдерінің құрылымының байланысы болып табылады.
RBMT жүйелер үш топқа жіктеледі:
 сөз аударма жүйесі;
 трансферлік жүйелер (Transfer) – енгізілетін тілдің құрылымын шығарылатын тілдің грамматикалық құрылысына түрлендіреді;
 интерлингвистикалық жүйелер (Interlingua) – мағыналық сипаттаудың аралық тілі.
RBMT компоненттері:
 Лингвистикалық берілгендер қоры: – екі тілді сөздіктер; – атаулар файлы, транслитерациялар; – морфологиялық кестелер;
 Аудару модулі: – грамматикалық ережелер; – аудару алгоритмі.
RBMT жүйесінің артықшылықтары:
 синтаксистік және морфологиялық дәлдік;
 нәтиженің тұрақтылығы және болжамдылығы;
 пәндік облысқа сай баптау мүмкіндігі.
RBMT жүйелерінің кемшіліктері:
 жүйені құрудың күрделілігі және ұзақ уақыт алуы;
 лингвистикалық берілгендер қорын сүйемелдеу және белсендіріп отыру;
 аударма барысындағы «машиналық акцент».
Статистикалық машиналық аударма – мұнда аударма статистикалық модельдер негізінде генерацияланады, олардың параметрлері екі тілді мәтін корпусын талдаудан туындайды.
Статистикалық машиналық аударма туралы алғашқы идеяларды 1949 жылы Уоррен Уивер (Warren Weaver) жариялады. «Екінші толқын» — 1990 жылдардың басында IBM фирмасының ат салысуынмен болды. «Үшінші толқынға» Google, Microsoft, Language Weaver, Яндекс дайындаған жүйелер жатады.
Аударманың статистикалық моделі:
 сөздер бойынша (Word-based translation – WBT)
 сөздер тізбегі бойынша (Phrase-based translation – PBT)
 синтаксис бойынша (Syntax-based translation – SBT)
 иерархиялық сөздер тізбегі бойынша (Hierarchical phrase-based translation – HPBT)
SMT артықшылықтары:
 жылдам баптаулар
 аударманың жаңа бағыттарын оңай қосу
 аударма тегістігі
SMT кемшіліктері:
 параллель корпустар тапшылығы
 көптеген грамматикалық қателер
 аудару тұрақсыздығы
Машиналық аударма жүйелерін әзірлеушілер аударма сапасын арттыру үшін кейбір ережелерді енгізеді, осылайша статистикалық жүйелерді гибридты машиналық аудармаға айналдырады. Кейбір ережелерді қосу, яғни гибридті жүйеледі құру аударма сапасын біршама жақсартады.
Гибридті машиналық аударма – әр түрлі машиналық аударма тәсілдерінің интеграциясы болып табылады:
 Rule-based machine translation (RBMT) – ережелер негізіндегі машиналық аударма.
 Corpus-based machine translation (CBMT) – мәтіндер корпусына негізделген машиналық аударма.
 Example-based machine translation (EBMT) Мысалдарға негізделген машиналық аударма.
 Statistical machine translation (SMT) – Статистикалық машиналық аударма.
Гибридті архитектура көмегімен осы тәсілдердің артықшылықтарын біріктіру күтіледі.
Аударудың гибридті технологиясы параллель корпустар негізінде сөздік қорын автоматты түрде құрудың статистикалық әдістерін қолданады.
Гибридті технология архитектурасы «SMT және RBMT»
RBMT жүйе екі компонентпен толықтырылған: статистикалық өңдеуден кейінгі модуль және тілдік модельдер модулі.
HMT архитектурасы:
 Параллельді корпус;
 Оқыту;
 Тілдік модель;
 Өңдеуден кейінгі берілгендер;
 Синтез ережелері;
 Терминдер сөздігі.
Гибридті аударма артықшылықтары:
 Translation Memories негізіндегі жылдам автоматты баптаулар;
 Аударманың терминологиялық дәлдігі, стильдің біртектілігі;
 Қосымша пайдалы берілгендерді алу – екі тілді терминологиялық сөздік.

Мукушова Гульмира Кусайыновна, преподаватель специальных дисциплин, РГКП «Семипалатинский финансово-экономический колледж имени Рымбека Байсеитова», г. Семей, ВКО