Naujienos Pagalba Apie Kodėl verta registruotis? Atsiliepimai MV iliustracija    

MV iliustracija

PoweredBy
Skip Navigation Links
Vertimas
Registruotiems vartotojams
Priedai


Grupavimas

Prasidėjus automatinio vertimo procesui, pirmiausia nustatoma, kurie duomenų simboliai yra skyrybos ženklai, kurie – teksto simboliai. Teksto grupavimo (chunking) metu žodžiai atskiriami nuo skyrybos ženklų (kablelių, kabučių ir pan.), taip pat nustatomos santrumpos (pvz., angl. „i.e.“, „ex.“, liet. „t. y.“, „žr.“).
Toliau gali būti taikomi įvairūs teksto vertimo principai. Paprasčiausias (bet ir netiksliausias) būdas – tiesioginis vertimas, kai naudojamasi žodynu ir kiekvienas žodis tiesiog pakeičiamas antruoju poros žodžiu. Arba sistema pirmiausia gali bandyti suvokti teksto reikšmę ir kontekstą – atlikti teksto morfologinę ir sintaksinę analizę. Šių procesų metu sukaupta lingvistinė informacija svarbi ir keitimo tipo (transfer-based), ir automatinio vertimo su tarpine kalba (interlingua machine translation) procesams, nes gramatiškai jie glaudžiai susiję. Taikant priešingą, gilesniu teksto prasmės suvokimu grindžiamą metodiką, naudojami pagal pavyzdį arba statistiniais metodais sudaryti dvikalbiai tekstų sąrašai (bilingual corpora).

Žodžio kamieno / šaknies nustatymas

Žodžio kamieno / šaknies nustatymas (stemming) – morfologinė analizė, atliekama tada, kai bandymas rasti pagrindinę žodžio formą ar kamieną jau atliktas. Sistema pagal žodyno įrašus nustato žodžio kamieną ir galūnę – vadinamąją kaitybos paradigmą (inflectional paradigm). Ji teikia naudingos informacijos apie žodžio linksnį, skaičių, asmenį, giminę, žodžių klasę, nuosaką, laiką ar veikslą. Kamieno / šaknies nustatymas – paprastesnis iš dviejų metodų, nes žodžio kaityba nustatoma tik pagal žodyno įrašą ir įtraukiama į morfologinę lentelę. Tačiau šis procesas neatsižvelgia į kontekstą, kuriame žodis pavartotas, ir labai dažnai gali pasiūlyti netinkamą vertimą. Tačiau jis kartais būna naudingas automatinio vertimo pagal žodynus (dictionary-based machine translation) metu. Sudėtingesnė teksto analizė atliekama lemos nustatymo metu.

Lemos nustatymas

Lemos nustatymas (lemmatisation) – morfologinės analizės procesas, kuris atsižvelgia į sakinį, iš kurio paimtas nagrinėjamas žodis, todėl gali tiksliau nustatyti žodžio kaitybos paradigmos (t. y. galūnės) vietą morfologinėje lentelėje.
Panagrinėkime du sakinius:
„Time flies like an arrow“ (laikas lekia kaip strėlė)
ir
„Fruit flies like an apple“ (vaisinės muselės mėgsta obuolius).
Šie du sakiniai labai panašūs, bet jų žodžių „flies“ ir „like“ reikšmės skirtingos. Pirmajame sakinyje „flies“ yra veiksmažodis, apibūdinantis laiko tėkmę, o žodis „like“ nusako, kaip lekia laikas, ir yra prieveiksmis. Antrajame sakinyje žodis „flies“ yra daiktavardis, o „like“ – veiksmažodis, nes kalbama apie maistą. Kamieno / šaknies nustatymo procesas negalėtų atpažinti skirtingų žodžių „flies“ ir „like“ reikšmių ir kaip rezultatą tikriausiai pateiktų dažniausiai vartojamas reikšmes. Kita vertus, lemos nustatymo procesas, atlikęs žodžio analizę pagal sakinio kontekstą, tikriausiai pateiktų geresnį rezultatą. Kartu su statistiniais metodais lemos nustatymo priemonė atpažintų, kad žodžiai 'fruit flies' dažnai vartojami kartu ir kad šie du kartu vartojami žodžiai turi konkrečią reikšmę kaip žodžių samplaika (collocation).

Sintaksinė analizė

Žodžiai, kurių analizė atlikta lemos nustatymo proceso metu, perduodami sintaksinei analizei kaip abstrakčios leksemos. Tada ši leksemų seka analizuojama ir nustatoma jų gramatinė struktūra formaliosios gramatikos požiūriu. Sintaksinė analizė yra neatsiejama keitimo tipo ir automatinio vertimo su tarpine kalba (interlingual machine translation) dalis.

Keitimo tipo automatinis vertimas

Keitimo tipo automatinio vertimo procesas aprėpia morfologinę ir sintaksinę analizę. Pagal šių metodų rezultatus jis kuria abstraktų pradinio teksto vaizdą, kuris paskui iššifruojamas į kalbą, į kurią verčiama. Abstraktumo čia mažiau nei dvikalbio automatinio vertimo atveju, o žodžio ar frazės ekvivalentų gal būti ieškoma kalbos, į kurią verčiama, žodynuose.

Tarpinė kalba

Automatinis vertimas su tarpine kalba (interlingua machine translation) siekia sukurti labai abstraktų teksto vaizdą, kurį vėliau galima versti į bet kurią kitą kalbą. Šis nuo kalbos nepriklausomas vaizdas sukuriamas taikant apdorojimo metodus, kurie plačiai naudojasi žodynais su morfologine, sintaksine ir semantine informacija, taip pat dideliais taisyklių rinkiniais. Tarpinės kalbos priemonės sukuria dar abstraktesnį teksto vaizdą nei sistemos, kuriose taikomas keitimo principas. Šiuo metu veikiančių sistemų su tarpine kalba dar nėra.

Tiesioginis automatinis vertimas

Vienas iš paprasčiausių – tiesioginis automatinis vertimas (direct machine translation) atliekamas ieškant įrašų dvikalbiuose žodynuose.
Šio vertimo tikslumą galima padidinti įtraukus kamieno / šaknies nustatymo ir lemos nustatymo priemones, kurios nustato teisingą pagrindinę žodžio formą, šaknį arba lemą, taip pat kaitybą, kuri būdinga žodžiui nagrinėjamo sakinio kontekste arba kituose kontekstuose.
Paprastas žodžio keitimas kitu poros žodžiu gali būti naudingas verčiant pavienių žodžių ar frazių sąrašus (pvz., prekių sąrašus, katalogus), taip pat naudojamas rašybos tikrinimo ir elektroninių žodynų taikomosiose programose.
Pagrindinė žodžio forma ir morfologinių lentelių informacija tiesiogiai keičiama rastomis ekvivalenčiomis kitos kalbos reikšmėmis. Jei šio žodžio vertimai galėtų būti kelios surastos reikšmės, labiausiai tikėtinas teisingas vertimas gali būti nustatomas statistiniais metodais. Statistiniai metodai plačiai taikomi įvairiose automatinio vertimo metodikose, tačiau visų pirma paminėtini tais atvejais, kai naudojami dvikalbiai tekstų sąrašai.

Automatinis vertimas pagal pavyzdį

Automatinis vertimas pagal pavyzdį ir statistinis automatinis vertimas panašūs tuo, kad čia kaip vertimo proceso informacijos šaltinis naudojami dvikalbiai tekstų sąrašai. Tačiau skirtumas tas, kad pirmuoju būdu verčiamas sakinys išskaidomas į smulkesnes frazes, kurių ieškoma dvikalbių tekstų sąrašuose, o surasti rezultatai vėl sujungiami į sakinius.

Statistinis automatinis vertimas

Įvairiose automatinio vertimo metodikose plačiai taikomi statistiniai metodai, tačiau visų pirma reikėtų paminėti jų taikymą su dvikalbiais tekstų sąrašais. Šiuos sąrašus sudaro iš anksto išversti tekstai, sukaupti kaip pavyzdžiai iš Europos Sąjungos ar Kanados parlamentų, kuriuose vartojama ne viena kalba, posėdžių stenogramų.
Jei vertimo mechanizmas sukurtas pagal šį tiesioginio vertimo principą, nebereikia nei gilesnio teksto suvokimo, nei morfologinės, sintaksinės ar net semantinės teksto analizės, kuri būtų atliekama taikant kitą vertimo principą. Šios nesudėtingos metodikos pagrindas yra duomenų teksto lyginimas su dideliuose tekstų sąrašuose randamais sakiniais ir frazėmis.
Radęs visus atitikmenis, vertimo mechanizmas pagal statistinę informaciją randa labiausiai tikėtiną paskirų žodžių ar frazių atitikmenį. Be to, statistiniai metodai gali būti taikomi sudarant naujus sakinius iš senųjų atitinkamai keičiant žodžius.
Jei žodžių junginys randamas dažniau, nei turėtų pasitaikyti atsitiktinai, tada nagrinėjama, ar šie žodžiai nesudaro samplaikos. Pavyzdys galėtų būti angliškos frazės „red wine“ (raudonasis vynas) ir „purple wine“ (įmonės pavadinimas).

Apsilankykite: