دانشـكده مهندسـی
پایاننامه كارشناسی ارشد در رشته مهندسی کامپیوتر (نرم افزار)
عنوان:
مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی
استاد راهنما:
دكتر محمدهادی صدرالدینی
برای رعایت حریم خصوصی نام نگارنده درج نمی شود
تکه هایی از متن به عنوان نمونه :
چکیده:
اغلب رویکردهای نوین ترجمه در حوزه ترجمه ماشینی از جمله ترجمه ماشینی آماری، ترجمه ماشینی مبتنی بر مثال و ترجمه ماشینی ترکیبی از مجموعه متون همترجمه تحت عنوان پیکرههای متنی موازی به عنوان داده آموزشی اصلی استفاده میکنند. اما برای اغلب زبانها پیکرههای موازی به میزان بسیار کمی در دسترس هستند و یا مربوط به دامنه خاصی از نوشتجات میشوند. در طرف دیگر پیکرههای تطبیقی قرار دارند که مواد اولیه آنها به راحتی به دست میآید. پیکرههای تطبیقی شامل متون همترجمه نیستند اما در آن هر دو متن در دو زبان مختلف از نظر شباهت معیارهایی چون محتوا، تاریخ انتشار، عنوان و … با یکدیگر قابل تطبیق هستند.
پیکرههای تطبیقی شامل جملاتی هستند که میتوانند ترجمه خوبی برای یکدیگر باشند. هدف این رساله ساخت خودکار پیکره موازی با استخراج اینگونه جملات از پیکره تطبیقی است. مدلی که در این پژوهش ارائه میشود از سه مرحله اصلی تشکیل میشود: (1) انتخاب جفت جملات کاندیدای موازی بودن با استفاده از فیلتر نسبت طول جملات و فیلتر تعداد کلمات مشترک (2) انتخاب جفت جملات موازی با استفاده از طبقهبند آنتروپی بیشینه و در نظر گرفتن ویژگیهای مربوط به طول دو جمله، کلمات مشترک آنها و ویژگیهای مبتنی بر همترازی در سطح کلمه بین دو جمله (3) بالابردن دقت جفت جملات استخراج شده با انتخاب تنها یکی از جملات جفت شده با هر جمله. این کار را میتوان بوسیله محاسبه نزدیکی آن جمله با ترجمه جملات جفت شده از طرف مقابل توسط معیار TER و انتخاب نزدیکترین جمله انجام داد.
یک مطلب دیگر :
در انتها کارآیی مدل ارائه شده در دو بخش (1) ارزیابی طبقهبند آنتروپی بیشینه طراحی شده و (2) ارزیابی میزان سودمندی جفت جملات موازی استخراج شده در بهبود کیفیت ترجمه ماشینی بررسی میشود.
فصل اول: مقدمه
1-1- مقدمه
به دلیل افزایش ارتباطات متقابل منطقهای و نیاز برای تبادل اطلاعات، تقاضا برای ترجمه زبان بسیار افزایش یافته است. بسیاری از نوشتجات نیاز به ترجمه دارند از جمله مستندات علمی و فنی، دستورالعملهای راهنما، مستندات حقوقی، کتابهای درسی، بروشورهای تبلیغاتی، اخبار روزنامهها و غیره؛ که ترجمه برخی از آنها سخت و چالش برانگیز است اما اکثرا خسته کننده و تکراری هستند و در عین حال به انسجام و دقت نیاز دارند. برآوردن نیازهای روز افزون ترجمه برای مترجمان حرفهای دشوار است. در چنین موقعیتی ترجمه ماشینی میتواند به عنوان یک جایگزین به کار گرفته شود.
ترجمه ماشینی بعد از 65 سال یکی از قدیمیترین کاربردهای کامپیوتر است. در طول سالها، ترجمه ماشینی مرکز توجه تحقیقات زبانشناسان، روانشناسان، فیلسوفان، دانشمندان و مهندسان علم کامپیوتر بوده است. اغراق نیست اگر بگوییم کارهای جدید در حوزه ترجمه ماشینی، به طور قابل ملاحظهای در توسعه زمینههایی نظیر زبان شناسی رایانهای، هوش مصنوعی و پردازش زبانهای طبیعی برنامهگرا، مشارکت کرده است.
ترجمه ماشینی را میتوان به این صورت تعریف کرد: “ترجمه از یک زبان طبیعی (زبان مبدأ) به زبان دیگر (زبان مقصد) با استفاده از سیستمهای کامپیوتری شده و به همراه یا بدون کمک انسان”. کار پژوهشی در حوزه ترجمه ماشینی به هدف بزرگ ترجمه تمام خودکار با کیفیت بالا (قابل نشر) محدود نمیشود. غالبا ترجمههای ناهموار برای بازبینی موضوعات خارجی کافی است. تلاشهای اخیر، در جهت ساخت کاربردهای محدودی در ترکیب با تشخیص گفتار به خصوص برای دستگاههای دستی میباشند. ترجمه ماشینی میتواند به عنوان پایهای برای ویرایشهای بعدی به کار گرفته شود، مترجمها معمولا با ابزارهایی نظیر حافظههای ترجمه که از فناوری ترجمه ماشینی استفاده میکنند اما آنها را در کنترل خود قرار میدهند، استفاده میکنند.
ترجمه ماشینی یکی از حوزههای پژوهشی «زبانشناسی رایانهای» است. تا کنون روشهای مختلفی جهت خودکار کردن ترجمه ابداع شده است، که در نوشتجات حوزه ترجمه ماشینی به صورتهای مختلفی دستهبندی شدهاند. شکل 1-1 انواع روشهای ترجمه ماشینی موجود را در قالب دستهبندی که در [1] آمده است نشان میدهد.
1-1-1- ترجمه ماشینی مبتنی بر فرهنگ لغت
این نوع ترجمه ماشینی مبتنی بر مدخلهای فرهنگ لغت است؛ و در آن از معادل کلمه جهت تولید ترجمه استفاده میشود. اولین نسل ترجمه ماشینی (از اواخر دهه 1940 تا اواسط دهه 1960) کاملا بر مبنای فرهنگ لغتهای الکترونیک بودند. این روش همچنان تا حدی در ترجمه عبارات و نه جملات مفید است. اکثر روشهایی که بعدا توسعه داده شدند کم یا بیش از فرهنگ لغات دوزبانه بهره میگیرند [1].
2-1-1- ترجمه ماشینی مبتنی بر قانون
[جمعه 1399-08-09] [ 04:52:00 ب.ظ ]
|