این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
شنبه 29 آذر 1404
پردازش علائم و داده ها
، جلد ۱۲، شماره ۲، صفحات ۵۵-۷۲
عنوان فارسی
استخراج پیکره موازی از اسناد قابلمقایسه برای بهبود کیفیت ترجمه در سیستمهای ترجمه ماشینی
چکیده فارسی مقاله
امروزه با گسترش وسائل ارتباط عمومی و به خصوص شبکه جهانی اینترنت، نیاز به عملیات ترجمه خودکار به صورت چشمگیری افزایش یافته است. یکی از مطرحترین روشهای ترجمه ماشینی، روش آماری است. پارامترهای سیستم ترجمه ماشینی آماری با استفاده از مجموعه بزرگی از دادگان آموزشی (پیکره موازی دو زبانه) تخمین زده میشود؛ اما در برخی زبانها هنوز مسئله نیاز پایهای سیستم ترجمه ماشینی آماری یعنی پیکرههای متنی بزرگ موازی برطرف نشده است. برای رفع این مشکل روشی پیشنهادی برای بهبود کیفیت پیکرههای مستخرج از اسناد قابل مقایسه و در نتیجه بهبود کیفیت سیستم ترجمه ماشینی ارائه شده است. از آنجایی که در اکثر متون قابل مقایسه دادههای موازی نه به صورت جمله، بلکه به صورت قطعات زیرجملهای ظاهر میشوند، روش پیشنهادی سعی در استخراج قطعات موازی به صورت بلوک با استفاده از مجموعهای از ویژگیها دارد که این ویژگیها عبارتاند از طول عبارت، امتیاز شباهت لگاریتمی، شیب مسیر ترازبندی در بلوک، پراکندگی شیب قطعات تشکیلدهنده بلوک، مربعی بودن بلوک و درصد حضور کلمات هم ترجمه در بلوک. طبق ارزیابیهای انجام شده روش پیشنهادی دارای کارایی مناسبی است و علاوه بر اینکه از نظر دقت و بازخوانی از روشهای موجود استخراج قطعه پیشی گرفته است، دادگان مستخرج از اجرای این روش روی بخشی از پیکره قابل مقایسه موجود، کارایی سیستم ترجمه ماشینی پایه را برای دادگان آزمون مختلف از 0.33 تا 1.4 واحد بلو افزایش داده است.
کلیدواژههای فارسی مقاله
عنوان انگلیسی
Extracting parallel corpora from web comparable documents to improve the quality of an English-Farsi translation system
چکیده انگلیسی مقاله
Data used for training statistical machine translation method are usually prepared from three resources: parallel, non-parallel and comparable text corpora. Parallel corpora are an ideal resource for translation but due to lack of these kinds of texts, non-parallel and comparable corpora are used either for parallel text extraction. Most of existing methods for exploiting comparable corpora look for parallel data at the sentence level. However, we believe that very non-parallel corpora have none or few good sentence pairs most of their parallel data exists at the sub-sentential level. The base system is Manteanu 2006 fragment extraction system implemented in C# and the proposed system is implemented based on extracting fragment blocks from input related sentences using score calculated from special features such as fragment length, LLR score, relevance path specification in the block and translation coverage percent. Evaluations indicates that proposed method outperforms the base system and the improved base system.
کلیدواژههای انگلیسی مقاله
نویسندگان مقاله
زینب رحیمی | zeinab rahimi
no 12,bishe alley, north sohrevardi avenue,tehran,iran
تهران-خیابان سهروردی شمالی-بنبست بیشه-پلاک 12-پژوهشکده هوشمند علائم
محمدحسین ثمنی | mohammad hossein samani
no 12,bishe alley, north sohrevardi avenue,tehran,iran
تهران-خیابان سهروردی شمالی-بنبست بیشه-پلاک 12-پژوهشکده هوشمند علائم
شهرام خدیوی | shahram khadivi
hafez avenu,tehran,iran
تهران-خیابان حافظ-دانشگاه صنعتی امیرکبیر-دانشکده مهندسی کامپیوتر
سازمان اصلی تایید شده
: دانشگاه صنعتی امیرکبیر (Amirkabir university of technology)
نشانی اینترنتی
http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-450-1&slc_lang=fa&sid=fa
فایل مقاله
اشکال در دسترسی به فایل - ./files/site1/rds_journals/1315/article-1315-233356.pdf
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
مقالات پردازش متن
نوع مقاله منتشر شده
پژوهشی
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات