این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
پردازش علائم و داده ها، جلد ۱۰، شماره ۲، صفحات ۶۹-۸۶

عنوان فارسی تعیین مرز و نوع عبارات نحوی در متون فارسی
چکیده فارسی مقاله واحدسازی، از مهمترین مسائل در پردازش زبان‌های طبیعی است که عبارت است از فرایند تقسیم متن به واحدهای معنادار نظیر واژه، عبارت نحوی، جمله و غیره. واحدسازی گروه‌های نحوی یک متن، از جمله وظایف واحدسازی متن محسوب می‌شود که در بسیاری از کارهای پردازش زبان طبیعی، نظیر سیستم‌های ترجمه‌ی ماشینی، استخراج اطلاعات، پرسش‌وپاسخ و سیستم‌های تبدیل متن به گفتار، می‌تواند به عنوان پیش‌پردازشی مهم، حضور داشته باشد. واحدسازی عبارات نحوی، در هر زبان، متناسب با ویژگی‌های نوشتاری آن زبان دارای مشکلات و پیچیدگی‌هایی است. زبان فارسی به‌دلیل وجود رسم‌الخط‌های مختلف، جملات بدون ترتیب، افعال مرکب، ابهامات معنایی و عدم نمایش مصوت‌ها دارای مشکلاتی است. در این مقاله روشی مبتنی بر روش‌های آماری و یادگیری و اطلاعات و ویژگی‌های دستور زبانی جهت تشخیص مرز و نوع گروه‌های نحوی در متون فارسی فاقد علایم سجاوندی ارائه شده است که در آن از روش‌های یادگیری ماشین بردار پشتیبان و میدان تصادفی شرطی استفاده شده است. در روش ارائه شده ویژگی‌های مختلف زبانی استخراج و مورد بررسی قرار گرفته است. بهترین دقت به دست آمده توسط این سیستم، 02/84% بر اساس معیار F و 45/87%، بر اساس تعداد برچسب‌های صحیح به کل در تعیین مرز، و 04/78%، در تعیین مرز و نوع به صورت توأم، بوده است.. 
کلیدواژه‌های فارسی مقاله

عنوان انگلیسی Phrase chunking in Persian texts
چکیده انگلیسی مقاله Text tokenization is the process of tokenizing text to meaningful tokens such as words, phrases, sentences, etc. Tokenization of syntactical phrases named as chunking is an important preprocessing needed in many applications such as machine translation information retrieval, text to speech, etc. In this paper chunking of Farsi texts is done using statistical and learning methods and the grammatical characteristics of Farsi texts. Many features and labeling methods are examined one by one and the best features and labeling techniques are used for the detection of syntactic phrases and their boundaries. Several machine learning techniques including Support Vector Machine and Conditional Random Fields are used as classifier in our experiments. The impact of the size of training texts on chunking performance was studied as well. Using the proposed methods in this paper, a performance of 84.02% was obtained for detection of phrase boundaries and 78.04% for detection of both phrase boundaries and phrase type
کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله آرمین سلیمی بدر | salimi badr
تهران - بزرگراه صدر - ابتدای خیابان کامرانیه جنوبی - کوچه آبشار-پلاک 4

محمدمهدی همایون پور | mohammad mehdi homayounpour
تهران، خیابان حافظ، دنشگاه صعتی امیرکبیر، دانشکده مهندسی کامپیوتر و فناوری اطلاعات


نشانی اینترنتی http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-292-1&slc_lang=fa&sid=fa
فایل مقاله اشکال در دسترسی به فایل - ./files/site1/rds_journals/1315/article-1315-233388.pdf
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده مقالات پردازش متن
نوع مقاله منتشر شده پژوهشی
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات