این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
پردازش علائم و داده ها، جلد ۱۴، شماره ۳، صفحات ۱۲۷-۱۴۲

عنوان فارسی پیکره اعلام: یک پیکره استاندارد واحدهای اسمی برای زبان فارسی
چکیده فارسی مقاله تشخیص واحدهای اسمی یکی از مسائل مطرح در پردازش زبان طبیعی است. کاربرد عمده شناسایی واحدهای اسمی در سیستم‌های خلاصه‌ساز متون، استخراج اطلاعات، پرسش و پاسخ، ترجمه ماشینی و دسته‌بندی اسناد است. یکی از روش‌های تهیه سامانه تشخیص واحدهای اسمی، استفاده از روش‌های مبتنی بر پیکره است. این مقاله نحوه و مراحل تهیه پیکره اعلام – یک پیکره استاندارد با برچسب واحدهای اسمی برای زبان فارسی- را شرح می‌دهد. مجموعه تهیه‌شده با داشتن 13 برچسب واحدهای اسمی و حجم 250 هزار کلمه نیاز سیستم‌های برچسب‌گذاری خودکار در حوزه پردازش زبان طبیعی فارسی را برآورده می‌کند. با استفاده از این پیکره و بکارگیری روش یادگیری ماشین میدان تصادفی شرطی، سامانه‌ای برای شناسایی واحدهای اسمی جملات فارسی تهیه شده است که دارای دقت 94/92 درصد و فراخوانی 48/78 درصد می‌باشد. 
کلیدواژه‌های فارسی مقاله

عنوان انگلیسی A’laam Corpus: A standard corpus of Named Entity for Persian Language
چکیده انگلیسی مقاله Named entity recognition (NER) is a preprocessing module which is used in most NLP tasks such as summarization, information extraction, question-answering, machine translation and document classification. Corpus-based approaches have been proved to be well suited for named entity recognition. These approaches utilize annotated corpora so this paper is dedicated to describe the producing procedure of a standard named entity (NE) corpus - A'laam Corpus - for Persian Language. A'laam Corpus contains about 250,000 tokens tagged with 13 NE tags. To evaluate this corpus, a Persian NER system was trained Based on A'laam corpus. Using Conditional Random Fields (CRF) method, this system resulted in a 92.94% Precision and 78.48% Recall.
کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله شادی حسین نژاد |
پژوهشگاه توسعه فناوری های پیشرفته خواجه نصیرالدین طوسی

یاسر شکفته | yasser shekofteh
دانشکده مهندسی و علوم کامپیوتر، دانشگاه شهید بهشتی
سازمان اصلی تایید شده: دانشگاه شهید بهشتی (Shahid beheshti university)

طاهره امامی آزادی | tahereh emami azadi
پژوهشگاه توسعه فناوری های پیشرفته خواجه نصیرالدین طوسی


نشانی اینترنتی http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-306-3&slc_lang=fa&sid=fa
فایل مقاله اشکال در دسترسی به فایل - ./files/site1/rds_journals/1315/article-1315-566520.pdf
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده مقالات پردازش متن
نوع مقاله منتشر شده کاربردی
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات