این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
پردازش علائم و داده ها، جلد ۱۶، شماره ۳، صفحات ۱۳۰-۱۱۷

عنوان فارسی طراحی و پیاده‌سازی سامانه شناسایی و تصحیح خطای املایی متون فارسی مبتنی بر معنای واژگان
چکیده فارسی مقاله طراحی و پیاده‌سازی ابزارهای پردازش زبان طبیعی فارسی، بر اساس ویژگی‌های خاص این زبان، همواره با چالش‌هایی مواجه است. با توجه به این‌که  سامانه‌های تصحیح املای خودکار در حوزه‌های مختلفی از قبیل تصحیح پرس‌و‌جوها، بررسی املای واژگان در اینترنت و برنامه‌های ویراستاری متنی کاربرد دارد، لازم است تا برای زبان فارسی نیز نرم‌افزارهای مناسب ایجاد شود. در این مقاله ابتدا مقدمه‌ای در‌خصوص انواع خطاهای املایی، راه‌کارهای شناسایی و تصحیح خطاها شرح داده شده و سپس به معرفی سامانه پارسی‌اسپل که بر اساس معنای واژگان فارسی، خطاها را شناسایی و تصحیح می‌کند، می‌پردازیم. با توجه به نتایج حاصله از ارزیابی سامانه پارسی‌اسپل با سایر نرم‌افزارهای  مشابه رایج، مشخص شد که سامانه پارسی اسپل به‌عنوان ابزار مؤثری جهت شناسایی و پیشنهاد واژه‌های صحیح برای خطاهای غیر‌واژه و واژه حقیقی است. در مراحل شناسایی و پیشنهاد، معیارF- به‌صورت معناداری بهبود یافته است. همچنین نتایج ارزیابی نشان داده که سامانه پارسی اسپل خطاهای واژه حقیقی بیشتری را شناسایی کرده و قادر به ارائه  و پیشنهاد واژه‌های جایگزین صحیح، برای واژه‌های نادرست است و مقدار معیار بازخوانی در شناسایی خطای واژه حقیقی به‌صورت معناداری بیشتر از نرم‌افزارهای رقیب آن است.  
کلیدواژه‌های فارسی مقاله

عنوان انگلیسی Design and implementation of Persian spelling detection and correction system based on Semantic
چکیده انگلیسی مقاله Persian Language has a special feature (grapheme, homophone, and multi-shape clinging characters) in electronic devices. Furthermore, design and implementation of NLP tools for Persian are more challenging than other languages (e.g. English or German). Spelling tools are used widely for editing user texts like emails and text in editors.  Also developing Persian tools will provide Persian programs to check spell and reduce errors in electronic texts. In this work, we review the spelling detection and correction methods, especially for the Persian language. The proposed algorithm consists of two steps. The first step is non-word error detection and correction by intelligent scoring algorithm. The second step is read-word error detection and correction.  We propose a spelling system "Perspell" for Persian non-word and real-word errors using a hybrid scoring system and optimized language model by lexicon. This scoring system uses a combination of lexical and semantic features optimized by learning dataset. The weight of these features in scoring system is also optimized by learning phase. Perspell is compared with known Persian spellchecker systems and could overcome them in precision of detection and correction. Accordingly, the proposed Persian spell-checker system can also detect and correct real-word errors. This open challenge category of spelling is a complicated and time consuming task in Persian as well as, assessing the proposed method, the F-measure metric has improved significantly (about 10%) for detecting and correcting Persian words. In the proposed method, we used Persian language model with bootstrapping and smoothing to overcome data sparseness and lack of data. The bootstrapping is developed using a Persian dictionary and further we used word sense disambiguation to select the correct related replaced word.  
کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله محمدباقر دستغیب | M.B. Dastgheib
Ricest
گروه پژوهشی طراحی و عملیات سیستم‌ها، مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری

سارا کلینی | Sara koleini
Ricest
کارشناس خبره مهندسی شبکه، مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری

سید مصطفی فخراحمد | S.M. Fakhrahmad
Shiraz University
بخش علوم و مهندسی کامپیوتر، دانشکده برق و مهندسی کامپیوتر


نشانی اینترنتی http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-1290-2&slc_lang=fa&sid=1
فایل مقاله اشکال در دسترسی به فایل - ./files/site1/rds_journals/1315/article-1315-2198287.pdf
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده مقالات پردازش متن
نوع مقاله منتشر شده کاربردی
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات