این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
پژوهشنامه پردازش و مدیریت اطلاعات، جلد ۳۲، شماره ۴، صفحات ۱۱۴۳-۱۱۷۰

عنوان فارسی طبقه‌بندی انواع دادگان موردنیاز و روش‌های خطایابی و استانداردسازی متنی
چکیده فارسی مقاله یکی از پایه‌ای‌ترین مراحل پردازش‌ خودکار متن، تشخیص خطاهای املایی و استانداردسازی نویسه‌ها است. بدون گذر از این مرحله، ذخیره‌سازی مستندات متنی با مشکلات متعددی مواجه می‌شود که این امر موجب اختلال در بازیابی ماشینی آنها می‌گردد. بدین‌ترتیب، متخصصین حوزه‌های پردازش زبان طبیعی و زبان‌شناسی رایانشی همواره در تلاش هستند تا با ارائه‌ی روش‌ها و الگوریتم‌های مطلوب انواع داده‌ها را در بوته‌ی پردازش قرار داده تا به داده‌ی استاندارد دست یابند. در زبان انگلیسی و برخی زبانهای دیگر، تحقیقات متعددی در این زمینه انجام شده است که به دنبال آن زبان فارسی نیز در این زمینه مورد تحقیق قرار گرفته است. این تحقیقات متعدد گاها در حد پژوهش به قوت خود باقی مانده و گاها در قالب محصول عرضه شده است. مقاله‌ی حاضر به طبقه‌بندی انواع روش‌ها و دادگان موردنیاز در این تحقیقات متعدد پرداخته و فرایند هرکدام از آنها را به طور خاص و نحوه‌ی سنجش میزان دقت پردازش آنها را به طور عام شرح می‌دهد. این مقاله همچنین نحوه‌ی عملکرد سامانه‌های تک‌زبانه‌ی فارسی را توصیف نموده و به نحوه‌ی برخورد آنها با چالش‌های زبان فارسی اشاره می‌کند. 
کلیدواژه‌های فارسی مقاله

عنوان انگلیسی Categorization of Various Essential Datasets and Methods for Textual Spelling Detection and Normalization
چکیده انگلیسی مقاله One of the most primary phases of automatic text processing is spelling error detection and grapheme normalization. Storing textual documents faces several problems without passing this phase, which causes a disturbance in retrieving the documents automatically. Therefore, specialists in the fields of natural language processing and computational linguistics usually make an attempt to sample various data through presenting ideal methods and algorithms in order to reach the normalized data. Several researches have been conducted on English and some other languages, which have been followed by a certain amount of researches on Farsi too. Sometimes, these several researches have remained to be a pure study and sometimes they have been released as a product. This paper carries out the categorization of the different methods and essential datasets in these researches and depicts each category individually and the evaluation measurements methods generally. Moreover, it describes the performance of the monolingual Farsi systems and the way they meet the Farsi challenges.
کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله ملوک السادات حسینی بهشتی | molouk sadat hosseini beheshti
iranian research institute for information science and technology irandoc
تهران ـ خیابان انقلاب ـ چهارراه فلسطین ـ ساختمان شماره 1090 ـ پژوهشگاه علوم و فنّاوری اطلاعات ایران
سازمان اصلی تایید شده: پژوهشگاه علوم و فناوری اطلاعات ایران

هادی عبدی قویدل | hadi abdi ghavidel
sharif university of technology
تهران ـ خیابان انقلاب ـ چهارراه فلسطین ـ ساختمان شماره 1090 ـ پژوهشگاه علوم و فنّاوری اطلاعات ایران
سازمان اصلی تایید شده: پژوهشگاه علوم و فناوری اطلاعات ایران


نشانی اینترنتی http://jipm.irandoc.ac.ir/browse.php?a_code=A-10-3388-1&slc_lang=fa&sid=fa
فایل مقاله اشکال در دسترسی به فایل - ./files/site1/rds_journals/1504/article-1504-438383.pdf
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده فناوری اطلاعات
نوع مقاله منتشر شده مروری
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات