سامانه اطلاعات پژوهشی ایران

این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند

جمعه 28 آذر 1404


پژوهشنامه پردازش و مدیریت اطلاعات، جلد ۳۲، شماره ۴، صفحات ۱۱۴۳-۱۱۷۰


عنوان فارسی	طبقه‌بندی انواع دادگان موردنیاز و روش‌های خطایابی و استانداردسازی متنی

چکیده فارسی مقاله	یکی از پایه‌ای‌ترین مراحل پردازش‌ خودکار متن، تشخیص خطاهای املایی و استانداردسازی نویسه‌ها است. بدون گذر از این مرحله، ذخیره‌سازی مستندات متنی با مشکلات متعددی مواجه می‌شود که این امر موجب اختلال در بازیابی ماشینی آنها می‌گردد. بدین‌ترتیب، متخصصین حوزه‌های پردازش زبان طبیعی و زبان‌شناسی رایانشی همواره در تلاش هستند تا با ارائه‌ی روش‌ها و الگوریتم‌های مطلوب انواع داده‌ها را در بوته‌ی پردازش قرار داده تا به داده‌ی استاندارد دست یابند. در زبان انگلیسی و برخی زبانهای دیگر، تحقیقات متعددی در این زمینه انجام شده است که به دنبال آن زبان فارسی نیز در این زمینه مورد تحقیق قرار گرفته است. این تحقیقات متعدد گاها در حد پژوهش به قوت خود باقی مانده و گاها در قالب محصول عرضه شده است. مقاله‌ی حاضر به طبقه‌بندی انواع روش‌ها و دادگان موردنیاز در این تحقیقات متعدد پرداخته و فرایند هرکدام از آنها را به طور خاص و نحوه‌ی سنجش میزان دقت پردازش آنها را به طور عام شرح می‌دهد. این مقاله همچنین نحوه‌ی عملکرد سامانه‌های تک‌زبانه‌ی فارسی را توصیف نموده و به نحوه‌ی برخورد آنها با چالش‌های زبان فارسی اشاره می‌کند.

کلیدواژه‌های فارسی مقاله

عنوان انگلیسی	Categorization of Various Essential Datasets and Methods for Textual Spelling Detection and Normalization

چکیده انگلیسی مقاله	One of the most primary phases of automatic text processing is spelling error detection and grapheme normalization. Storing textual documents faces several problems without passing this phase, which causes a disturbance in retrieving the documents automatically. Therefore, specialists in the fields of natural language processing and computational linguistics usually make an attempt to sample various data through presenting ideal methods and algorithms in order to reach the normalized data. Several researches have been conducted on English and some other languages, which have been followed by a certain amount of researches on Farsi too. Sometimes, these several researches have remained to be a pure study and sometimes they have been released as a product. This paper carries out the categorization of the different methods and essential datasets in these researches and depicts each category individually and the evaluation measurements methods generally. Moreover, it describes the performance of the monolingual Farsi systems and the way they meet the Farsi challenges.

کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله	ملوک السادات حسینی بهشتی \| molouk sadat hosseini beheshti iranian research institute for information science and technology irandoc تهران ـ خیابان انقلاب ـ چهارراه فلسطین ـ ساختمان شماره 1090 ـ پژوهشگاه علوم و فنّاوری اطلاعات ایران سازمان اصلی تایید شده: پژوهشگاه علوم و فناوری اطلاعات ایران هادی عبدی قویدل \| hadi abdi ghavidel sharif university of technology تهران ـ خیابان انقلاب ـ چهارراه فلسطین ـ ساختمان شماره 1090 ـ پژوهشگاه علوم و فنّاوری اطلاعات ایران سازمان اصلی تایید شده: پژوهشگاه علوم و فناوری اطلاعات ایران

نشانی اینترنتی	http://jipm.irandoc.ac.ir/browse.php?a_code=A-10-3388-1&slc_lang=fa&sid=fa
فایل مقاله	اشکال در دسترسی به فایل - ./files/site1/rds_journals/1504/article-1504-438383.pdf
کد مقاله (doi)
زبان مقاله منتشر شده	fa
موضوعات مقاله منتشر شده	فناوری اطلاعات
نوع مقاله منتشر شده	مروری

برگشت به: صفحه اول پایگاه \| نسخه مرتبط \| نشریه مرتبط \| فهرست نشریات

ارسال پیام برخط

در صورت مشاهده هر نوع اشکال در داده های پایگاه و یا برای ارسال نظرات و پیشنهاد های خود می توانید با پر کردن فرم تماس ما را در جریان قرار دهید.
برای پر کردن فرم تماس اینجا را کلیک کنید.

آمار پایگاه

نمایه شده در ISI 135

نمایه شده در PubMed 109

نمایه شده در Scopus 192

کاربران برخط 190

بازدید امروز 18845

بازدید کل 39454282

اطلاعات تماس

آدرس : تهران، سعادت آباد، بلوار پاکنژاد شمالی، بالاتر از میدان سرو، نبش کوچه ندا، پلاک ۶۸، ساختمان جاوید، واحد ۱۶

پست الکترونیک: yektaweb-AT-gmail.com

توجه

کلیه حقوق این وب سایت و مطالب آن متعلق به شرکت یکتاوب بوده و استفاده از مطالب آن با ذکر منبع بلامانع است
طراحی و برنامه نویسی: یکتاوب افزار شرق