این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
جمعه 28 آذر 1404
پژوهشنامه پردازش و مدیریت اطلاعات
، جلد ۳۲، شماره ۴، صفحات ۱۱۴۳-۱۱۷۰
عنوان فارسی
طبقهبندی انواع دادگان موردنیاز و روشهای خطایابی و استانداردسازی متنی
چکیده فارسی مقاله
یکی از پایهایترین مراحل پردازش خودکار متن، تشخیص خطاهای املایی و استانداردسازی نویسهها است. بدون گذر از این مرحله، ذخیرهسازی مستندات متنی با مشکلات متعددی مواجه میشود که این امر موجب اختلال در بازیابی ماشینی آنها میگردد. بدینترتیب، متخصصین حوزههای پردازش زبان طبیعی و زبانشناسی رایانشی همواره در تلاش هستند تا با ارائهی روشها و الگوریتمهای مطلوب انواع دادهها را در بوتهی پردازش قرار داده تا به دادهی استاندارد دست یابند. در زبان انگلیسی و برخی زبانهای دیگر، تحقیقات متعددی در این زمینه انجام شده است که به دنبال آن زبان فارسی نیز در این زمینه مورد تحقیق قرار گرفته است. این تحقیقات متعدد گاها در حد پژوهش به قوت خود باقی مانده و گاها در قالب محصول عرضه شده است. مقالهی حاضر به طبقهبندی انواع روشها و دادگان موردنیاز در این تحقیقات متعدد پرداخته و فرایند هرکدام از آنها را به طور خاص و نحوهی سنجش میزان دقت پردازش آنها را به طور عام شرح میدهد. این مقاله همچنین نحوهی عملکرد سامانههای تکزبانهی فارسی را توصیف نموده و به نحوهی برخورد آنها با چالشهای زبان فارسی اشاره میکند.
کلیدواژههای فارسی مقاله
عنوان انگلیسی
Categorization of Various Essential Datasets and Methods for Textual Spelling Detection and Normalization
چکیده انگلیسی مقاله
One of the most primary phases of automatic text processing is spelling error detection and grapheme normalization. Storing textual documents faces several problems without passing this phase, which causes a disturbance in retrieving the documents automatically. Therefore, specialists in the fields of natural language processing and computational linguistics usually make an attempt to sample various data through presenting ideal methods and algorithms in order to reach the normalized data. Several researches have been conducted on English and some other languages, which have been followed by a certain amount of researches on Farsi too. Sometimes, these several researches have remained to be a pure study and sometimes they have been released as a product. This paper carries out the categorization of the different methods and essential datasets in these researches and depicts each category individually and the evaluation measurements methods generally. Moreover, it describes the performance of the monolingual Farsi systems and the way they meet the Farsi challenges.
کلیدواژههای انگلیسی مقاله
نویسندگان مقاله
ملوک السادات حسینی بهشتی | molouk sadat hosseini beheshti
iranian research institute for information science and technology irandoc
تهران ـ خیابان انقلاب ـ چهارراه فلسطین ـ ساختمان شماره 1090 ـ پژوهشگاه علوم و فنّاوری اطلاعات ایران
سازمان اصلی تایید شده
: پژوهشگاه علوم و فناوری اطلاعات ایران
هادی عبدی قویدل | hadi abdi ghavidel
sharif university of technology
تهران ـ خیابان انقلاب ـ چهارراه فلسطین ـ ساختمان شماره 1090 ـ پژوهشگاه علوم و فنّاوری اطلاعات ایران
سازمان اصلی تایید شده
: پژوهشگاه علوم و فناوری اطلاعات ایران
نشانی اینترنتی
http://jipm.irandoc.ac.ir/browse.php?a_code=A-10-3388-1&slc_lang=fa&sid=fa
فایل مقاله
اشکال در دسترسی به فایل - ./files/site1/rds_journals/1504/article-1504-438383.pdf
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
فناوری اطلاعات
نوع مقاله منتشر شده
مروری
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات