این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
یکشنبه 23 آذر 1404
پژوهشنامه پردازش و مدیریت اطلاعات
، جلد ۳۶، شماره ۴، صفحات ۹۴۵-۹۶۹
عنوان فارسی
تحلیلگر تصریفی فارسی معاصر
چکیده فارسی مقاله
در سالهای اخیر، کاربرد گونه نوشتاری غیررسمی زبان فارسی بهدلیل گسترش روزافزون فضای مجازی و شبکههای اجتماعی و تمایل کاربران به نزدیک کردن زبان نوشتار به گفتار رشد چشمگیری داشته است. با وجود این، ابزارهای پردازش این گونه زبانی بهمیزان لازم توسعه داده نشده است. تحلیلگرهای تصریفی از جمله ابزارهایی است که در پردازش زبانی کاربرد وسیعی دارد و تاکنون برای گونه غیررسمی طراحی و پیادهسازی نشده است. با توجه به اینکه گونه نوشتاری غیررسمی در کنار واژگان و قواعد صرفی و نحوی مختص بهخود، در بخشی از واژهها و ساختارها با گونه رسمی مشترک است، در این پژوهش با پوشش فارسی رسمی و غیررسمی اولین ابزار تحلیل تصریفی فارسی معاصر برای همه اقسام واژه توسعه داده شده و تلاش شده همه ساختارهای تصریفی واژههای فارسی غیررسمی پوشش داده شود. این ابزار بهصورت قاعدهمند و مستقل از بافت و با بهرهگیری از مبدل حالت محدود، پیبستها و وندهای تصریفی رسمی و غیررسمی را در واژههای زبان شناسایی و تحلیل کرده، ستاکهای رسمی و غیررسمی را نیز استخراج میکند. بهمنظور پوشش دادن تمام ساختها و حالتهای تصریفی، با توجه به رویکرد مستقل از بافت، الگوریتم برای هر واژه، تمام خوانشها و معانی گوناگونی را که میتواند بسته به قرارگیری در بافتهای گوناگون داشته باشد، تحلیل و ارائه میکند. بهمنظور استخراج و بررسی واژگان و قواعد تصریفی و نگارشی گونه غیر رسمی، پیکره فارسی معاصر از سیاقها و زیرسیاقهای گوناگون این گونه زبانی تهیه شده و در طراحی و آزمون تحلیلگر مورد استفاده قرار گرفت. آزمون تحلیلگر با استفاده از 1786 واژه یکتای استخراجشده از پیکره، نتیجه 96/67 درصد را در معیار اف بهدست داده است. از این ابزار میتوان در انواع تحلیلها و کاربردهای پردازش رایانهای زبان فارسی و همچنین در آموزش فارسی، بهویژه محاوره فارسی به غیر فارسیزبانان استفاده کرد.
کلیدواژههای فارسی مقاله
پردازش زبانی، تحلیلگر تصریفی، گونه غیررسمی فارسی، فارسی معاصر، مبدل حالت محدود، آموزش فارسی
عنوان انگلیسی
Contemporary Persian Inflectional Analyzer
چکیده انگلیسی مقاله
In recent years, the use of informal writing in Persian has grown significantly due to the increasing expansion of cyberspace and social media and platforms, and the tendency of users to bring the written language closer to colloquial speech. But on the other hand, proper tools to process this language register are not developed very much. One of the tools for low level processing of textual data is an inflectional analyzer. However, such tools are not developed for this register yet. Informal words have their own structures, stems, morphemes and clitics and they also make use of formal structures and units. Moreover, this register also consists of formal words so any analyzer for informal words should have the potential to analyze formal words, too. In this paper, it is tried to cover all inflectional structures of informal Persian language to build an inflectional analyzer. A corpus of most of its known sub-registers is constructed to extract words, morphemes and inflectional rules and morphotactics. A part of this corpus is used for testing the analyzer. After extracting 1786 unique words of the test part, inflectional analyzer f-measure is equal to 97.67%. This tool can be used in computational processing of Persian language and it can also be used in teaching Persian, specifically colloquial Persian to non-Persian learners.
کلیدواژههای انگلیسی مقاله
Computational Linguistics, Inflectional Analyzer, Informal Persian Register, Contemporary Persian, FST, Persian Teaching
نویسندگان مقاله
داوود حیدرپور | Davood Heidarpour
Faculty of New Sciences and Technologies; University of Tehran; Tehran, Iran;
کارشناسی ارشد زبانشناسی رایانشی؛ دانشکده علوم و فنون نوین؛ دانشگاه تهران؛ تهران، ایران؛
الهام سبط | Elham S.Sebt
Faculty of New Sciences and Technologies; University of Tehran; Tehran, Iran;
کارشناسی ارشد زبانشناسی رایانشی؛ دانشکده علوم و فنون نوین؛ دانشگاه تهران؛ تهران، ایران؛
محمود بیجنخان | Mahmoud Bi Jen Khan
Faculty of Literature and Humanities; University of Tehran; Tehran, Iran;
گروه زبانشناسی؛ دانشگاه تهران؛ تهران، ایران
مصطفی صالحی | Mostafa Salehi
Faculty of New Sciences and Technologies; University of Tehran; Tehran, Iran
دانشکده علوم و فنون نوین؛ دانشگاه تهران؛ تهران، ایران؛
هادی ویسی | Hadi Veisi
Faculty of New Sciences and Technologies; University of Tehran; Tehran, Iran
دانشکده علوم و فنون نوین؛ دانشگاه تهران؛ تهران، ایران؛
نشانی اینترنتی
http://jipm.irandoc.ac.ir/browse.php?a_code=A-10-6196-1&slc_lang=fa&sid=1
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
زبان شناسی رایانه ای
نوع مقاله منتشر شده
پژوهشی
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات