این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
دوشنبه 24 آذر 1404
پژوهشنامه پردازش و مدیریت اطلاعات
، جلد ۳۸، شماره ۳، صفحات ۹۰۱-۹۲۶
عنوان فارسی
تهیهٔ فهرست بسامدی واژگان علمی فارسی با بهرهگیری از پیکرهٔ علمی
چکیده فارسی مقاله
واژههای علمی واژههایی هستند که در طیف وسیعی از رشتههای علمی بسامد بالایی دارند و بسامدشان در متون علمی بسیار بیشتر از بسامدشان در سایر متون است. دسترسی به فهرستی بسامدی از واژههای علمی میتواند به یادگیری سریعتر زبان علمی کمک کند. پیشنیاز تهیه چنین فهرستی ایجاد پیکرهای متوازن از متون علمی فارسی است. برای این منظور، متون علمی منتشرشده در نشریات علمی فارسی با برنامهنویسی رایانهای و توسعه خزنده وب جمعآوری شد. سرانجام، پیکرهای شامل بیش از 51 میلیون واژه با حجم متوازنی از داده در چهار حوزه موضوعی شامل «علوم پایه و فنی و مهندسی»، «علوم انسانی و هنر و معماری»، «پزشکی و دامپزشکی» و «کشاورزی و منابع طبیعی» ساخته شد. در این پژوهش پس از بررسی ملاحظات مربوط به توسعه فهرستهای بسامدی علمی، فهرستی از واژههای علمی فارسی تهیه شد که شامل 307 بنواژه است و در متون علمی بسامد بالایی دارند که بسامدشان در متون علمی به مراتب بیشتر از متون عمومی است و پراکندگی مناسبی در موضوعات مختلف علمی دارند. نتایج ارزیابی فهرست بسامدی تهیهشده نشاندهنده پوشش بیش از 16 درصدی فهرست روی متون علمی است که این درصد با پوشش فهرستهای جمعآوریشده برای زبانهای دیگر مطابقت دارد. همچنین، توزیع مناسب واژههای فهرست جمعآوریشده در چهار حوزه موضوعی پیکره باعث شده است که میزان پوشش در هر یک از این حوزههای موضوعی نیز عددی قابل قبول بین 12 تا 18 درصد باشد. فهرست واژههای علمی استخراجشده میتواند برای اهداف مختلف آموزشی و پژوهشی مورد استفاده قرار گیرد. همچنین، پیکره علمی تهیهشده نیز منبع ارزشمندی برای مطالعات حوزه زبانشناسی پیکرهای و پژوهشهای مرتبط با پردازش زبان است.
کلیدواژههای فارسی مقاله
فهرست بسامدی، واژگان علمی، پیکره علمی، زبان فارسی، زبانشناسی پیکرهای،
عنوان انگلیسی
Development of a Persian Academic Word List Based on an Academic Corpus
چکیده انگلیسی مقاله
Academic words occur with high frequency in texts from a wide range of scientific fields, and their frequency in academic texts is much higher than in general texts. Academic wordlists can facilitate the learning and teaching of scientific language. In this research, we have developed a frequency list of Persian academic words. The word list includes 307 word lemmas with a high frequency in academic texts. Creating a balanced corpus of Persian academic texts was the prerequisite for developing such a list. For this purpose, we collected scientific texts published in Persian scientific journals and built a balanced corpus containing more than 51 million words. The corpus includes texts of academic papers in four general categories, i.e., basic sciences and engineering; humanities, arts, and architecture; medicine and veterinary medicine; and agriculture and natural resources. We used four different criteria for lemmas to be included in our wordlist. 1- frequency: The lemmas should have a relative frequency of at least 30 per million words. 2- ratio: The relative frequency of the lemmas in the academic corpus should be two times greater than their frequency in a 10 million word general corpus. 3- dispersion: Juilland's D value of the lemmas in the four sections should be at least 0.5. 4- range: the observed frequency of the lemma should not be less than a third of its expected frequency in any of the four sections of the corpus. We evaluated the wordlist by measuring its coverage in our corpus's train and test sections. The wordlist covers 16.69 percent of the train subset and 16.13 percent of the test subset.
کلیدواژههای انگلیسی مقاله
فهرست بسامدی, واژگان علمی, پیکرة علمی, زبان فارسی, زبانشناسی پیکرهای
نویسندگان مقاله
مرتضی رضائی شریفآبادی |
دانشگاه شیراز؛ شیراز، ایران
امیرسعید مولودی |
دانشگاه شیراز؛ شیراز، ایران
علیرضا احمدی |
دانشگاه شیراز؛ شیراز، ایران
علیرضا خرمایی |
دانشگاه شیراز؛ شیراز، ایران
نشانی اینترنتی
https://jipm.irandoc.ac.ir/article_698611_3ccd46b463ffb4c6953c80fa31e5b586.pdf
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات