این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
یکشنبه 23 آذر 1404
کتابداری و اطلاع رسانی
، جلد ۲۱، شماره ۲(پیاپی ۸۲)، صفحات ۳-۲۵
عنوان فارسی
استخراج اطلاعات از پیکره زبانی: معرفی پیکرۀ مقالههای علمیپژوهشی دانشگاه فردوسی مشهد
چکیده فارسی مقاله
هدف: پردازش زبان طبیعی، استفاده در فرهنگنگاری، پیگیری تحولات زبانی و استخراج اطلاعات زبانی خاص از مهمترین کاربردهای پیکره است. هدف از انجام این پژوهش معرفی و توصیف چگونگی ساخت پیکرۀ مقالههای علمیپژوهشی است که نگارندگان پدید آوردهاند. روش: برای ایجاد پیکره، نخست نرمافزار پیکرهساز طراحی و ساخته شد. این نرمافزار انواع فرمت از جمله doc،docx ،rtf ،txt و pdf را پشتیبانی میکند. همچنین میتوان پارامترهای ساخت پیکره را از قبل نیز برای آن تعیین کرد. برای مثال، مشخص کرد که حداقل تعداد توکن فایل برای حضور یک متن در پیکره چه عددی باشد. سپس مجموعه مقالههای علمیپژوهشی اعضای هیئتعلمی دانشگاه فردوسی مشهد جمعآوری شد. مجموع مقالههای مشتمل بر 7.154.202 کلمه و 1100 عنوان است. کلّ پیکره در فایلهای مجزا به جملههای تشکیلدهنده آن تجزیه شد. ریشۀ کلمات استخراج و برچسب نحوی کلمات زده شد. علاوه بر امکان استخراج اطلاعات بهطور مستقیم، نرمافزار جانبی دیگری با کاربرد سادهتر برای استخراج اطلاعات آماری نیز طراحی و به آن افزوه شد تا کاربران غیرتخصصی هم بتوانند از آن استفاده و اطلاعات را استخراج کنند. یافته: برای ارزیابی درستیِ ابزارهای ریشهیاب و برچسبزنی مقولههای گفتار، از پیکرههای استاندارد موجود مانند پیکره PerDT (در سایت دادگان) که شامل تعداد قابلتوجهی جملۀ برچسبخورده با اطلاعات نحوی و ساختواژی است استفاده شد. همچنین با مطالعه موردی عبارات احتیاطآمیز (بخشی از طرح پژوهشی که به چاپ نرسیده است) یافته این پژوهش که ساخت پیکرۀ مقالههای علمیپژوهشی است آزمایش و با دقت حدود96% تأیید شد. نتیجه: بر اساس نتایج بهدستآمده، پیکرۀ ساختهشده قابلیت بسیار بالایی برای دادهکاوی و استفاده در تمام پژوهشهایی که بر روی متون علمی انجام میشود را دارا است. با استفاده از این پیکره میتوان توصیفی دادهمحور از نحوۀ کاربرد زبان توسط گروههای مختلف کاربران زبانی ارائه کرد. با بارگذاری این پیکره در سایت کتابخانه مرکزی دانشگاه فردوسی مشهد، امکان کاربری عام آن بهزودی فراهم خواهد شد.
کلیدواژههای فارسی مقاله
عنوان انگلیسی
چکیده انگلیسی مقاله
کلیدواژههای انگلیسی مقاله
نویسندگان مقاله
عطیه کامیابی گل |
استادیار گروه زبانشناسی دانشگاه فردوسی مشهد
الهام اخلاقی باقوجری |
دانش آموخته گروه زبانشناسی دانشگاه فردوسی مشهد
احسان عسگریان |
دانش آموخته دکترای کامپیوتر دانشگاه فردوسی مشهد
هانیه حبیبی |
دانش آموخته مهندسی کامپیوتر و دانشجوی کارشناسی ارشد زبانشناسی دانشگاه فردوسی مشهد
نشانی اینترنتی
http://lis.aqr-libjournal.ir/article_61800_0515e3e310f5d1806a0a20b5f3b59324.pdf
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات