کلیدواژهها، مهمترین واژههای متن هستند که ایده بنیادین آن را در عباراتی کوتاه بیان میکنند. استخراج کلیدواژه یکی از کاربردهای پردازش زبان طبیعی است که پایه بسیاری از عملیاتها نظیر طبقهبندی، خوشهبندی و خلاصهسازی متون است. تاکنون، دادگانهای متعدّدی برای ارزیابی استخراج کلیدواژه در فارسی ارائه شدهاند که اغلب آنها به واژگان کلیدی نویسندگان مقالات اکتفا کرده و به سایر کلیدواژههای بالقوه متن بیتوجهاند. استفاده از چنین دادگانی، باعث ارزیابی نادرست روشهای استخراج کلیدواژه میشود و دقت آنها ناخواسته کاهش مییابد. در این پژوهش، ابتدا دادگان معیار نورواژه که از حدود ۱۴۰۰ مقاله علمی جمعآوری شدهاست، برای ارزیابی روشهای استخراج کلیدواژه معرفی میشود. در این دادگان علاوهبر واژههای کلیدی نویسندگان، سایر کلیدواژهها توسط افراد خبره استخراج شدهاند. برای اثبات قابلیت استفاده این دادگان بهعنوان معیار، روشهای بیناظر مختلفی روی آن آزمایش شدهاست. نتایج حاصل از این دادگان، مؤیّد نتایجی است که از سایر دادگانهای معیار بهدست میآید.