این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
یکشنبه 23 آذر 1404
پژوهشنامه پردازش و مدیریت اطلاعات
، جلد ۳۸، شماره ۳، صفحات ۹۲۷-۹۴۴
عنوان فارسی
کاربست قوانین انجمنی و خوشهبندی در کنترل کیفیت دادههای پژوهشی؛ مورد مطالعه پایگاه اطلاعات علمی ایران (گنج)
چکیده فارسی مقاله
پایگاههای اطلاعات علمی و موتورهای جستوجو از ابزارهای اصلی کار پژوهشگران است. برای بازیابی دقیق و صحیح اطلاعات از این پایگاهها نیاز است که اطلاعات با کیفیت مناسب و با کمترین خطا ذخیره شود. کنترل دستی اطلاعات زمانبر و پُرهزینه است. در این مقاله، روشهای دادهکاوی برای کنترل کیفیت پایگاه اطلاعات پژوهشی معرفی میشود. برای این منظور، ابتدا باید اطلاعاتی از خطاهای مرسوم را در کنار سایر اطلاعات هر رکورد جمعآوری کرد. سپس، با استفاده از روشهای دادهکاوی الگوهای پنهان و روابط بین خطاها را کشف کرد و بر این اساس، راههای بهبود کیفیت داده را ارائه داد. در این مقاله پایگاه اطلاعات علمی ایران (گنج)، بهعنوان مطالعه موردی در نظر گرفته شد. 59 کد خطا توسط خبرگان تعریف شد. سپس، اطلاعات فراداده هر رکورد مثل نام دانشگاه، نام رشته،گرایش و حوزه تخصصی مدرک به همراه کدهای خطای آن در یک مجموعه داده ذخیره شد. این مجموعه داده شامل 41021 رکورد در حوزههای مختلف است. با استفاده از روشهای آماری و قوانین انجمنی رابطه بین خطاها و الگوی تکرار آنها درهر حوزه بررسی شد. نتایج نشان داد که بهطور میانگین با در نظر گرفتن 25 درصد از خطاها در هر حوزه، میتوان تا 80 درصد از خطاهای همه رکوردهای یک حوزه را کاهش داد. این خطاها شامل خطاهای پرتکرار در هر حوزه و همچنین خطاهایی است که با آنها رابطه قوی دارند. با استفاده از روش خوشهبندی k-means رکوردها خوشهبندی شدند. نتایج نشان داد که اگرچه شباهتهایی بین رکوردها از حوزههای مختلف وجود دارد، اما رابطه معناداری بین حوزه رکوردها و الگوی تکرار خطاها وجود ندارد.
کلیدواژههای فارسی مقاله
کیفیت داده، کیفیت اطلاعات پژوهشی، کنترل کیفیت، دادهکاوی،
عنوان انگلیسی
Data mining methods for quality control of research data; Case study of Iranian Scientific Database (GANJ)
چکیده انگلیسی مقاله
Research information databases and search engines are one of the main resources used by researchers every day. To accurately retrieve information from these databases, data need to be stored correctly. Manual controlling of data quality is costly and time-consuming. Here we suggest data mining methods for controlling the quality of a research database. To this end, common errors that are seen in a database should be collected. Metadata of every record in addition to its error codes is saved in a dataset. Statistics and data mining methods are applied to this dataset and patterns of errors and their relationships are discovered. Here we considered Iran's scientific information database (Ganj) as a case study. Experts defined 59 errors. Intimate features of every record, such as its subject, authors' names and name of the university, with its error codes were saved in a dataset. The dataset containing 41021 records was formed. Statistics methods and association rules were applied to the dataset and the relationship between errors and their pattern of repetition were discovered. Based on our results, in average by considering 25% of errors in every subject, up to 80% of errors of all the records in a subject are covered. All the records were also clustered using K-means clustering. Although there was some similarity between records of different subjects, there was not seen any evident relationship between the pattern of repetition of the errors and the subject of records.
کلیدواژههای انگلیسی مقاله
کیفیت داده, کیفیت اطلاعات پژوهشی, کنترل کیفیت, دادهکاوی
نویسندگان مقاله
آزاده فخرزاده |
پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ،تهران ، ایران
محمد جواد ارشادی |
پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ،تهران ، ایران
محمد مهدی ارشادی |
دانشگاه صنعتی امیرکبیر،تهران ، ایران
نشانی اینترنتی
https://jipm.irandoc.ac.ir/article_698614_cea090eb9365840cc415b98ef46e3cfc.pdf
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات