این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
سه شنبه 21 بهمن 1404
مجله دانشکده پزشکی دانشگاه علوم پزشکی تهران
، جلد ۸۰، شماره ۷، صفحات ۵۴۶-۵۶۲
عنوان فارسی
مدلسازی و طراحی الگوریتم تشخیص و غربالگری بیماری مبتنی بر دستهبندی ماشین بردار پشتیبان خطی با قابلیت انتخاب ویژگی ترکیبی
چکیده فارسی مقاله
زمینه و هدف: در مطالعه حاضر، یک رویکرد انتخاب ویژگی ترکیبی از روشهای فیلتر و بستهبندی، با هدف تشخیص وضعیت بیماری و بقای بیمار، برای تعدادی از مجموعه دادگان علوم زیستی با تعداد متفاوت نمونه، ویژگی و کلاس پیادهسازی میشود؛ بنابراین، این راهبرد از مزایای هر دو روش، شامل سرعت عملکرد، تعمیمپذیری و دقت بالا بهره میبرد. روش بررسی: الگوریتمهای انتخاب ویژگی در چارچوب بازشناسی آماری الگو در نرمافزار Matlab R2021a طی فروردین و اردیبهشت 1401 مدلسازی شدهاند. ابتدا ویژگیها بر پایه اطلاعات متقابل بهنجار شده رتبهبندی میشوند و یک زیرمجموعه ویژگی بهینه با بالاترین دقت دستهبند انتخاب میشود. پس از خوشهبندی مجموعه داده بهروش Mini Batch K-means و استخراج ویژگیهای رتبهبندیشده، الگوریتمهای شمول و خروج ویژگی به مجموعه دادگان اعمال میشوند. یافتهها: رویکردهای انتخاب ویژگی پیشنهادی برای مجموعه دادگان زیستشناسی مولکولی، ویروس هپاتیت C و باکتری E.coli، امتیاز صحت و فراخوانی بالای 98% را نتیجه میدهند، که به معنای حضور تعداد بسیار کم موارد مثبت کاذب و منفی کاذب در دستهبندی با ماشین بردار پشتیبان خطی است. برای مجموعه داده ویروس هپاتیت C، با انتخاب 9 ویژگی مرتبط از 13 ویژگی موجود با روش خروج ویژگی، دقت دستهبندی 92/98% و امتیاز F1 02/%99 بهدست میآید. رویکرد شمول ویژگی نیز با یک اختلاف جزیی، دقت 78/98% را نتیجه میدهد. نتیجهگیری: نتایج حاصل نشاندهنده توانمندی رویکردهای انتخاب ویژگی بهکار رفته برای مجموعه دادگان علوم زیستی با ابعاد بالای ویژگی همچون مجموعه داده بیان پروتیین میباشد. قابلیت تعمیمپذیری به سایر دستهبندها و تعیین خودکار تعداد ویژگیهای بهینه در طول فرآیند انتخاب ویژگی، این رویکردها را در بسیاری از کاربردهای دادهکاوی برای علوم زیستی انعطافپذیر میسازد.
کلیدواژههای فارسی مقاله
انتخاب ویژگی ترکیبی، پایگاه داده زیستی، دستهبند ماشین بردار پشتیبان خطی، خوشهبندی k- میانگین مینیبَچ، اطلاعات متقابل بهنجارشده.
عنوان انگلیسی
Modeling and design of a diagnostic and screening algorithm based on hybrid feature selection-enabled linear support vector machine classification
چکیده انگلیسی مقاله
Background: In the current study, a hybrid feature selection approach involving filter and wrapper methods is applied to some bioscience databases with various records, attributes and classes; hence, this strategy enjoys the advantages of both methods such as fast execution, generality, and accuracy. The purpose is diagnosing of the disease status and estimating of the patient survival. Methods: Feature selection algorithms have been modeled in Matlab R2021a during April and May 2022 in the framework of statistical pattern recognition. First, the features are ranked based on normalized mutual information, as a metric of relevance and redundancy of features, and accordingly, an optimum feature subset with the highest accuracy of classification is selected. Two feature selection algorithms, i.e., inclusion of features enhancing the classification accuracy and exclusion of irrelevant features are applied to the interest datasets, subsequent to the mini-batch k-means clustering of records. Results: At the end of the execution of both feature selection methods, evaluation metrics including accuracy, precision, recall, and F1 score are measured and compared. Both proposed feature selection approaches for the molecular biology, hepatitis C virus (HCV), and E. coli bacteria datasets result in the precision and recall scores more than 98 percent, meaning that there are few false positives and false negatives in the linear support vector machine (LSVM) classification. Regarding the HCV dataset, selection of nine relevant features among the thirteen present ones using the feature exclusion method yields the classification accuracy and F1 score of 98.92 percent and 99.02 percent, respectively. The feature inclusion approach also results in an accuracy of 98.78 percent with a slight discrepancy. Conclusion: The results reveal superior strength of the feature selection methods used here for life science datasets with higher-order features such as protein/gene expression database. The potentials to generalize to other classifiers and automatically specify the optimal number of features during the feature selection procedure make these approaches flexible in many data mining applications for the life sciences.
کلیدواژههای انگلیسی مقاله
hybrid feature selection, life science datasets, linear support vector machine (LSVM), mini-batch k-means clustering, normalized mutual information.
نویسندگان مقاله
تارا غفوری | Tara Ghafouri
Department of Electrical and Electronic Engineering, Nanostructured-Electronic Devices Laboratory, Faculty of Electrical Engineering, K. N. Toosi University of Technology, Tehran, Iran.
گروه مهندسی برق و الکترونیک، آزمایشگاه ادوات نانوساختار الکترونیکی، دانشکده مهندسی برق، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران.
نگین معنویزاده | Negin Manavizadeh
Department of Electrical and Electronic Engineering, Nanostructured-Electronic Devices Laboratory, Faculty of Electrical Engineering, K. N. Toosi University of Technology, Tehran, Iran.
گروه مهندسی برق و الکترونیک، آزمایشگاه ادوات نانوساختار الکترونیکی، دانشکده مهندسی برق، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران.
نشانی اینترنتی
http://tumj.tums.ac.ir/browse.php?a_code=A-10-3666-555&slc_lang=other&sid=1
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
other
موضوعات مقاله منتشر شده
غدد درون ریز و متابولیسم
نوع مقاله منتشر شده
مقاله اصیل
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات