این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
مدیریت اطلاعات، جلد ۸، شماره ۱، صفحات ۲۰۲-۲۲۴

عنوان فارسی ارائه روش انتخاب ویژگی مبتنی بر خوشه‌بندی در مسئله تشخیص هرزنامه
چکیده فارسی مقاله یکی از راه‌های تشخیص هرزنامه، دسته‌بندی ایمیل‌ها به دو دسته هرزنامه و غیرهرزنامه است. کارایی بالای روش‌های یادگیری ماشین در مسائل گوناگون، باعث توسعه وسیع آنها در دسته‌بندی متون شده است. استفاده از یک سازوکار کاهش ویژگی کارآمد در الگوریتم‌های یادگیری ماشین مبتنی بر محتوا به‎‌منظور استخراج یک بردار ویژگی کارآمد از میان تعداد بسیار زیادی ایمیل نقش مهمی دارد. برخلاف روش‌های پیشین که فقط ویژگی‌های برتر را انتخاب کرده و باقی ویژگی‌ها را نادیده می‌گیرند، در روش پیشنهادی در این مقاله سعی شده است از ویژگی‌های انتخاب‌نشده نیز استفاده شود. روش کار به این صورت است که ابتدا یک انتخاب ویژگی اولیه اعمال شده و تعدادی ویژگی انتخاب می‌شود. سپس، ویژگی‌های انتخاب‎نشده خوشه‌بندی شده و هر خوشه به یک ویژگی جدید نگاشت می‌شود و بردار ویژگی نهایی شامل ویژگی‌های انتخاب‎شده و ویژگی‌های نگاشت‎شده از هر خوشه خواهد بود. در پژوهش حاضر، با اعمال دو روش انتخاب ویژگی اولیه و همچنین دو تابع نگاشت ویژگی‌های خوشه، در مجموع، چهار روش ارائه شد و نتایج با استفاده از دو پایگاه داده PU2 و PU3 تجزیه و تحلیل شدند. نتایج حاصل از تجزیه ‌و تحلیل انجام‎شده نشان داد که روش مبتنی بر انتخاب ویژگی اولیه DF و تابع نگاشت پیشرفته، در بین کلیه روش‌های پیشنهادی، دارای بالاترین کارایی است. همچنین، روش‌های پیشنهادی در مقایسه با انتخاب ویژگی اولیه (بدون خوشه‌بندی) دارای کارایی بهتری هستند.
کلیدواژه‌های فارسی مقاله انتخاب ویژگی، ایمیل، خوشه‌بندی، دسته‌بندی، کاهش ویژگی، هرزنامه،

عنوان انگلیسی A Clustering Based Feature Selection Method in Spam Detection
چکیده انگلیسی مقاله One of the ways to detect spam is classifying emails into two categories: spam and non-spam. The high efficiency of machine learning methods in various fields has developed them in text clasification problems. The mechanism of machine learning-based classifiers that classify emails according to their content is based on a set of features, where due to the high volume of emails, using an efficient feature reduction algorithm plays an important role. Unlike the previous methods which select only the superior features and ignore the rest of the unselected features, in the proposed method of this article we try to use unselected features as well. The method is that after applying an initial feature selection, the unselected features are clustered and then each cluster is mapped to a new feature and the final feature vector forms from the selected ones and those mapped from the clusters. In this study, by applying two methods of selecting the initial feature and also two mapping functions, four methods were presented and analyzed using two datasets PU2 and PU3. The results of the analysis showed that the method based on feature selection DF and the advanced mapping function has the highest efficiency among all the proposed methods. Also, the proposed methods are more efficient than base feature selection methods (without clustering).
کلیدواژه‌های انگلیسی مقاله انتخاب ویژگی, ایمیل, خوشه‌بندی, دسته‌بندی, کاهش ویژگی, هرزنامه

نویسندگان مقاله وحید نصرتی |
دانشجوی دکتری، مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه اراک، اراک، ایران

محسن رحمانی |
دانشیار، مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه اراک، اراک، ایران


نشانی اینترنتی https://www.aimj.ir/article_170976_b6bc8a3c37cd31c6bcb8e80bf738007a.pdf
فایل مقاله فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات