با تکیه بر معیار Area Under the Curve (AUC)، عملکرد مدل رگرسیون لجستیک و الگوریتم LightGBM را مقایسه میکنیم. با وجود اینکه این روشها در ادبیات رایج هستند، مطالعه ما بر نقش استنتاج آماری برای ارزیابی و مقایسه جامع نتایج تأکید دارد. ما از مجموعه آموزشی دادههای Vesta (2018) استفاده میکنیم که توسط Vesta، یک شرکت جهانی پیشگیری از تقلب مستقر در ایالات متحده که در راهحلهای پرداخت و مدیریت ریسک تخصص دارد، ارائه شده است. این مجموعه داده که در ابتدا به عنوان بخشی از یک مسابقه Kaggle متمرکز بر تشخیص تقلب کارت اعتباری منتشر شد، شامل رکوردهای متنوعی از تراکنشها است که منبع غنی برای بررسی روشهای پیشرفته تشخیص تقلب را فراهم میکند. تحلیل ما نشان میدهد که در حالی که الگوریتم LightGBM به طور کلی دقت پیشبینی بالاتری دارد، تفاوتهای بین AUCهای محاسبه شده دو روش از نظر آماری معنادار نیستند. این موضوع اهمیت استفاده از تکنیکهای استنتاجی برای اعتبارسنجی تفاوتهای عملکرد مدل در تشخیص تقلب را برجسته میکند.
Relying on the Area Under the Curve (AUC) measure, we compare the performance of the Logit regression model and the LightGBM algorithm. Despite these methods being common in the literature, our study emphasizes the role of statistical inference to evaluate and compare the results comprehensively. We use the training set of the Vesta (2018) dataset, provided by Vesta—a global fraud prevention company headquartered in the United States specializing in payment solutions and risk management. Originally released as part of a Kaggle competition focused on credit card fraud detection, this dataset comprises diverse transaction records, representing a rich source for exploring advanced fraud detection methods. Our analysis reveals that while the LightGBM algorithm generally yields higher predictive accuracy, the differences between the calculated AUCs of the two methods are not statistically significant. This underscores the importance of using inferential techniques to validate model performance differences in fraud detection.