این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
پردازش علائم و داده ها، جلد ۲۱، شماره ۱، صفحات ۱۲۵-۱۴۲

عنوان فارسی بهبود قدرت تعمیم مدل‌های تشخیص کلام نفرت‌انگیز مبتنی بر تطبیق دامنه
چکیده فارسی مقاله امروزه با رشد فعالیت در شبکه‌های اجتماعی شاهد افزایش کلام نفرت‌انگیز به صورت برخط هستیم و به‌همین منظور مسئلۀ تشخیص نفرت در فضای مجازی دارای اهمیت است. همچنین تطبیق دامنه نیز در این مسئله و به‌طورکلی در حوزۀ پردازش زبان طبیعی، یکی از چالش‌های مهم است. در بسیاری از مسائل، ضمن تغییر دامنه با افت عملکرد مواجهیم که این موضوع در مسئلۀ نفرت نیز صادق است. در این پژوهش با استفاده از روش‌های تطبیق دامنه سعی در افزایش قدرت تعمیم‌پذیری مدل‌های تشخیص نفرت خواهیم داشت. برای این منظور روش‌های مبتنی بر ترنسفورمر شامل آموزش خصمانۀ دامنه و ترکیب متخصصان را به کار می‌گیریم و همچنین از آموزش چند منبعی استفاده می‌کنیم. آزمایش‌ها با استفاده از چهار مجموعه‌داده در حوزۀ نفرت انجام می‌شوند. در ابتدا مد‌ل‌ها را به‌صورت درون‌ دامنه‌ای و تک منبعی ارزیابی می‌کنیم. در مرحلۀ بعد با اضافه کردن دامنه‌های دیگر به بخش آموزش، شاهد افت نتایج و انتقال منفی هستیم. سپس آزمایش‌های برون دامنه‌ای را ابتدا به‌صورت تک منبعی با مدل DistilBERT انجام می‌دهیم که با تغییر دامنه نتایج به طور قابل توجهی کاهش می‌یابند. به‌منظور افزایش قدرت تطبیق دامنۀ مدل‌ در بخش برون دامنه‌ای، روی چند منبع آموزش را انجام می‌دهیم که حدوداً در نیمی از موارد سبب بهبود نتایج می‌شود که نتیجۀ معناداری نیست. در ادامه با استفاده از روش‌های مبتنی بر ترنسفورمر شامل آموزش خصمانۀ دامنه و ترکیب متخصصان سعی در افزایش قدرت تطبیق دامنۀ مدل‌ها خواهیم داشت که در 87% از آزمایش‌های برون دامنه‌ای چند منبعی شاهد افزایش عملکرد هستیم. البته این روش‌ها در عملکرد آزمایش‌های درون دامنه‌ای هم مؤثر هستند. مسئلۀ مهمی که گاهی موجب افت‌وخیز چشمگیر نتایج می‌شود، مجموعه‌داده‌ها هستند. شباهت داده‌ها و تشابه توزیع بعضی دامنه‌ها باعث افزایش قدرت تطبیق دامنۀ مدل می‌شوند.
 
کلیدواژه‌های فارسی مقاله کلام نفرت‌انگیز، تطبیق دامنه، تعمیم، طبقه‌بندی، ترنسفورمر

عنوان انگلیسی Domain adaptation-based method for improving generalization of hate speech detection models
چکیده انگلیسی مقاله Today, with the growth of activity in social media, we see an increase in hate speech online and for this reason, the issue of recognizing hate in cyberspace is important. Also, domain adaptation is one of the important challenges in this task and in general in the field of natural language processing. In many issues, while changing the domain, we face a drop in performance, which is also true in the task hate speech. In this research, we try to increase the generalizability of hate detection models by using domain adaptation methods. For this purpose, we use Transformer-based methods, including domain adversarial training and mixture of experts, and we also use multi-source training. Experiments are conducted using four datasets in the domain of hate. At first, we evaluate the models in an in-domain and single-source manner. In the next step, by adding other domains to the education section, we see a drop in results and a negative transfer. Then we perform the out-of-domain tests first as a single source with the DistilBERT model, which significantly reduces the results by changing the domain. In order to increase the power of domain adaptation of the model in the out-of-domain part, we perform the training on several sources, leads to improve the results in about half of the cases, which is not significant. In the following, we try to increase the domain adaptation power of the models, using transformer-based methods including domain adversarial training and the mixture of experts, which leads to increase in performance in 87% of multi-source out-of-domain tests. Of course, these methods are also effective in the performance of in-domain tests. An important issue that sometimes causes a significant drop in results is datasets. The similarity of the data and the similarity of the distribution of some domains increase the power of domain adaptation of the model and on the contrary.
کلیدواژه‌های انگلیسی مقاله hate speech, classification, transformer, domain adaptation, generalization

نویسندگان مقاله سیده فاطمه نوراللهی | Seyedeh Fatemeh Nourollahi
Qom University
دانشگاه قم

راضیه برادران | Razieh Baradaran
Qom University
دانشگاه قم

حسین امیرخانی | Hossein Amirkhani
Qom University
دانشگاه قم


نشانی اینترنتی http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-2377-1&slc_lang=fa&sid=1
فایل مقاله فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده مقالات پردازش متن
نوع مقاله منتشر شده کاربردی
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات