این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
چهارشنبه 26 آذر 1404
رایانش نرم و فناوری اطلاعات
، جلد ۱۱، شماره ۱، صفحات ۱-۱۷
عنوان فارسی
ارائه یک رویکرد ترکیبی جدید برای یافتن بردارهای پایه معنادار جهت بازنمایی صریح بردارهای کلمه
چکیده فارسی مقاله
هدف اصلی این پژوهش بازنمایی صریح بردارهای معنایی کلمه با ابعاد کم است. برای تولید بردارهای معنایی کلمه صریح، بایستی مسئلهی یافتن تعداد محدودی بردار پایه معنادار بهگونهای حل شود که با کاهش ابعاد بردارهای کلمه افت دقت زیادی ایجاد نشود. ما در این پژوهش یک رویکرد ترکیبی برای یافتن بردارهای پایه معنادار ارائه میکنیم. در ابتدا، N بردار پایه را با روشهای پیشنهادی 1-معیار نسبت شباهت کلمه به تکرار کلمه، 2-انتخاب ویژگی مبتنی بر مقایسه ماتریسهای فاصله، 3-وزندهی دودویی مبتنی بر الگوریتم BPSO بدست میآوریم. سپس، برای بهرهگیری از خبرگی روشهای 1و 2 به میزان یکسان، نیمی از بردارهای پایه بدست آمده با روش معیار نسبت شباهت کلمه به تکرار کلمه را با نیمی از بردارهای پایه انتخاب شده با روش انتخاب ویژگی، ترکیب کرده و بردارهای پایه ترکیبی اول را بدست میآوریم. در مرحله بعدی، کلمات بافتار مشترک دارای وزن "1" بدست آمده با استفاده از روش BPSO را به بردارهای پایه ترکیبی اول حاصل از روشهای نسبت شباهت کلمه به تکرار کلمه و روش انتخاب ویژگی میافزاییم. بنابراین، بردارهای پایه ترکیبی دوم بدست میآیند که معنادار هستند و هر بردار پایه معادل یک کلمه بافتار آگاهیبخش است. لذا بردارهای کلمه صریح تولید شده با استفاده از بردارهای پایه معنادار، تفسیرپذیر هستند. ما رویکرد پیشنهادی را با استفاده از پیکره UkWaC آموزش داده و بر روی وظیفه شباهت کلمه مورد ارزیابی قرار میدهیم. هر دو بردارهای پایه ترکیبی اول و دوم سبب بهبود دقت میگردند. این افزایش دقت در بردارهای پایه ترکیبی اول بیشتر است. نتایج حاصل از ارزیابی بردارهای کلمه صریح بدست آمده با بردارهای پایه اول نشان میدهد که با وجود کاهش ابعاد بردارهای کلمه از 5000 به 1511، ضریب همبستگی اسپیرمن بر روی مجموعههای آزمون MEN، RG-65 و SimLex-999 به ترتیب به میزان 2.47%، 7.39% و 0.52% افزایش مییابد.
کلیدواژههای فارسی مقاله
بردارهای پایه، بازنمایی بردارهای کلمه، بردارهای کلمه تفسیرپذیر، وزندهی دودویی، انتخاب ویژگی، وظیفه شباهت کلمه،
عنوان انگلیسی
A Novel Hybrid Approach to Finding Meaningful Basis Vectors For Explicit Representation of Word Vectors
چکیده انگلیسی مقاله
The main purpose of this study is to represent the semantic word vectors with low dimensions, explicitly. The problem of finding a limited number of meaningful basis vectors for producing explicit semantic word vectors must be solved in such a way that a large accuracy drop is not caused by reducing the dimensions. In this study, we represent a hybrid approach to finding meaningful basis vectors. First, we obtain N basis vectors using the proposed methods: 1- The criterion of word similarity-to-word frequency ratio, 2- Feature selection method based on comparison of distance matrices, 3- Binary weighting method based on PSO algorithm. Then, to take advantage of the expertise of methods 1 and 2 to the same extent, we obtain the first combined basis vectors by combining half of the basis vectors obtained by the criterion of word similarity-to-word frequency ratio with half of the basis vectors selected by the feature selection method. In the next step, we obtain the common context words that have a weight "1" as the common basis vectors produced by the binary weighting method. In the next step, we add the common context words with a weight "1" obtained using the BPSO method to the first combined basis vectors obtained from word similarity-to-word frequency ratio and the feature selection methods. Thus, the second combined basis vectors are obtained, which are meaningful, and each basis vector is equivalent to an informative context word. Therefore, the explicit word vectors produced by meaningful basis vectors can be interpreted. We train the proposed approach using the UkWaC corpus and evaluate it using the word similarity task. Both first and second combined basis vectors improve accuracy. The increase in accuracy is greater in the first combined basis vectors. The evaluation results of explicit word vectors obtained with the first basis vectors show that despite the reduction of word vector dimensions from 5000 to 1511, the Spearman correlation coefficient on MEN, RG-65, and SimLex-999 test sets is increased by 2.47%, 7.39%, and 0.52%, respectively.
کلیدواژههای انگلیسی مقاله
بردارهای پایه, بازنمایی بردارهای کلمه, بردارهای کلمه تفسیرپذیر, وزندهی دودویی, انتخاب ویژگی, وظیفه شباهت کلمه
نویسندگان مقاله
عاطفه پاکزاد |
دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران-تهران
مرتضی آنالویی |
دانشیار، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران ، تهران، ایران
نشانی اینترنتی
https://jscit.nit.ac.ir/article_151673_d5d2c447607b619bbae4ceaae632d2bc.pdf
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات