این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
پردازش علائم و داده ها، جلد ۱۸، شماره ۱، صفحات ۶۰-۵۱

عنوان فارسی بهبود دقت واژگان کلیدی استخراج‌شده از متن فارسی با استفاده از الگوریتم Word۲Vec
چکیده فارسی مقاله واژگان کلیدی لغات مهمی از سند هستند که بیان‌گر توصیفی از متن هستند و نقش بسیار مهمی در فهم دقیق و سریع از محتوا دارند. شناسایی واژگان کلیدی از متن با روش‌های معمول کاری زمان‌بر و پرهزینه است. در این مقاله ابتدا با استفاده از شبکه عصبی پیشرو و از طریق الگوریتم Word2Vec ماتریس همبستگی واژگان را به‌ازای یک سند محاسبه و سپس با استفاده از ماتریس همبستگی و یک فهرست اولیه محدود از واژگان کلیدی، نزدیک‌ترین واژگان را از نظر شباهت در قالب فهرست نزدیک‌ترین همسایگی‌­ها استخراج می‌کنیم. فهرست به‌دست‌آمده را به‌صورت نزولی مرتب و از ابتدای فهرست، درصدهای مختلفی از واژگان را انتخاب و به‌ازای هر درصد، ده مرتبه فرایند آموزش شبکه عصبی و ساخت ماتریس همبستگی و استخراج فهرست نزدیک‌ترین ­همسایگی‌­ها را تکرار و در‌نهایت میانگین دقت، فراخوانی و معیارF را محاسبه می‌کنیم. این کار را تا جایی ادامه می‌­دهیم که به بهترین نتایج در ارزیابی دست یابیم؛ نتایج نشان می­‌دهند که به‌ازای انتخاب حداکثر چهل درصدِ واژگان از ابتدای فهرستِ نزدیک‌ترین همسایگی­‌ها، نتایج مورد قبولی به‌دست می‌­آید. الگوریتم بر روی پیکره‌ای با هشتصد خبر که به‌صورت دستی واژگان کلیدی آن‌ها را استخراج کرده‌ایم، آزمایش‌شده است و نتایج آزمایش‌ها نشان می‌دهد که دقت روش پیشنهادی 78 درصد خواهد بود.
کلیدواژه‌های فارسی مقاله واژگان کلیدی، الگوریتم word2Vec، شبکه عصبی، وزن دهی ویژگی

عنوان انگلیسی Improving Precision of Keywords Extracted From Persian Text Using Word2Vec Algorithm
چکیده انگلیسی مقاله Keywords can present the main concepts of the text without human intervention according to the model. Keywords are important vocabulary words that describe the text and play a very important role in accurate and fast understanding of the content. The purpose of extracting keywords is to identify the subject of the text and the main content of the text in the shortest time. Keyword extraction plays an important role in the fields of text summarization, document labeling, information retrieval, and subject extraction from text. For example, summarizing the contents of large texts into smaller texts is difficult, but having keywords in the text can make you aware of the topics in the text. Identifying keywords from the text with common methods is time-consuming and costly. Keyword extraction methods can be classified into two types with observer and without observer. In general, the process of extracting keywords can be explained in such a way that first the text is converted into smaller units called the word, then the redundant words are removed and the remaining words are weighted, then the keywords are selected from these words. Our proposed method in this paper for identifying keywords is a method with observer. In this paper, we first calculate the word correlation matrix per document using a feed forward neural network and Word2Vec algorithm. Then, using the correlation matrix and a limited initial list of keywords, we extract the closest words in terms of similarity in the form of the list of nearest neighbors. Next we sort the last list in descending format, and select different percentages of words from the beginning of the list, and repeat the process of learning the neural network 10 times for each percentage and creating a correlation matrix and extracting the list of closest neighbors. Finally, we calculate the average accuracy, recall, and F-measure. We continue to do this until we get the best results in the evaluation, the results show that for the largest selection of 40% of the words from the beginning of the list of closest neighbors, the acceptable results are obtained. The algorithm has been tested on corpus with 800 news items that have been manually extracted by keywords, and laboratory results show that the accuracy of the suggested method will be 78%.
کلیدواژه‌های انگلیسی مقاله keywords, word2vec algorithm, neural network, giving weight features

نویسندگان مقاله محمدرضا حسنی آهنگر | Mohammad Reza Hasni Ahangar
Imam Hossein University
دانشگاه جامع امام حسین (ع)

علی امیری جزه | Ali Amiri jezeh
Imam Hossein University
دانشگاه جامع امام حسین (ع)


نشانی اینترنتی http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-1502-1&slc_lang=fa&sid=1
فایل مقاله فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده مقالات پردازش متن
نوع مقاله منتشر شده کاربردی
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات