این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
پردازش علائم و داده ها، جلد ۱۷، شماره ۲، صفحات ۱۳۸-۱۲۱

عنوان فارسی مرجع‌گزینی در زبان فارسی با استفاده از شبکه عصبی عمیق
چکیده فارسی مقاله در حال حاضر با توجه به کثرت شبکه‌های اجتماعی و شبکه‌های خبری تلویزیونی، رادیویی، اینترنتی و غیره، خواندن تمام متون مختلف و به‌تبع آن تحلیل آن‌ها و دست‌یابی به ارتباطات این متون نیازمند صرف هزینه زمانی و انسانی بسیار بالا است که در عصر کنونی با استفاده از فن‌های مختلف پردازش زبان طبیعی صورت می‌گیرد، یکی از چالش‌های موجود در این زمینه پایین‌بودن دقت سامانه‌های مرجع‌گزینی است که سبب کشف روابط ناصحیح و یا عدم کشف روابط صحیح می‌شود. مراحل کلی حل مسأله مرجع‌گزینی از سه‌گامِ شناسایی موجودیت­‌های نامدار، استخراج ویژگی‌های موجودیت­‌های نامدار و مرجع‌گزینی آن‌ها تشکیل ‌شده است. موجودیت­های نامدار ویژگی‌های فراوانی دارند، وجود ویژگی‌های مختلف (متناسب و متناقض با مرجع) در گراف‌ها این امکان را می‌دهند که بتوان حد آستانه‌ای را از ترکیب ویژگی‌های مختلف استخراج کرد. در مقاله ارائه‌شده ابتدا پیش‌پردازش‌های مختلف روی پیکره پژوهشگاه خواجه‌نصیر [1] انجام گرفت؛ سپس با استفاده از الگوریتم‌های مبتنی بر شبکه عصبی عمیق داده‌های موجود به بردارهای عددی تبدیل شدند و پس از آن با استفاده از گراف و با ویژگی‌هایی که در متن مقاله عنوان‌شده هرس اولیه انجام گرفت؛ درواقع رویکردهای مبتنی بر گراف، موجودیت‌ها را همچون مجموعه‌ای از عناصر مرتبط با یکدیگر می‌شناسد که تحلیل روابط میان موجودیت‌های اولیه در گراف و وزن‌دهی به این ارتباط‌ها، منجر به استخراج ویژگی‌های سطح بالاتر و مرتبط‌تری می‌‌شود و نیز تناقضات ایجادشده بر اساس کمبود اطلاعات را تا حدودی کاهش می‌دهد. سپس با استفاده از شبکه‌های عصبی، روی پیکره مورداشاره در [30] (پیکره آزمون اپسلا) مرجع‌گزینی انجام گرفت که نتایج حاصل بیان‌گر بهبود روش پیشنهادی (رسیدن به دقت 09/62) است که در متن مقاله به‌طور مشروح بیان‌شده است.
کلیدواژه‌های فارسی مقاله مرجع‌گزینی، گراف، شناسایی موجودیت نامدار، استخراج اطلاعات از متن، شبکه‌های عصبی عمیق

عنوان انگلیسی Corefrence resolution with deep learning in the Persian Labnguage
چکیده انگلیسی مقاله Coreference resolution is an advanced issue in natural language processing. Nowadays, due to the extension of social networks, TV channels, news agencies, the Internet, etc. in human life, reading all the contents, analyzing them, and finding a relation between them require time and cost. In the present era, text analysis is performed using various natural language processing techniques, one of the challenges in this field is the low accuracy in detecting name entities' reference, which detection process has been named as coreference resolution. Coreference resolution is finding all expressions that refer to a name entity, and two expressions are coreference together when these expressions located in the same coreference cluster.      Coreference resolution could be used in many natural language processing tasks such as question answering, text summarization, machine translation, information extraction, etc. Coreference resolution methods are into two main categories; machine learning and rule-based approaches. In the rule-based approaches for detecting coreferences, a set of rich rule ordinary which written by a specialist is execued. These methods are quick, but these are language-dependent and necessary written to each language firstly again by a specialist. The machine learning method divides into supervised and unsupervised methods, in a supervised approach, it is require to have data labeled by a specialist. Coreference resolution included three main phases: named entities recognition, features extraction of name entities, and analyzes the coreferences, in which the primary phase is feature extraction. After corpus creation, name entities should be recognized in the corpus. This step depends on a corpus, in some corpora entities named as golden data, in this paper, we used RCDAT corpus, which determined name entities itself. After the name entities recognition phase, the mention pairs are determined, and the features are extracted. The proposed method uses two categories of the features: the first is word embedding vector, the second is handcrafted features, which are the distance between the mentions, head matching, gender matching, etc. This paper used a deep neural network to train the features extracted, in the analyze coreferences phase a Feed Forward Neural Network (FFNN) is trained by the candidate mention pairs (extracted features from them) and their labels (coreference / non-coreference or 1/0) so that the trained FFNN assigns a probability (between 0 and 1) to any given mention pair. Then used the graph technique with a threshold level to determine different or compatible name entities in the coreference resolution cluster.  This step creates the graph by using the extracted mention pairs from the previous step. In this graph, nodes are the mention pairs that are clustered by using the agglomerative hierarchical clustering algorithm inorder to locate similar mention pairs in a group. The resulting clusters are considered as coreference resolution chains. In this paper, RCDAT Persian language corpus is used for training the proposed coreference resolution approach and for testing the Uppsala Persian language dataset which is used and in the calculation of the accurate of system, different tools have been taken for features extraction which each of them effects on the accuracy of the whole system. The corpora, tools, and methods used in the system are standard. They are quite comparable to the ACE and Ontonotes corpora and tools used at the same time in the coreference resolution algorithm.  The results of the improvements proposed method (F1 = 62.09) is expressed in the text of the paper.
کلیدواژه‌های انگلیسی مقاله Coreference resolution, Deep neural networks, Graph, Named entities ecognition, Information extraction

نویسندگان مقاله حسین سهلانی | hossein sahlani
Malek Ashtar University of Technology
دانشگاه صنعتی مالک اشتر

مریم حورعلی | maryam Hourali
Malek Ashtar University of Technology
دانشگاه صنعتی مالک اشتر

بهروز مینایی بیدگلی | Behrouz Minaei-Bidgoli
Iran University of Science and Technology
دانشگاه علم و صنعت ایران


نشانی اینترنتی http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-1510-1&slc_lang=fa&sid=1
فایل مقاله فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده مقالات پردازش متن
نوع مقاله منتشر شده پژوهشی
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات