این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
جمعه 28 آذر 1404
پردازش علائم و داده ها
، جلد ۱۶، شماره ۱، صفحات ۹۱-۱۱۰
عنوان فارسی
پیما: پیکره برچسبخورده موجودیتهای اسمی زبان فارسی
چکیده فارسی مقاله
هدف در مسأله تشخیص موجودیتهای اسمی، ردهبندی اسامی خاص متن با برچسبهایی همچون شخص، مکان، و سازمان است. این مسأله بهعنوان یکی از گامهای پیشپردازشی بسیاری از مسائل پردازش زبان طبیعی مطرح است. اگر چه در زبان انگلیسی پژوهشهای زیادی در این حوزه انجام شده و سامانهها به کیفیت F1 بالای نود درصد دست یافتهاند، در زبان فارسی بهدلیل نبود یک مجموعه داده استاندارد، پژوهشهای کمی در این زمینه انجام شده است. در این پژوهش به ساخت چنین مجموعهدادهای میپردازیم و آن را بهصورت آزاد در اختیار پژوهشگران قرار میدهیم؛ سپس با استفاده از این مجموعهداده به طراحی سامانه آماری با استفاده از مدل میدانهای تصادفی شرطی و نیز سامانهای مبتنی بر شبکههای عصبی بازگشتی از نوع LSTM برای تشخیص موجودیتهای اسمی میپردازیم. در پیکره ایجادشده هفت نوع موجودیت شخص، مکان، سازمان، زمان، تاریخ، درصد، و مقادیر پولی برچسب خوردهاند و درنتیجه تمام ارزیابیهای سامانه طراحیشده بر روی این هفت برچسب انجام میگیرد. برای طراحی این سامانه، پس از آموزش یک سامانه آماری مبتنی بر الگوریتم CRF، از خروجی این سامانه بهعنوان یک ویژگی برای آموزش یک شبکه عصبی بازگشتی LSTM دوطرفه استفاده میکنیم. علاوهبر این ویژگی، از خوشهبندی واژگان به روش k- means نیز بهره میبریم. برای این کار، شماره خوشه واژگان را بهعنوان یک ویژگی در اختیار شبکه عصبی LSTM قرار میدهیم و به این ترتیب سامانه ترکیبی نهایی ساخته میشود. این شیوه ترکیب مدل CRF با مدل شبکه عصبی و نیز استفاده از شماره خوشه برای هر واژه در روش خوشهبندی k-means نوآوری این پژوهش محسوب میشود. نتایج آزمایشها نشان میدهد که با استفاده از مدل نهایی به F1 برابر با 87 درصد در سطح واژه و هشتاد درصد در سطح عبارت موجودیت اسمی میرسیم. همچنین آزمایشها نشان میدهد که روش پیشنهادی برای استفاده از خروجی مدل CRF بهعنوان یک ویژگی در ورودی مدل شبکه عصبی باعث میشود که با دراختیارداشتن حجم کمتری از داده برچسبخورده به کیفیت قابل قبولی در تشخیص موجودیتهای اسمی برسیم که این مسأله میتواند در زبانهایی که حجم داده برچسبخورده آنها محدود است، مفید باشد.
کلیدواژههای فارسی مقاله
عنوان انگلیسی
PAYMA: A Tagged Corpus of Persian Named Entities
چکیده انگلیسی مقاله
The goal in the named entity recognition task is to classify proper nouns of a piece of text into classes such as person, location, and organization. Named entity recognition is an important preprocessing step in many natural language processing tasks such as question-answering and summarization. Although many research studies have been conducted in this area in English and the state-of-the-art NER systems have reached performances of higher than 90 percent in terms of F1 measure, there are very few research studies on this task in Persian. One of the main important reasons for this may be the lack of a standard Persian NER dataset to train and test the NER systems. In this research we create a standard tagged Persian NER dataset which will be distributed freely for research purposes. In order to construct this standard dataset, we studied the existing standard NER datasets in English and came to the conclusion that almost all of these datasets are constructed using news data. Thus we collected documents from ten news websites in Persian. In the next step, in order to provide the annotators with guidelines to tag these documents, we studied the guidelines used for constructing CoNLL and MUC English datasets and created our own guidelines considering the Persian linguistic rules. Using these guidelines, all words in documents can be labeled as person, location, organization, time, date, percent, currency, or other (words that are not in any of these 7 classes). We use IOB encoding for annotating named entities in documents, like most of the existing English NER datasets. Using this encoding, the first token of a named entity is labeled with B, and the next tokens (if exist) are labeled with I. The words that are not part of any named entity are labeled with O. The constructed corpus, named PAYMA, consists of 709 documents and includes 302530 tokens. 41148 tokens out of these tokens are labeled as named entities and the others are labeled as O. In order to determine the inter-annotator agreement, 160 documents were labeled by a second annotator. Kappa statistic was estimated as 95% using words that are labeled as named entities. After creating the dataset, we used the dataset to design a hybrid system for named entity recognition. We trained a statistical system based on the CRF algorithm, and used its output as a feature to train a bidirectional LSTM recurrent neural network. Moreover, we used the k-means word clustering method to cluster the words and fed the cluster number of each word to the LSTM neural network. This form of combining CRF with neural networks and using the cluster number for each word is the novelty of this research work. Experimental results show that the final model can reach an F1 score of 87% at word-level and 80% at phrase level.
کلیدواژههای انگلیسی مقاله
نویسندگان مقاله
مهساسادات شهشهانی | Mahsa Sadat Shahshahani
College of Engineering, University of Tehran
دانشگاه تهران
مهدی محسنی | Mahdi Mohseni
College of Engineering, University of Tehran
دانشگاه تهران
آزاده شاکری | Azadeh Shakery
College of Engineering, University of Tehran
دانشگاه تهران
هشام فیلی | Heshaam Faili
College of Engineering, University of Tehran
دانشگاه تهران
نشانی اینترنتی
http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-212-1&slc_lang=fa&sid=1
فایل مقاله
اشکال در دسترسی به فایل - ./files/site1/rds_journals/1315/article-1315-1593810.pdf
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
مقالات پردازش متن
نوع مقاله منتشر شده
کاربردی
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات