این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
جمعه 28 آذر 1404
پردازش علائم و داده ها
، جلد ۱۶، شماره ۴، صفحات ۹۳-۱۱۲
عنوان فارسی
تشخیص موجودیتهای نامدار در متون فارسی با استفاده از یادگیری عمیق
چکیده فارسی مقاله
شناسایی موجودیتهای نامدار[1] یکی از فعالیتهای زیربنایی در حوزه پردازش زبان طبیعی[2] و بهطورکلی زیرمجموعهای از استخراج اطلاعات[3] است. در فرآیند شناسایی موجودیتهای نامدار بهدنبال یافتن عناصر اسمی در متن و دستهبندی آنها به ردههایی ازپیشتعیینشده از قبیل اسامی اشخاص، سازمانها، مکانها، مذاهب، عنوان کتابها، عنوان فیلمها و غیره هستیم. در این مقاله با بهرهگیری از روشهای نوین در این حوزه مانند استفاده از دو بُردار مختلف بازنمایی معنایی واژگان برمبنای کلمه و حروف تشکیلدهنده آن برمبنای شبکههای عصبیو همچنین استفاده از روشهای یادگیری عمیق[4] یک سامانه تشخیص موجودیتهای نامدار معرفی میشود. همچنین در راستای پژوهش حاضر، یک پیکره برچسبگذاریشده شامل سههزار چکیده از ویکیپدیای فارسی که شامل نودهزار واژه است با استفاده از پانزده برچسب مختلف ارائه میشود که گام مهمی در ارتقای پژوهشهای آینده این حوزه برداشته خواهد شد. نتایج حاصل از ارزیابی سامانه پیشنهادی نشان میدهد که میتوان با استفاده از داده معرفیشده به دقت 09/72 در معیار F رسید. [1] Named Entity Recognition [2] Natural Language Processing [3] Information Extraction [4] Deep Learning
کلیدواژههای فارسی مقاله
عنوان انگلیسی
Named Entity Recognition in Persian Text using Deep Learning
چکیده انگلیسی مقاله
Named entities recognition is a fundamental task in the field of natural language processing. It is also known as a subset of information extraction. The process of recognizing named entities aims at finding proper nouns in the text and classifying them into predetermined classes such as names of people, organizations, and places. In this paper, we propose a named entity recognizer which benefits from neural network-based approaches for both word representation and entity tagging. In the word representation part of the proposed model, two different vector representations are used and compared: (1) the semantic representation of words based on their context using word2vec continues skip-gram model, and (2) the semantic representation of words based on their context as well ::as char::acters forming them using fasttext. While the former model captures the semantic concepts of words, the latter one considers the morphological similarity of words as well. For the entity identification, a deep Bidirectional Long Short Term Memory (BiLSTM) network is used. Using LSTM model helps to consider the history of text when predicting entities, while the BiLSTM model expands this idea by benefiting from the history from both sides of the context. Moreover, inline of the present research, an annotated corpus containing 3000 abstracts (90000 tokens) from the Persian Wikipedia is provided. In contrast to the available datasets in the field, which includes up to 7 label types, the new dataset contains 15 different labels, namely person individual, person group, organizations, locations, religions, books, magazines, movies, languages, nationalities, events, jobs, dates, fields, and other. Developing this dataset will be an important step in promoting future research in this field, especially for the tasks such as question answering that need wider range of entity types. The results of the proposed system show that by using the introduced model and the provided data, the system can achieve 72.92 F-measure.
کلیدواژههای انگلیسی مقاله
نویسندگان مقاله
سعیده ممتازی | Saeedeh Momtazi
Amirkabir University of Technology
دانشگاه صنعتی امیرکبیر
فرزانه ترابی | Farzaneh Torabi
Amirkabir University of Technology
دانشگاه صنعتی امیرکبیر
نشانی اینترنتی
http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-1467-1&slc_lang=fa&sid=1
فایل مقاله
اشکال در دسترسی به فایل - ./files/site1/rds_journals/1315/article-1315-2413922.pdf
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
مقالات پردازش متن
نوع مقاله منتشر شده
پژوهشی
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات