این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
دوشنبه 24 آذر 1404
پژوهشنامه پردازش و مدیریت اطلاعات
، جلد ۳۵، شماره ۲، صفحات ۴۲۵-۴۶۲
عنوان فارسی
معماری سامانه گراف دانش زبان فارسی
چکیده فارسی مقاله
گراف دانش به عنوان یکی از بسترهای مهم جهت ورود به عرصه وب معنایی و توسعه ابزارهای پردازش زبان طبیعی شناخته میشود. تا کنون پایگاههای دانش مختلفی در زبانهای متعدد ایجاد شده است اما فقدان چنین پایگاهی مختص به زبان فارسی در کاربردهای پژوهشی و صنعتی کاملا مشهود است. در این مقاله جامعترین پایگاه دانش زبان فارسی به صورت عمومی و چند دامنهای مشتمل بر 500 هزار موجودیت و 7 میلیون رابطه میان آنها با عنوان فارسبیس ارائه میگردد که به صورت متن باز در دسترس است. منابع اطلاعاتی فارسبیس عبارتند از: اطلاعات ساختیافته ویکیپدیا مانند جعبههای اطلاعاتی، جداول وب و همچنین اطلاعاتی که توسط ماژول استخراجگر رابطه از متن خام استخراج شدهاند. موجودیتهای گراف دانش در یک هستانشناسی برگرفته از دیبیپدیا و سفارشی شده برای فارسبیس، سازماندهی شده است. به منظور پیوند جعبههای اطلاعاتی ویکیپدیا به هستانشناسی بیش از 7000 نگاشت میان الگوها و خصیصههای ویکیپدیا با هستانشناسی برقرار شده است. همچنین با روشهای یادگیری ماشین و با نظارت خبرگان، قسمتی از هستانشناسی و تعدادی از موجودیتها به فارسنت متصل شدهاند. مدل دادهای گراف دانش فارسی بر اساس استاندارد وب معنایی و به صورت RDF پیادهسازی شده است بنابراین دادهها به صورت سهتایی در پایگاه دانش ذخیره شده و میتوان از طریق زبان SPARQL پرسوجوهای معنایی را بیان نمود. در حال حاضر اطلاعات متنوعی به صورت ساختیافته راجع به اشخاص مشهور، مکانهای مهم، سازمانها و شرکتها، آثار ادبی و هنری، گونههای زیستی شامل گیاهان و حیوانات، رویدادها، زیستشناسی و اخترشناسی در این گراف قابل دسترسی است. به منظور خدمت رسانی به موتورهای جستجو یک سامانه جستجو روی موجودیتها و گزارههای آن پیادهسازی شده است. فارسبیس از چهار جنبه صحت، فراخوانی، پوشش و تازگی اطلاعات مورد ارزیابی قرار گرفته که نتایج بهدست آمده حکایت از غنی بودن آن دارد. بستر گراف دانش میتواند در کاربردهای بسیاری نظیر موتورهای جستجو، سامانه پرسش و پاسخ، بازیابی اطلاعات، پردازش زبان طبیعی، تشخیص موجودیت، مشابهتیابی متن و هر کاربردی که نیازمند موجودیتهای فارسی و ارتباط میان آنهاست مورد استفاده قرار گیرد
کلیدواژههای فارسی مقاله
عنوان انگلیسی
The Architecture of Farsi Knowledge Graph System
چکیده انگلیسی مقاله
The knowledge graph plays an important role in the Semantic Web and Natural Language Processing (NLP) tools. There are many knowledge bases in different languages, however lack of Farsi-specific knowledge base appears some defects in research and industrial applications. In this study, the most comprehensive knowledge base in Farsi language is presented, which consists of more than 500K of entities and 7 million relations, which is accessible open source. Data is supplied 3 sources: Farsi Wikipedia and its structured data such as infobox, Web tables, relation extraction module. According to the semantic web, RDF data model and OWL2 ontology employed to implement the Farsi Knowledge Graph (FKG). Resources and their relations are stored in triple format, therefor access to the knowledge graph is provided by a SPARQL endpoint. An ontology, retrieved from DBpedia ontology, was developed and improved Based on resources of Farsi Wikipedia. Also, more than 8000 templates and properties of Wikipedia were mapped to the ontology automatically and manually. Furthermore, a part of the ontology was mapped to the FarsNet, the Persian WordNet, for research purposes. In the graph, there are a large amount of information on a variety of topics including famous people, important places, organizations and companies, literary and art works, physiology, biology, events, species, astronomy, etc. According to the Linked data, most of entities in the FKG have been connected to DBpedia and Wikidata resources by owl:sameAs. In order to achieve high performance and flexible data model, a two-level architecture for storing data was designed to separate data from metadata. This design plays a key role in update operation and managing versions. For evaluation purposes, a small part of triples were randomly collected to build a test dataset for manually inspection. Experimental results demonstrate that more than 94% of triples were obtained correctly through the process of extraction, conversion, mapping, transformation and store. Future of internet according to the semantic web will be a complex and huge global knowledge base, therefor the FKG can play a significant role in defining and developing this emerging technology.
کلیدواژههای انگلیسی مقاله
نویسندگان مقاله
سید محمد باقر سجادی | Mohamad Bagher Sajadi
Department of Computer Engineering, University of Science and Technology, Tehran, Iran.
دانشگاه آزاد اسلامی واحد تهران مرکز
بهروز مینایی بیدگلی | Behrouz Minaei Bidgoli
Department of Computer Engineering, University of Science and Technology, Tehran, Iran.
دانشگاه علم و صنعت ایران
نشانی اینترنتی
http://jipm.irandoc.ac.ir/browse.php?a_code=A-10-3162-2&slc_lang=fa&sid=1
فایل مقاله
اشکال در دسترسی به فایل - ./files/site1/rds_journals/1504/article-1504-2331731.pdf
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
پژوهشی
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات