این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
پژوهشنامه پردازش و مدیریت اطلاعات، جلد ۳۵، شماره ۲، صفحات ۴۲۵-۴۶۲

عنوان فارسی معماری سامانه گراف دانش زبان فارسی
چکیده فارسی مقاله گراف دانش به عنوان یکی از بسترهای مهم جهت ورود به عرصه‌ وب معنایی و توسعه ابزارهای پردازش زبان طبیعی شناخته می‌شود. تا کنون پایگاه‌های دانش مختلفی در زبان‌های متعدد ایجاد شده است اما فقدان چنین پایگاهی مختص به زبان فارسی در کاربردهای پژوهشی و صنعتی کاملا مشهود است. در این مقاله جامع‌ترین پایگاه دانش زبان فارسی به صورت عمومی و چند دامنه‌ای مشتمل بر 500 هزار موجودیت و 7 میلیون رابطه میان آن‌ها با عنوان فارس‌بیس ارائه می‌گردد که به صورت متن باز در دسترس است. منابع اطلاعاتی فارس‌بیس عبارتند از: اطلاعات ساخت‌یافته ویکی‌پدیا مانند جعبه‌های اطلاعاتی، جداول وب و همچنین اطلاعاتی که توسط ماژول استخراج‌گر رابطه از متن خام استخراج شده‌اند. موجودیت‌های گراف دانش در یک هستان‌شناسی برگرفته از دی‌بی‌پدیا و سفارشی شده برای فارس‌بیس، سازمان‌دهی شده است. به منظور پیوند جعبه‌های اطلاعاتی ویکی‌پدیا به هستان‌شناسی بیش از 7000 نگاشت میان الگوها و خصیصه‌های ویکی‌پدیا با هستان‌شناسی برقرار شده است. همچنین با روش‌های یادگیری ماشین و با نظارت خبرگان، قسمتی از هستان‌شناسی و تعدادی از موجودیت‌ها به فارس‌نت متصل شده‌اند. مدل داده‌ای گراف دانش فارسی بر اساس استاندارد وب معنایی و به صورت RDF پیاده‌سازی شده است بنابراین داده‌ها به صورت سه‌تایی در پایگاه دانش ذخیره شده و می‌توان از طریق زبان SPARQL پرس‌وجوهای معنایی را بیان نمود. در حال حاضر اطلاعات متنوعی به صورت ساخت‌یافته راجع به اشخاص مشهور، مکان‌های مهم، سازمان‌ها و شرکت‌ها، آثار ادبی و هنری، گونه‌های زیستی شامل گیاهان و حیوانات، رویدادها، زیست‌شناسی و اخترشناسی در این گراف قابل دسترسی است. به منظور خدمت رسانی به موتورهای جستجو یک سامانه جستجو روی موجودیت‌ها و گزاره‌های آن پیاده‌سازی شده است. فارس‌بیس از چهار جنبه صحت، فراخوانی، پوشش و تازگی اطلاعات مورد ارزیابی قرار گرفته که نتایج به‌دست آمده حکایت از غنی بودن آن دارد. ‌بستر گراف دانش می‌تواند در کاربردهای بسیاری نظیر موتورهای جستجو، سامانه پرسش و پاسخ، بازیابی اطلاعات، پردازش زبان طبیعی، تشخیص موجودیت، مشابهت‌یابی متن و هر کاربردی که نیازمند موجودیت‌های فارسی و ارتباط میان آن‌هاست مورد استفاده قرار گیرد
کلیدواژه‌های فارسی مقاله

عنوان انگلیسی The Architecture of Farsi Knowledge Graph System
چکیده انگلیسی مقاله The knowledge graph plays an important role in the Semantic Web and Natural Language Processing (NLP) tools. There are many knowledge bases in different languages, however lack of Farsi-specific knowledge base appears some defects in research and industrial applications. In this study, the most comprehensive knowledge base in Farsi language is presented, which consists of more than 500K of entities and 7 million relations, which is accessible open source. Data is supplied 3 sources: Farsi Wikipedia and its structured data such as infobox, Web tables, relation extraction module. According to the semantic web, RDF data model and OWL2 ontology employed to implement the Farsi Knowledge Graph (FKG). Resources and their relations are stored in triple format, therefor access to the knowledge graph is provided by a SPARQL endpoint. An ontology, retrieved from DBpedia ontology, was developed and improved Based on resources of Farsi Wikipedia. Also, more than 8000 templates and properties of Wikipedia were mapped to the ontology automatically and manually. Furthermore, a part of the ontology was mapped to the FarsNet, the Persian WordNet, for research purposes. In the graph, there are a large amount of information on a variety of topics including famous people, important places, organizations and companies, literary and art works, physiology, biology, events, species, astronomy, etc. According to the Linked data, most of entities in the FKG have been connected to DBpedia and Wikidata resources by owl:sameAs. In order to achieve high performance and flexible data model, a two-level architecture for storing data was designed to separate data from metadata. This design plays a key role in update operation and managing versions. For evaluation purposes, a small part of triples were randomly collected to build a test dataset for manually inspection. Experimental results demonstrate that more than 94% of triples were obtained correctly through the process of extraction, conversion, mapping, transformation and store. Future of internet according to the semantic web will be a complex and huge global knowledge base, therefor the FKG can play a significant role in defining and developing this emerging technology.
کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله سید محمد باقر سجادی | Mohamad Bagher Sajadi
Department of Computer Engineering, University of Science and Technology, Tehran, Iran.
دانشگاه آزاد اسلامی واحد تهران مرکز

بهروز مینایی بیدگلی | Behrouz Minaei Bidgoli
Department of Computer Engineering, University of Science and Technology, Tehran, Iran.
دانشگاه علم و صنعت ایران


نشانی اینترنتی http://jipm.irandoc.ac.ir/browse.php?a_code=A-10-3162-2&slc_lang=fa&sid=1
فایل مقاله اشکال در دسترسی به فایل - ./files/site1/rds_journals/1504/article-1504-2331731.pdf
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده پژوهشی
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات