سامانه اطلاعات پژوهشی ایران

این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند

سه شنبه 25 آذر 1404


پژوهشنامه پردازش و مدیریت اطلاعات، جلد ۳۵، شماره ۳، صفحات ۷۲۹-۷۵۴


عنوان فارسی	ارائه روشی ساختار محور برای ایجاد پایگاه داده از تصاویر مستخرج از اسناد علمی: مورد مطالعه پایگاه اطلاعات علمی ایران (گنج)

چکیده فارسی مقاله	تصاویر موجود در مدارک علمی غالبا حاوی اطلاعات مهمی هستند. اولین قدم برای بازیابی اطلاعات از این تصاویر ایجاد یک پایگاه داده معتبر از آن‌ها است. برای این منظور در این مقاله سیستمی خودکار برای ایجاد پایگاه داده از تصاویر موجود در مدارک علمی فارسی در مقیاس بزرگ ارائه می‌شود. این سیستم پیشنهادی در نتیجه مطالعات اسنادی طراحی شده و بخش‌های مختلفی دارد. در مرحله اول باید تصاویر و توضیح متنی آن‌ها استخراج گردد. به طور کلی دو رویکرد برای استخراج تصاویر و توضیح متنی آن‌ها از فایل وجود دارد. در رویکرد اول فایل به تصویر تبدیل می‌شود و از تکنیک‌های پردازش تصویر برای استخراج اطلاعات گرافیکی استفاده می‌شود. رویکرد دوم بر اساس پردازش ساختار و آرایش خود فایل است. از آنجایی که روش دوم از لحاظ سرعت و قابلیت مقیاس‌پذیری برای استفاده در موتورهای جستجو مناسب‌تر است، تمرکز این مقاله بر روی روش دوم است. بدین ترتیب برای استخراج تصاویر و توضیح متنی آن‌ها از یک روش ساختار محور استفاده می‌شود که مبتنی بر چیدمان و آرایش فایل ورد سند است. در نتیجه، مجموعه‌ای از تصاویر به همراه توضیحات و اطلاعات مربوط به آن‌ها به دست می‌آید که باید در یک پایگاه داده تصاویر با ساختاری مشخص ذخیره گردند. سپس این اطلاعات برای بازیابی و استفاده‌های آتی در یک موتور جستجو نمایه خواهند شد. روش پیشنهادی در زبان برنامه‌نویسی پایتون پیاده‌سازی شد و برای ارزیابی کارایی آن از روش مرسوم پردازش فایل پی‌دی‌اف اسناد کمک گرفته شد. سپس روش پیشنهادی در یک مطالعه موردی در پایگاه اطلاعات علمی ایران (گنج) به کار گرفته شد. تعداد 150 مدرک علمی به تصادف از پایگاه گنج انتخاب شده و با کمک این دو روش مورد تجزیه و تحلیل قرار گرفت. بنا به یافته‌های پژوهش دیده می‌شود که استخراج اطلاعات متنی از فایل پی‌دی‌اف در زبان فارسی با چالش‌های زیادی روبرو است و نمی‌تواند خروجی مناسبی در این زمینه حاصل کند. از طرف دیگر میزان تصاویر نامطلوب تولید شده از فایل پی‌دی‌اف بسیار زیاد است که از کاربست‌پذیری آن در شرایط واقعی می‌کاهد. از این رو روش پیشنهادی به عنوان گزینه‌ای مناسب برای استخراج تصویر و توضیحات آن‌ها از اسناد علمی در زبان فارسی و ایجاد پایگاه داده از آن‌ها پیشنهاد می‌شود. روش پیشنهادی قادر است حدود 40 درصد تصاویر را همراه با زیرنویس مربوطه بدون خطا استخراج کند؛ که نسبت به روش پایه که قادر به استخراج 30 درصد از تصاویر است، کارآیی بهتری دارد.

کلیدواژه‌های فارسی مقاله	پردازش تصویر، استخراج تصویر، استخراج فراداده، فناوری اطلاعات

عنوان انگلیسی	A Structure-Based Method for Building a Database of Extracted Figures from Scientific Documents: A Case Study of Iran Scientific Information Database (GANJ)

چکیده انگلیسی مقاله	Figures in scientific documents are rich source of information. The first step in retrieving information from such figures is to build a valid figure database. To this end, we developed a system for generating figure database from scholarly Persian documents, in large scale. The first step is to parse files and extract figures and their corresponding descriptions. There are two general approaches for extracting figures from documents, one is based on image processing methods and another one is based on processing the file primitives. The focus of this paper is on later one. This approach is shown to be a better choice for the search engines because of its speed and scalability properties. We propose a structure based method that extracts the figures and their descriptions by analyzing the file layout. This information is saved in a database with a specific structure and is indexed for retrieval in the search engine. The proposed algorithm was implemented in Python programming language. As a benchmark we used the basic method in the literature which is based on the processing PDF file. We employed the proposed method in a case study on Iran scientific information database (Ganj). In this regard, 150 scientific documents were randomly chosen from Ganj database and analyzed using two mentioned methods. Based on our experimental results, the proposed method is more efficient than the basic method especially for Persian documents. There many unanswered challenges for Persian documents when using the basic method. The number of noise images resulted from the basic method is high and Persian text extracted is not well organized. Our proposed method overcomes some of these drawbacks and is recommended for generating figure database from scientific Persian documents. The proposed method is able to correctly extract about 40% of the images with their corresponding descriptions which is 10% better than the basic method.

کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله	آزاده فخرزاده \| Azadeh Fakhrzadeh Iranian Research Institute for Information Science and Technology (IranDoc) پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) امیرحسین صدیقی \| Amir Hossein Seddighi Iranian Research Institute for Information Science and Technology (IranDoc) پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

نشانی اینترنتی	http://jipm.irandoc.ac.ir/browse.php?a_code=A-10-5614-1&slc_lang=fa&sid=1
فایل مقاله	اشکال در دسترسی به فایل - ./files/site1/rds_journals/1504/article-1504-2454185.pdf
کد مقاله (doi)
زبان مقاله منتشر شده	fa
موضوعات مقاله منتشر شده	فناوری اطلاعات
نوع مقاله منتشر شده	پژوهشی

برگشت به: صفحه اول پایگاه \| نسخه مرتبط \| نشریه مرتبط \| فهرست نشریات

ارسال پیام برخط

در صورت مشاهده هر نوع اشکال در داده های پایگاه و یا برای ارسال نظرات و پیشنهاد های خود می توانید با پر کردن فرم تماس ما را در جریان قرار دهید.
برای پر کردن فرم تماس اینجا را کلیک کنید.

آمار پایگاه

نمایه شده در ISI 135

نمایه شده در PubMed 109

نمایه شده در Scopus 192

کاربران برخط 877

بازدید امروز 21008

بازدید کل 39281992

اطلاعات تماس

آدرس : تهران، سعادت آباد، بلوار پاکنژاد شمالی، بالاتر از میدان سرو، نبش کوچه ندا، پلاک ۶۸، ساختمان جاوید، واحد ۱۶

پست الکترونیک: yektaweb-AT-gmail.com

توجه

کلیه حقوق این وب سایت و مطالب آن متعلق به شرکت یکتاوب بوده و استفاده از مطالب آن با ذکر منبع بلامانع است
طراحی و برنامه نویسی: یکتاوب افزار شرق