این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
سه شنبه 2 دی 1404
ماشین بینایی و پردازش تصویر
، جلد ۱۰، شماره ۱، صفحات ۷۵-۹۱
عنوان فارسی
توصیف محتوای تصاویر به صورت خودکار با بکارگیری شبکه عصبی کپسولی و روش تعبیه سازی ELMo
چکیده فارسی مقاله
توصیف محتوای تصویر به صورت خودکار توسط ماشین یک مشکل چالش برانگیز در بینایی کامپیوتر است و هدف آن تولید توضیحات قابل درک توسط کامپیوتر برای تصاویر میباشد. استفاده از شبکه های عصبی پیچشی (CNN) نقش مهمی در زمینه توصیف تصاویر ایفا کرده است. با این حال، در طول فرآیند تولید توصیفهای مرتبط با تصویر دو چالش عمده برای CNN وجود دارد که عبارتند از: عدم توجه آنها به روابط و ساختارهای سلسله مراتبی مکانی بین اشیای درون تصویر، و عدم ثبات در مقابل تغییرات چرخشی تصاویر. به منظور رفع این چالش ها این مقاله با بهره گیری از یک شبکه کپسولی بهبود یافته، به توصیف محتوای تصویر با استفاده از پردازش زبان طبیعی میپردازد. شبکه کپسولی با درنظر گرفتن موقعیت مکانی اشیای درون تصویر نسبت به یکدیگر، اطلاعات مربوط به محتوای تصویر را ارائه میدهد. یک کپسول شامل مجموعهای از نورونها است که پارامترهای وضعیت اشیا درون تصویر مانند سایز، جهت، مقیاس و روابط اشیا نسبت به هم را در نظر می گیرند. این کپسول ها تمرکز ویژهای بر استخراج ویژگی های معنادار برای استفاده در فرآیند تولید توضیحات مرتبط برای مجموعه ای معین از تصاویر دارند. آزمایشهای کیفی روی مجموعه دادههای MS-COCO با بهره گیری از شبکه کپسولی و روش تعبیه سازی ELMo، منجر به بهبود 2 تا 5 درصدی معیارهای ارزیابی شده، در مقایسه با مدلهای زیرنویس تصویر موجود شده است.
کلیدواژههای فارسی مقاله
توصیف تصاویر، یادگیری عمیق، شبکه کپسولی، شبکه عصبی پیچشی، پردازش زبان طبیعی،
عنوان انگلیسی
Automatic image captioning using capsule neural network and ELMo embedding technique
چکیده انگلیسی مقاله
Automatic image captioning is a challenging task in computer vision and aims to generate computer-understandable descriptions for images. Employing convolutional neural networks (CNN) has a key role in image caption generation. However, during the process of generating descriptions for an image, there are two major challenges for CNN, such as: they do not consider the relationships and spatial hierarchical structures between the objects in the image, and the lack of resistance against rotational changes of the images. In order to solve these challenges, this paper presents an improved capsule network to describe image content using natural language processing by considering the relations between the objects . A capsule contains a set of neurons that consider the parameters of the state of objects in the image, such as size, direction, scale, and relationships of objects to each other. These capsules have a special focus on extracting meaningful features for use in the process of generating relevant descriptions for a given set of images. Qualitative tests on the MS-COCO dataset using the capsule network and ELMo embedding technique have resulted in 2-5% improvement in the evaluated metrics compared to existing image captioning models.
کلیدواژههای انگلیسی مقاله
توصیف تصاویر, یادگیری عمیق, شبکه کپسولی, شبکه عصبی پیچشی, پردازش زبان طبیعی
نویسندگان مقاله
شیما جوانمردی |
دانشجوی مهندسی دکتری هوش مصنوعی، دانشگاه یزد
علی محمد لطیف |
دانشکده مهندسی کامپیوتر، دانشگاه یزد
محمدتقی صادقی |
دانشکده مهندسی برق، دانشگاه یزد
نشانی اینترنتی
https://jmvip.sinaweb.net/article_160256_b219b6b2dde59970511ca2d4fbe433be.pdf
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات