این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
یکشنبه 30 آذر 1404
ماشین بینایی و پردازش تصویر
، جلد ۱۰، شماره ۲، صفحات ۷۷-۸۸
عنوان فارسی
توصیف تصاویر مبتنی بر شبکه عمیق رمزگذار-رمزگشا و سازوکار توجه بر توجه
چکیده فارسی مقاله
توصیف تصویر یک زمینه تحقیقاتی بین رشته ای در بینایی ماشین و پردازش زبان طبیعی است. بسیاری از روشهای پیشنهاد شده برای تولید توصیف تصویر از چارچوب رمزگذار - رمزگشا پیروی کردهاند. به این ترتیب هر کلمه بر اساس ویژگیهای تصویر و کلمات تولید شده قبلی تولید میشود. اخیراً سازوکار توجه، که میتواند با ایجاد نقشه فضایی، مناطق مرتبط تصویر با هر کلمه را برجسته کند، به طور گسترده در تحقیقات استفاده شده است. در این مقاله، ما یک روش جدید را پیشنهاد کردهایم که چارچوب رمزگذار-رمزگشا را با سازوکار توجه و سازوکار توجه بر توجه ادغام کرده است. بخش رمزگذار مدل شامل چند بخش ResNet، Attention-LSTM، Multi Head Attention و Attention on Attention است. از ResNet برای استخراج ویژگی های کلی تصویر استفاده شده است. ایهی Language-LSTMمسئولیت رمزگشایی را بر عهده دارد. سازوکار توجه از شواهد محلی برای افزایش نمایش ویژگیها و استدلال در تولید توصیفات تصویری بهره برده و سازوکار توجه بر توجه میتواند روابط اشیای داخل تصاویر را بهخوبی درک کند. این روش پیشنهادی توانسته است بر روی تصاویر مجموعههای داده Flickr8k و MSCOCOتوصیفهای بهتری را نسبت به روشهای موفق موجود ارائه دهد. همچنین بر اساس معیارهای ارزیابی METEOR، ROUGEعملکرد توصیف تصویر را بهبود داده است.
کلیدواژههای فارسی مقاله
توصیف تصویر، رمزگذار-رمزگشا سازوکار توجه، سازوکار توجه بر توجه، پردازش زبانها طبیعی،
عنوان انگلیسی
Image Captioning based on Encoder-Decoder Deep Network and Attention on Attention
چکیده انگلیسی مقاله
Image captioning is an interdisciplinary research field in machine vision and natural language processing. Most of the proposed methods for generating image captions follow an encoder-decoder framework. In this way, each word is generated based on the image features and previously generated words. Recently the attention mechanism, which usually creates a spatial map that highlights the image regions associated with each word, has been widely used in research. In this paper, we propose a new method that integrates the encoder-decoder framework with the attention on attention mechanism. The encoder part of the model uses ResNet to extract global features of the image, and the decoder consists of three important parts: Attention-LSTM, Language-LSTM, and Attention on attention-layer. The attention mechanism uses local evidence to enhance the demonstration of the features and reasoning in the generation of image descriptions. The method was able to improve the generation of captions and improve METEOR, ROUGH evaluation metric well. And also it generates better captions compared to modern methods on the Flickr8k, dataset.
کلیدواژههای انگلیسی مقاله
توصیف تصویر, رمزگذار-رمزگشا سازوکار توجه, سازوکار توجه بر توجه, پردازش زبانها طبیعی
نویسندگان مقاله
زهرا فامیل ستاری |
آزمایشگاه هوش و بینایی ربات، گروه مهندسی کامپیوتر، دانشگاه بوعلی سینا
حسن ختن لو |
آزمایشگاه هوش و بینایی ربات، گروه مهندسی کامپیوتر، دانشگاه بوعلی سینا
الهام علیقارداش |
آزمایشگاه هوش و بینایی ربات، گروه مهندسی کامپیوتر، دانشگاه بوعلی سینا
نشانی اینترنتی
https://jmvip.sinaweb.net/article_167805_831fa56315be1a01e51499553ae2dc32.pdf
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات