این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
شنبه 29 آذر 1404
رایانش نرم و فناوری اطلاعات
، جلد ۱۰، شماره ۴، صفحات ۸۸-۹۸
عنوان فارسی
بهبود تقطیع معنایی ویدئو با استفاده از شبکههای عصبی عمیق و جریان نوری
چکیده فارسی مقاله
امروزه از تقطیع معنایی ویدئو در کاربردهای بسیاری از قبیل خودروهای بدون سرنشین، سیستمهای ناوبری، سیستمهای واقعیت مجازی و ... استفاده میشود. در سالهای اخیر پیشرفت چشمگیری در تقطیع معنایی تصاویر مشاهده شده است. اما از آنجا که فریمهای پشت سر هم یک ویدئو باید با سرعت بالا و تاخیر کم و به صورت بلادرنگ پردازش شوند استفاده از تقطیع معنایی تصویر روی تک تک فریمهای ویدئو با مشکل مواجه میشود؛ بنابراین تقطیع معنایی فریمهای یک ویدئو به صورت بلادرنگ و با دقت مناسب موضوعی چالش برانگیز است. به منظور مقابله با چالش ذکر شده، در این مقاله یک چارچوب تقطیع معنایی ویدئو معرفی شده است که با در نظر گرفتن تغییرات فریمهای پشت سر هم (با استفاده از جریان نوری) و بهره گیری از شبکه عمیق بازگشتی GRU، از اطلاعات تقطیع معنایی فریمهای قبلی به منظور افزایش سرعت و دقت استفاده شده است. یک ورودی شبکه GRU تخمینی از تقطیع معنایی فریم فعلی (حاصل از یک شبکه عمیق کانولوشنال از پیش آموزش دیده)، و ورودی دیگر آن لغزش یافته تقطیع معنایی فریم قبلی در راستای جریان نوری دو فریم قبلی و فعلی میباشد. روش پیشنهادی دارای دقت و سرعت قابل رقابت با شناخته شدهترین و بهترین روشها میباشد. دقت تقطیع معنایی بر اساس معیار ارزیابی mIoU روی مجموعه دادههای Cityscapes و Camvid به ترتیب برابر با 83.1 و 79.8 میباشد. این در حالیست که در روش پیشنهادی سرعت تقطیع معنایی با استفاده از یک GPU تسلا مدل P4 روی مجموعه دادههای Cityscapes و Camvid به ترتیب به 34 و 36.3 فریم بر ثانیه رسیده است.
کلیدواژههای فارسی مقاله
تقطیع معنایی ویدئو، شبکه عصبی عمیق، جریان نوری،
عنوان انگلیسی
Improving Video Semantic Segmentation using Deep Neural Networks and Optical Flow
چکیده انگلیسی مقاله
Nowadays, video semantic segmentation is used in many applications such as automatic driving, navigation systems, virtual reality systems, etc. In recent years, significant progress has been observed in semantic segmentation of images. Since the consecutive frames of a video must be processed with high speed, low latency, and in real time, using semantic image segmentation methods on individual video frames is not efficient. Therefore, semantic segmentation of video frames in real time and with appropriate accuracy is a challenging topic. In order to encounter the mentioned challenge, a video semantic segmentation framework has been introduced. In this method, the previous frames semantic segmentation has been used to increase speed and accuracy. For this manner we use the optical flow (change of continuous frames) and a GRU deep neural network called ConvGRU. One of the GRU input is estimation of current frames semantic segmentation (resulting from a pre-trained convolutional neural network), and the other one is warping of previous frames semantic segmentation along the optical flow. The proposed method has competitive results on accuracy and speed. This method achieves good performances on two challenging video semantic segmentation datasets, particularly 83.1% mIoU on Cityscapes and 79.8% mIoU on CamVid dataset. Meanwhile, in the proposed method, the semantic segmentation speed using a Tesla P4 GPU on the Cityscapes and Camvid datasets has reached 34 and 36.3 fps, respectively.
کلیدواژههای انگلیسی مقاله
تقطیع معنایی ویدئو, شبکه عصبی عمیق, جریان نوری
نویسندگان مقاله
محمد مهدی نجفی |
دانشجوی کارشناسی ارشد، مجتمع مهندسی برق و کامپیوتر، دانشگاه صنعتی مالک اشتر.
محمد فخردانش |
گروه علمی مهندسی کامپیوتر (هوش مصنوعی)، پژوهشکده کامپیوتر و هوش مصنوعی، مجتمع برق و کامپیوتر، دانشگاه صنعتی مالک اشتر، تهران، ایران
نشانی اینترنتی
https://jscit.nit.ac.ir/article_144029_66ce266b918f0f9b3a90b314b9c98148.pdf
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات