سامانه اطلاعات پژوهشی ایران

این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند

چهارشنبه 26 آذر 1404


هوش محاسباتی در مهندسی برق، جلد ۵، شماره ۳، صفحات ۲۳-۳۶


عنوان فارسی	بازشناسی مقاوم گفتار با استفاده از ویژگی‌ الگوهای زمانی به دست آمده از ساختار شبکه عصبی بهینه شده MTMLP

چکیده فارسی مقاله	ویژگی‌ الگوهای زمانی سیگنال صوتی از دو حوزه زمانی و یا بردارهای بازنمایی شده قابل استخراج است. این ویژگی دربرگیرنده اطلاعات و مشخصات زمان بلند از تغییرات پیوسته واحدهای گفتاری است. در این مقاله، ویژگی الگوهای زمانی با استفاده از خروجی مقدار احتمال پسین واجی ساختار بهینه شده شبکه عصبی MTMLP، از مجموعه بردارهای بازنمایی مبتنی بر طیف (مانند ویژگی گفتاری‌ LFBE) و همچنین، مبتنی بر کپستروم (مانند ویژگی گفتاری MFCC) استخراج شده است. با ترکیب اطلاعات الگوهای زمانی (دینامیکِ زمان‌بلند) به دست آمده از حوزه‌های لگاریتم طیف و کپستروم به بردار ویژگی‌های پایه بازشناسی، شامل ویژگی‌های گفتاری متداول MFCC و مشتقات زمانی اول و دوم آن (دینامیکِ زمان‌کوتاه)، نشان داده شده است که دقت بازشناسی واج در شرایط دادگان آزمون تمیز، حدود 1 درصد نسبت به نتایج بهترین سیستم پایه بازشناسی بهبود می‌یابد. این در حالی است که ویژگی‌های به دست آمده از روش پیشنهادی، بازشناسی مقاومتری را در شرایط نویزی مختلف (تا حدود 13 درصد) حاصل می‌نمایند که نشان دهنده مقاوم به نویز بودن روش پیشنهادی است.

کلیدواژه‌های فارسی مقاله

عنوان انگلیسی	Robust Speech Recognition Using Temporal Pattern Feature Extracted From MTMLP Structure

چکیده انگلیسی مقاله	Temporal Pattern feature of a speech signal could be either extracted from the time domain or via their front-end vectors. This feature includes long-term information of variations in the connected speech units. In this paper, the second approach is followed, i.e. the features which are the cases of temporal computations, consisting of Spectral-based (LFBE) and Cepstrum-based (MFCC) feature vectors, are considered. To extract these features, we use posterior probability-based output of the proposed MTMLP neural networks. The combination of the temporal patterns, which represents the long-term dynamics of the speech signal, together with some traditional features, composed of the MFCC and its first and second derivatives are evaluated in an ASR task. It is shown that the use of such a combined feature vector results in the increase of the phoneme recognition accuracy by more than 1 percent regarding the results of the baseline system, which does not benefit from the long-term temporal patterns. In addition, it is shown that the use of extracted features by the proposed method gives robust recognition under different noise conditions (by 13 percent) and, therefore, the proposed method is a robust feature extraction method.

کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله	فرشاد الماس گنج \| دانشگاه امیرکبیر سازمان اصلی تایید شده: دانشگاه صنعتی امیرکبیر (Amirkabir university of technology) یاسر شکفته \| دانشگاه امیرکبیر سازمان اصلی تایید شده: دانشگاه صنعتی امیرکبیر (Amirkabir university of technology)

نشانی اینترنتی	http://isee.ui.ac.ir/article_15397_00adafcd269a9075b4f0d469b80ddb65.pdf
فایل مقاله	اشکال در دسترسی به فایل - ./files/site1/rds_journals/1306/article-1306-343761.pdf
کد مقاله (doi)
زبان مقاله منتشر شده	fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده

برگشت به: صفحه اول پایگاه \| نسخه مرتبط \| نشریه مرتبط \| فهرست نشریات

ارسال پیام برخط

در صورت مشاهده هر نوع اشکال در داده های پایگاه و یا برای ارسال نظرات و پیشنهاد های خود می توانید با پر کردن فرم تماس ما را در جریان قرار دهید.
برای پر کردن فرم تماس اینجا را کلیک کنید.

آمار پایگاه

نمایه شده در ISI 135

نمایه شده در PubMed 109

نمایه شده در Scopus 192

کاربران برخط 263

بازدید امروز 46062

بازدید کل 39367954

اطلاعات تماس

آدرس : تهران، سعادت آباد، بلوار پاکنژاد شمالی، بالاتر از میدان سرو، نبش کوچه ندا، پلاک ۶۸، ساختمان جاوید، واحد ۱۶

پست الکترونیک: yektaweb-AT-gmail.com

توجه

کلیه حقوق این وب سایت و مطالب آن متعلق به شرکت یکتاوب بوده و استفاده از مطالب آن با ذکر منبع بلامانع است
طراحی و برنامه نویسی: یکتاوب افزار شرق