این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
چهارشنبه 26 آذر 1404
هوش محاسباتی در مهندسی برق
، جلد ۵، شماره ۳، صفحات ۲۳-۳۶
عنوان فارسی
بازشناسی مقاوم گفتار با استفاده از ویژگی الگوهای زمانی به دست آمده از ساختار شبکه عصبی بهینه شده MTMLP
چکیده فارسی مقاله
ویژگی الگوهای زمانی سیگنال صوتی از دو حوزه زمانی و یا بردارهای بازنمایی شده قابل استخراج است. این ویژگی دربرگیرنده اطلاعات و مشخصات زمان بلند از تغییرات پیوسته واحدهای گفتاری است. در این مقاله، ویژگی الگوهای زمانی با استفاده از خروجی مقدار احتمال پسین واجی ساختار بهینه شده شبکه عصبی MTMLP، از مجموعه بردارهای بازنمایی مبتنی بر طیف (مانند ویژگی گفتاری LFBE) و همچنین، مبتنی بر کپستروم (مانند ویژگی گفتاری MFCC) استخراج شده است. با ترکیب اطلاعات الگوهای زمانی (دینامیکِ زمانبلند) به دست آمده از حوزههای لگاریتم طیف و کپستروم به بردار ویژگیهای پایه بازشناسی، شامل ویژگیهای گفتاری متداول MFCC و مشتقات زمانی اول و دوم آن (دینامیکِ زمانکوتاه)، نشان داده شده است که دقت بازشناسی واج در شرایط دادگان آزمون تمیز، حدود 1 درصد نسبت به نتایج بهترین سیستم پایه بازشناسی بهبود مییابد. این در حالی است که ویژگیهای به دست آمده از روش پیشنهادی، بازشناسی مقاومتری را در شرایط نویزی مختلف (تا حدود 13 درصد) حاصل مینمایند که نشان دهنده مقاوم به نویز بودن روش پیشنهادی است.
کلیدواژههای فارسی مقاله
عنوان انگلیسی
Robust Speech Recognition Using Temporal Pattern Feature Extracted From MTMLP Structure
چکیده انگلیسی مقاله
Temporal Pattern feature of a speech signal could be either extracted from the time domain or via their front-end vectors. This feature includes long-term information of variations in the connected speech units. In this paper, the second approach is followed, i.e. the features which are the cases of temporal computations, consisting of Spectral-based (LFBE) and Cepstrum-based (MFCC) feature vectors, are considered. To extract these features, we use posterior probability-based output of the proposed MTMLP neural networks. The combination of the temporal patterns, which represents the long-term dynamics of the speech signal, together with some traditional features, composed of the MFCC and its first and second derivatives are evaluated in an ASR task. It is shown that the use of such a combined feature vector results in the increase of the phoneme recognition accuracy by more than 1 percent regarding the results of the baseline system, which does not benefit from the long-term temporal patterns. In addition, it is shown that the use of extracted features by the proposed method gives robust recognition under different noise conditions (by 13 percent) and, therefore, the proposed method is a robust feature extraction method.
کلیدواژههای انگلیسی مقاله
نویسندگان مقاله
فرشاد الماس گنج |
دانشگاه امیرکبیر
سازمان اصلی تایید شده
: دانشگاه صنعتی امیرکبیر (Amirkabir university of technology)
یاسر شکفته |
دانشگاه امیرکبیر
سازمان اصلی تایید شده
: دانشگاه صنعتی امیرکبیر (Amirkabir university of technology)
نشانی اینترنتی
http://isee.ui.ac.ir/article_15397_00adafcd269a9075b4f0d469b80ddb65.pdf
فایل مقاله
اشکال در دسترسی به فایل - ./files/site1/rds_journals/1306/article-1306-343761.pdf
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات