این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
پردازش علائم و داده ها، جلد ۱۳، شماره ۱، صفحات ۳۹-۵۶

عنوان فارسی معرفی شبکه های عصبی پیمانه ای عمیق با ساختار فضایی-زمانی دوگانه جهت بهبود بازشناسی گفتار پیوسته فارسی
چکیده فارسی مقاله در این مقاله به معرفی شبکه‌های عصبی پیمانه ای عمیق و قابل رشد به منظور بهبود بازشناسی گفتار پیوسته پرداخته می شود. ساختار این شبکه ها و روش‎های پیش‎تعلیم معرفی شده برای آنها بگونه ای است که درعین هماهنگی با ساختار گفتار، در حافظه و محاسبات لازم صرفه جویی میشود. بدلیل قابلیت رشد این ساختارها، می‌توان در تعلیم آنها اطلاعات فضایی-زمانی بردارهای بازنمایی در ورودی و اطلاعات فضایی-زمانی برچسب آوایی آنها را در خروجی شبکه عصبی انجمن کرد. شبکه تعلیم یافته با این ساختار انجمنگر فضایی-زمانی دوگانه، میتواند زیرفضای زنجیره های معتبر آوایی دادگان را یادبگیرد. بنابراین، در ساختار خود زنجیره های خروجی نامعتبر را پالایش کرده و زنجیره های درست را میدهد. جهت بررسی عملکرد این ساختارها، از دودسته دادگان گفتاری فارس دات و فارس دات بزرگ استفاده شد. نتایج آزمایش‎ها نشان می‌دهند که میتوان دقت بازشناسی آوا را برروی دادگان فارس دات تا 2.7% با استفاده از شبکه‌های عصبی پیمانه ای عمیق نسبت به مدل‌های مخفی مارکوف بالابرد. که با توسعه آنها به ساختار فضایی-زمانی دوگانه این نتیجه تا 5.1% بهبودمی یابد. بدلیل عدم وجود برچسب های آوایی برای دادگان بزرگ، یک روش تعلیم نیمه سرپرستی شده برای تعلیم شبکه های عصبی برروی این دادگان پیشنهاد شده است که میتواند به درصد بازشناسی قابل مقایسه ای با مدلهای مخفی مارکوف دست یابد.
کلیدواژه‌های فارسی مقاله

عنوان انگلیسی Deep Modular Neural Networks with Double Spatio-temporal َAssociation Structure for Persian Continuous Speech Recognition
چکیده انگلیسی مقاله In this article, growable deep modular neural networks for continuous speech recognition are introduced. These networks can be grown to implement the spatio-temporal information of the frame sequences at their input layer as well as their labels at the output layer at the same time. The trained neural network with such double spatio-temporal association structure can learn the phonetic sequence subspace. Therefore, it can filter out invalid phonetic sequences in its own structure and output valid sequences. To evaluate the performance of these growable neural networks, we used FARSDAT and BIG FARSDAT datasets. Experimental results on FARSDAT show that deep modular neural networks outperform the phone accuracy rate of GMM-HMM models with an absolute improvement of 2.7%. Moreover, developing deep modular neural networks to a double spatio-temporal association structure improves their result by 5.1%. As there is no phonetic labeling for BIG FARSDAT, a semi-supervised learning algorithm is proposed to fine-tune the neural network with double spatio-temporal structure on this dataset, which achieves a comparable result with HMMs.
کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله زهره انصاری | zohreh ansari
speech processing lab., faculty of biomedical engineering, amirkabir university of technology, hafez ave., tehran
تهران، خیابان حافظ، دانشگاه صنعتی امیرکبیر، دانشکده مهندسی پزشکی، طبقه دوم، آزمایشگاه پردازش گفتار
سازمان اصلی تایید شده: دانشگاه صنعتی امیرکبیر (Amirkabir university of technology)

علی سید صالحی | ali seyyedsalehi
faculty of biomedical engineering, amirkabir university of technology, hafez ave., tehran
تهران، خیابان حافظ، دانشگاه صنعتی امیرکبیر، دانشکده مهندسی پزشکی
سازمان اصلی تایید شده: دانشگاه صنعتی امیرکبیر (Amirkabir university of technology)


نشانی اینترنتی http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-625-1&slc_lang=fa&sid=fa
فایل مقاله اشکال در دسترسی به فایل - ./files/site1/rds_journals/1315/article-1315-233327.pdf
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده مقالات پردازش گفتار
نوع مقاله منتشر شده پژوهشی
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات