این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
پردازش علائم و داده ها، جلد ۱۹، شماره ۲، صفحات ۳۹-۶۰

عنوان فارسی پرکردن داده‌های گمشده در داده‌های سری زمانی چندمتغیره
چکیده فارسی مقاله داده­های سری زمانی چندمتغیره در زمینه‌­های مختلف مانند بیوانفورماتیک، زیست­‌شناسی، ژنتیک، نجوم، علوم جغرافیایی و امور مالی یافت می‌­شوند. بسیاری از این مجموعه‌داده­‌ها دارای داده گمشده هستند. جایگذاری داده­‌های گمشده سری زمانی چندمتغیره، یکی از مباحث چالش برانگیز است و قبل از فرایند یادگیری یا پیش­بینی سری­‌های زمانی باید با دقت مورد توجه و بررسی قرار گیرد. تحقیقات فراوانی در استفاده از روش‌های مختلف برای جایگذاری داده‌­های گمشده سری زمانی انجام شده ­است که به‌طورمعمول شامل روش‌­های تجزیه و تحلیل و مدل­‌سازی­‌های ساده در کاربردهای خاص و یا سری­‌های زمانی تک‌متغیره هستند. در این مقاله یک نسخه بهبود‌یافته از درون‌یابی معکوس فاصله وزن‌دار برای جایگذاری داده‌­های گمشده پیشنهاد شده‌ است. روش درون‌یابی معکوس فاصله وزن‌دار دو محدودیت اساسی دارد: 1) یافتن بهترین نقاط نزدیک­تر به داده‌­های گمشده 2) انتخاب توان تأثیر بهینه برای همسایگان داده گمشده. برای بهبود روش درون‌یابی، از خوشه­‌بندی k-means استفاده شده ‌است، تا همسایه‌­های با بیشترین شباهت به الگوی داده­ای انتخاب شوند. از آنجا که میزان تأثیر هر یک از همسایه‌­ها بر روی داده گمشده متفاوت است، از الگوریتم جستجوی فاخته برای تعیین توان تأثیر همسایگی استفاده می­شود. برای ارزیابی عملکرد روش پیشنهادی، از پنج معیار ارزیابی شناخته‌شده ‌استفاده می­شود. نتایج تجربی بر روی چهار مجموعه‌داده UCI با درصدهای مختلف گمشدگی مورد بررسی قرار گرفته و در‌مجموع الگوریتم پیشنهادی نسبت به سه روش مقایسه‌­ای دیگر عملکرد بهتر و به‌طور میانگین حدود 05/0 خطای RMSE، 04/0 خطای MAE، 003/0 خطای MSE و  5 درصد خطای MAPE داشته است. میزان همبستگی داده‌های واقعی و مقدار برآورد‌شده در روش پیشنهادی بسیار مطلوب و در حدود 99 درصد است.
کلیدواژه‌های فارسی مقاله جایگذاری داده‌های گمشده، درون‌یابی IDW، الگوریتم جستجوی فاخته، خوشه‌بندی k‌-means، سری‌های زمانی چندمتغیره

عنوان انگلیسی Missing Data Imputation in Multivariate Time Series Data
چکیده انگلیسی مقاله Multivariate time series data are found in a variety of fields such as bioinformatics, biology, genetics, astronomy, geography and finance. Many time series datasets contain missing data. Multivariate time series missing data imputation is a challenging topic and needs to be carefully considered before learning or predicting time series. Frequent researches have been done on the use of different techniques for time series missing data imputation, which usually include simple analytic methods and modeling in specific applications or univariate time series. In this paper, a hybrid approach to obtain missing data is proposed. An improved version of inverse distance weighting (IDW) interpolation is used to missing data imputation. The IDW interpolation method has two major limitations: 1) finding closest points to missing data 2) Choosing the optimal effect power for missing data neighbors. Clustering has been used to remove the first constraint and find closest points to the missing data. With the help of clustering, the search radius and the number of input points that are supposed to be used in interpolation calculations are limited and controlled, and it is possible to determine which points are used to determine the value of a missing data.Therefore, most similar data to the missing data are found. In this paper, the k-maens clustering method is used to find similar data. This method has been more accurate than other clustering methods in multivariate time series. Evolutionary algorithms are used to find the optimal effect power of each data point to remove the second constraint. Considering that each sample within each cluster has a different effect on the estimation of missing data, cuckoo search is used to find the effect on missing data. The cuckoo search algorithm is applied to the data of each cluster, and each data sample that has more similarity with the missing data has more influence, and each data sample that has less similarity has less influence and has less influence in determining the amount of missing data. Among evolutionary algorithms, evolutionary cuckoo search algorithm is used due to high convergence speed, much less probability of being trapped in local optimal points, and ability to quickly solve high dimensional optimization problems in multivariate time series problems. To evaluate the performance of the proposed method, RMS, MAE, , MSE and MAPE criteria are used. Experimental results are investigated on four UCI datasets with different percentages of missingness and in general, the proposed algorithm performs better than the other three comparative methods with an average RMSE error of 0.05, MAE error of 0.04, MSE error of 0.003, and MAPE error of 5. The correlation between the actual data and the estimated value in the proposed method is about 99%.
کلیدواژه‌های انگلیسی مقاله Missing Data imputation, IDW Interpolation, Cuckoo Search Algorithm, k-means Clustering, Multivariate Time Series

نویسندگان مقاله نگین دانشپور | Negin Daneshpour
Shahid Rajaee Teacher Training University
دانشکده مهندسی کامپیوتر، دانشگاه تربیت دبیر شهید رجایی

سیده فاطمه میرابوالقاسمی | Seyedeh fatemeh mirabolghasemi
Shahid Rajaee Teacher Training University
دانشکده مهندسی کامپیوتر، دانشگاه تربیت دبیر شهید رجایی


نشانی اینترنتی http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-815-6&slc_lang=fa&sid=1
فایل مقاله فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده مقالات پردازش داده‌های رقمی
نوع مقاله منتشر شده پژوهشی
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات